Con che frequenza Google Spider?

November 7

Con che frequenza Google Spider?


Come gli altri motori di ricerca, Google assembla il suo database di contenuti Internet utilizzando un pezzo di software chiamato un "ragno". Ragni regolarmente "strisciare" il Web, seguendo i link tra le pagine e reporting quello che trovano per i computer che eseguono loro. In questo modo Google rimane up-to-date sulle posizioni ei contenuti dei siti innumerevoli e in continua evoluzione che compongono il Web. Googlebot è in continua scansione del Web, ma può visitare diversi siti web ad intervalli di frequenze molto diversi.

Googlebot

software spider di Google si chiama "Googlebot", ed è alimentato da un grande insieme di computer che utilizzano costantemente il programma per la scansione del Web, informazioni di registrazione sui siti che trova e il ritorno che le informazioni ai server di Google. Per trovare siti per strisciare, Googlebot utilizza l'elenco dei siti già nel database, e controlla quei siti per i collegamenti ad altri siti, cui segue rapidamente.

Frequenza

Googlebot è sempre scansione del Web, ed è progettato per registrare i cambiamenti nei siti già sottoposti a scansione il più rapidamente possibile - di solito nel giro di pochi secondi. Speciali algoritmi determinano quanto spesso Googlebot esegue la scansione di un sito particolare, simile agli algoritmi PageRank che determinano importanza di un sito nei risultati di ricerca di Google. Una pagina con molte altre pagine che si collegano ad essa, o uno che cambia frequentemente, vedrà visite più frequenti da Googlebot.

Registrazione Googlebot Visite

Sito web server log visite da Googlebot proprio come log colpi da qualsiasi altro client e programmi speciali esistono specificamente per monitorare il traffico Googlebot. Se avete un blog o un sito web in esecuzione sul quadro di WordPress, per esempio, è possibile installare un plugin per tenere sotto controllo la frequenza con cui Googlebot esegue la scansione del tuo sito.

Blocco Googlebot

Come altri ragni, Googlebot è programmato per controllare server di un sito web per un file di testo chiamato "robots.txt". Modificando il contenuto di questo file, si può dire Googlebot di ignorare le pagine particolari, impedendole di ritornare informazioni su di loro a Google; in questo modo è possibile mantenere le pagine o l'intero sito, fuori dalla lista dei risultati di ricerca di Google. Si noti che mentre Googlebot - e tutti i programmi ragno rispettabili - obbedire tali restrizioni, avendo un file robots.txt non impedisce ragni progettati da programmatori meno scrupolosi di eseguire la scansione altri siti che possono raggiungere sulla rete.