Come funziona Google Crawl?

January 5

Google utilizza un programma noto come "crawler Web" per raccogliere informazioni sulle pagine Web e siti. Copie di questo programma, chiamato "Googlebot", attraversano Internet da una pagina all'altra tramite collegamento ipertestuale, il download di informazioni per una successiva analisi e la classificazione. Questi crawler, insieme con il sistema di page ranking proprietaria di Google, sono la spina dorsale del popolare motore di ricerca e sono responsabili di immensa banca dati di informazioni sulla Web della società.

Web crawler

Un web crawler è un programma automatico che viaggia attraverso Internet, passando da una pagina all'altra. Questi programmi iniziano con un elenco di URL di semi, e il crawler inizia visitando la prima pagina della lista. Il programma scarica la pagina, prendendo nota di eventuali collegamenti ipertestuali e aggiungerli al fondo della sua lista. Quindi, elimina il primo URL e si muove per il secondo, ripetendo il processo. Come il crawler Web viaggia, si accumula un elenco sempre crescente di pagine da visitare, e se non a tempo indeterminato finirà per raggiungere ogni pagina collegata alla sua lista URL seme.

Comportamento

Quando un crawler Web raggiunge un sito, è possibile scaricare una notevole quantità di contenuti da server in un breve periodo, abbastanza per sopraffare alcuni host di siti web. Per questo motivo, legittimi crawler prima verificare la presenza di un file sul sito chiamato "robots.txt", che comprende le linee guida del proprietario del sito su cui pagine dovrebbero e non dovrebbero essere catalogati automaticamente. Questo permette all'autore di dirigere i programmi automatizzati per basso a pagine di larghezza di banda e impedisce ai programmi di scaricare file di grandi dimensioni o tutti i dati l'autore non avrebbe preferito vedere registrato.

PageRank

Una parte importante del sistema crawler Web di Google è tabulazione quanti "a ritroso", una pagina riceve. L'algoritmo PageRank aumenta posizionamento di un sito, in parte a causa di come molti altri siti si collegano ad essa, in base alla teoria che le pagine, naturalmente, link a siti con contenuti utili più spesso di quanto farebbero pagine di minor valore. Il più a ritroso una pagina ha, maggiore è la sua classifica, e, a sua volta maggiore è il valore dei propri collegamenti. Un singolo backlink da un sito altamente classificato può aumentare significativamente la visibilità di una pagina Web altrimenti insignificante, ancor più che più link da altri siti di basso rango.

interattività

Google permette agli autori di siti web per presentare le loro URL per l'inclusione nella prossima ricerca sul web crawler, permettendo nuove pagine di unirsi l'indice rapidamente, invece di aspettare per i loro legami organici. Web crawler di Google evidenzia anche collegamenti difettosi in quanto attraversa un sito web, avvisando i creatori di pagina per i collegamenti ipertestuali out-of-date o link malformati che devono essere corretti. I proprietari dei siti possono anche richiedere una diminuzione della frequenza delle visite cingolati, per ridurre la quantità di larghezza di banda utilizzata.