Spider Teoria Google

June 25

Al fine di creare e mantenere il suo database di pagine web, Google utilizza programmi automatici chiamati spider o crawler Web, per attraversare Internet e registrare le informazioni sui siti. Questi ragni scaricare pagine mentre viaggiano, la raccolta di informazioni per la tabulazione nel database del motore di ricerca. Google utilizza un sistema unico di classificare e classificare le pagine dei suoi ragni scoprono, e che il sistema è stato uno dei motivi per la popolarità del motore di ricerca e il successo nel corso degli anni.

ragni

spider web iniziano il loro viaggio attraverso internet con una serie di URL di semi forniti dal loro creatore. Il programma di visita la prima pagina della lista, lo scarica e note eventuali collegamenti ipertestuali sulla pagina, aggiungendoli al fondo della sua lista. Poi si visita la pagina successiva e ripete la procedura. Poiché il programma si sposta, si accumula un elenco di URL legati da visitare, e se non a tempo indeterminato sarebbe poi scaricare ogni pagina su Internet che è raggiungibile tramite collegamento ipertestuale. I ragni di solito hanno anche un algoritmo che li rimanda a pagine dopo un determinato periodo, di valutare le eventuali modifiche.

All'inizio Crawling Web

Quando i motori di ricerca hanno iniziato ad usare gli spider per catalogare le pagine Web, gli algoritmi coinvolti erano semplici. I primi motori di ricerca classificati pagine da quanto spesso una determinata parola chiave è apparso sulla pagina, partendo dal presupposto che più ripetizioni significava ulteriori informazioni sull'argomento selezionato. autori Web rapidamente imparato ad abusare di questo sistema, però, da una pratica nota come keyword stuffing. creatori pagina sarebbe utilizzare le parole chiave più volte nel testo, e sarebbe a volte nascondere le grandi banche di parole chiave nel testo invisibile da qualche parte sulla pagina per gonfiare la loro classifica.

Google

Nel 1996, gli studenti di Stanford Larry Page e Sergey Brin hanno deciso la metodologia motore di ricerca corrente era troppo facile da manipolare e hanno prodotto risultati inferiori alla media. Essi hanno proposto un nuovo sistema che tenga conto del rapporto tra le pagine Web invece di contare le parole su una pagina. I loro ragni avrebbero contare il numero di collegamenti ipertestuali che puntano ad una determinata pagina e l'uso che figura come una rappresentazione del valore relativo della pagina, assumendo che le pagine di alta qualità sarebbe naturalmente raccogliere molti di questi "ritroso" nella comunità online. Inizialmente, hanno chiamato il loro motore di ricerca "BackRub", ma sarebbe poi rinominarlo "Google", come è cresciuto da un progetto universitario in una nuova attività.

PageRank

sistema di PageRank di Google conta collegamenti ipertestuali a una pagina come "voti di sostegno." Quanto più sostenere una pagina ha, maggiore è la sua classifica. Con l'aumentare di rango di una pagina, in modo da fa il peso dei suoi voti, il che significa che un singolo voto da un alto rango pagina può significare più di voti multipli da siti meno importanti. Questo sistema di de-enfatizza la pratica di gonfiare il tuo PageRank con la creazione di una serie di pagine a basso contenuto di tutto punta a un singolo bersaglio, e può consentire le pagine Web a razzo attraverso i ranghi solo attirando l'attenzione di altri siti-alta classifica.