Come i motori di ricerca di lavoro

March 17

Come i motori di ricerca di lavoro


I motori di ricerca sono uno degli strumenti più importanti che è possibile utilizzare durante la navigazione il world wide web. Essi agiscono come un portale per le grandi quantità di informazioni disponibili on-line. Quando i motori di ricerca erano nella loro infanzia, sono stati utilizzati per un paio di migliaia di richieste al giorno. Ora la figura si staglia in decine di milioni di persone, con centinaia di milioni di pagine indicizzate. I motori di ricerca come Google, Yahoo e Bing sono scansione del Web ogni giorno per aiutare ad organizzare e presentare le nuove informazioni in un formato di ricerca-grado.

Crawling Web

Prima di visualizzare i risultati di ricerca basati su una query, i motori di ricerca devono effettuare un database locale da cui partire per fornire i risultati. Questo avviene tramite software "robot" noti come "spider". Ogni giorno questi robot strisciare attraverso le pagine web, indicizzazione come vanno. Una volta che il motore di ricerca ha visitato pagina di indice di un sito web, sarà poi strisciare attraverso ogni pagina successiva alla ricerca di parole chiave per memorizzare e collegamenti ipertestuali su cui continuare il suo viaggio. Diversi motori di ricerca operano in modi diversi. spider di Google lasciano fuori parole come "a", "an" e "la", mentre l'indice ragni di AltaVista ogni parola nella pagina. Questo è il motivo per cui diversi servizi Garner risultati diversi.

indicizzazione

Quando un ragno visita un sito web, si esegue la scansione di alcune parole da usare come parole chiave, che attivano il sito nei risultati di ricerca. Queste parole devono essere assegnati una sorta di priorità per categorizzare accuratamente il sito. I ragni cercheranno di frequenza delle parole, la posizione delle parole (nelle intestazioni, come titoli e collegamenti ipertestuali) e all'interno del codice HTML per la meta-tag e quindi applicare un "peso" per ogni voce. Questa priorità i risultati di ricerca e fornisce una panoramica accurata del vero contenuto di una pagina web.

Codifica e hashing

Una volta che gli spider di un motore di ricerca hanno creato i loro elenchi di parole chiave, i dati sono codificati per risparmiare spazio di archiviazione. La compressione qualsiasi raccolti dati assicura che può trovare rapidamente e memorizzato nel modo più economico possibile. Dati codificati viene poi indicizzato, e si crea una tabella di hash. La tabella hash è uno strumento importante per l'indicizzazione in quanto assegna un valore numerico per ogni parola chiave utilizzando una formula. Questa formula distribuisce le parole chiave indicizzate attraverso un determinato numero di divisioni, rendendo le voci di facile accesso. Questo assicura che le ricerche, anche complesse che coinvolgono un sacco di parole chiave sono facilmente accessibili utilizzando il valore numerico assegnato alla parola piuttosto che una query alfabetico.

Meta tags

Meta tag sono parole chiave contenute all'interno HTML di una pagina web. Essi sono posti nel documento specificamente per essere trovato da spider di un motore di ricerca. titolari di siti web possono specificare direttamente al ragno quali contenuti della pagina contiene e le parole chiave che potrebbero essere rilevanti in una ricerca. Non c'è niente di fermare l'autore di una pagina aggiungendo meta tag che non sono applicabili alla pagina per aumentare il traffico del sito. Tanti ragni ora verificare meta tag con le parole all'interno della pagina per la precisione. Meta tag sono utili quando una parola ha più significati, garantendo il ragno ha indicizzato correttamente i contenuti.

logica booleana

logica booleana è stato sviluppato da George Boole a metà del 19 ° secolo ed è stata implementata nei motori di ricerca. Utilizzando una varietà di "operatori", è possibile specificare se includere, escludere e raccogliere risultati molto particolari. operatori comuni da utilizzare all'interno dei motori di ricerca includono:

E: assicura due parole unite da e sono presenti nei risultati di ricerca-vino e California

O: assicura almeno una delle parole unite da O appare nei risultati-California rosso o bianco

NON: assicura il termine seguente non è escluso dai risultati-California vino non rosso

Seguito da: assicura uno dei termini di ricerca segue direttamente l'altro-California SEGUITO DA vino

Le virgolette "": per la ricerca di una frase esatta all'interno di un PAGE- "vino California 2009"

Questi operatori possono essere utilizzati per dirigere il motore di ricerca per le parti corrette del suo database localizzata e fornire risultati più accurati.