Durante la ricerca su Internet, che cosa è un ragno?

July 15

Quando sulla ricerca in Internet, un ragno - anche conosciuto come un ragno di Internet, Web spider o crawler Web - è un programma che cerca, indici e classifica le pagine Web. Si chiama un ragno perché, come un vero ragno, si "striscia" da una pagina all'altra in modo significativo. Un ragno web raccoglie informazioni su ogni pagina Web, comprese le eventuali riferimenti ai documenti citati dalla pagina, e segue i collegamenti ad altre pagine.

Punto di partenza

Un ragno funziona efficacemente come un browser Web, ma può visitare milioni di pagine al secondo e, perché la maggior parte delle pagine Web contengono collegamenti ad altre pagine, si può iniziare a strisciare quasi ovunque sul Web. Tuttavia, i punti di partenza più comuni per gli spider Web sono elenchi di pagine Web noti i cui server Web sono fortemente caricati.

I ragni dei motori di ricerca

Un motore di ricerca è un sito web o un programma che cerca in Internet per le pagine Web che contengono parole chiave o frasi specificate dall'utente. I principali motori di ricerca, come Google e Yahoo !, utilizzano molti ragni Web, lavorando in parallelo, per accedere alle pagine Web, copiare il contenuto in un database e l'indice per riferimenti futuri. Quando un utente inserisce una query in un motore di ricerca, il motore di ricerca cerca attraverso il suo indice locale, piuttosto che l'intero World Wide Web, in modo che possa restituire le pagine Web più applicabile in modo rapido ed efficiente.

Tag HTML

titolari di siti web in genere vogliono guidare quanto più traffico possibile ai loro siti web, in modo che includono informazioni - in forma di Hypertext Markup Language (HTML) tag su ogni pagina Web - per raccontare un ragno Web come indicizzare il contenuto. Tuttavia, alcune pagine Web può non essere adatto per la scansione, in modo da proprietari di siti web possono includere anche un file chiamato robot.txt, che contiene un protocollo di esclusione robot. Un protocollo di esclusione robot dice ragni non eseguire la scansione di una pagina, ma alcuni ragni sono programmati per eseguire la scansione di tutte le pagine web accessibili al pubblico, a prescindere dei protocolli di esclusione robot.

Email raccolta

Un altro uso legittimo dei ragni sta convalidando la struttura delle pagine Web, incluse le parole, frasi, immagini e icone su cui i visitatori possono fare clic per spostarsi da una pagina all'altra, noto come collegamenti ipertestuali. I ragni possono anche generare statistiche Web o semplicemente creare un'istantanea di contenuti Web in qualsiasi momento. spider web meno bonari possono raccogliere indirizzi e-mail e altre informazioni di contatto da pagine Web e utilizzarlo per scopi tutt'altro che salate, tra cui e-mail non richieste, o spamming.