Quali sono ragni di Internet?

October 25

Quali sono ragni di Internet?


ragni Internet sono programmi per computer che strisciano da una pagina all'altra sul Web automatizzati. Essi svolgono attività di routine, come ad esempio le ricerche on-line, e di operare secondo una serie di criteri di comportamento definiti dai loro creatori, in modo che essi recuperare, indicizzare e classificare i contenuti Web più appropriato per il loro scopo.

componenti

Il principale componente funzionale di un ragno di Internet è conosciuta come una frontiera Universal Resource Locator (URL). L'URL Frontier è un elenco di indirizzi web che il ragno di Internet è ancora da esplorare. Gli altri componenti funzionali sono un modulo Domain Name System (DNS), un modulo di recupero, un modulo di analisi e un modulo di eliminazione di duplicazione. Il modulo DNS determina il server Web da cui il ragno di Internet recupera una pagina Web, i moduli prendere e parse recuperare e analizzare il contenuto e il modulo di eliminazione di duplicazione impedisce ogni pagina Web viene recuperato più di una volta.

operazione

La maggior parte delle pagine Web contengono collegamenti ipertestuali - parole, frasi, immagini o icone che gli utenti possono fare clic per spostarsi ad altre pagine Web - quindi, in teoria, un ragno Internet può iniziare a strisciare ovunque sul Web. In pratica, tuttavia, i ragni di Internet in genere inizia con alcune pagine web ben noti, conosciuti come semi. Il ragno recupera il contenuto di una di queste pagine, tra cui i collegamenti ad altre pagine, e aggiunge i collegamenti con l'URL di frontiera, che fornisce la base per un'ulteriore scansione.

Motori di ricerca

ragni Internet sono ampiamente utilizzati dai motori di ricerca, come Google e Yahoo !. I motori di ricerca in genere impiegano molti ragni di Internet, che operano in parallelo, per recuperare e indicizzare i contenuti Web. I ragni copiare il contenuto che trovano in un database e, in effetti, creare un indice locale, che i motori di ricerca possono cercare molto più veloce di tutto il Web quando un utente invia una query. ragni di Internet possono strisciare milioni di pagine Web in un breve lasso di tempo, ma anche molti ragni non possono sperare di strisciare tutto il Web prima di pagine vengono modificati o cancellati, in modo da cercare spider dei motori di selezionare le pagine che visitano e con quale frequenza.

Email raccolta

ragni Internet possono convalidare la struttura di pagine Web, inclusi collegamenti ipertestuali, o generare statistiche che permettono una migliore comprensione del contenuto del Web. Essi possono anche raccogliere, o "raccolto", informazioni specifiche, come ad esempio indirizzi e-mail, che può essere utilizzato da individui o gruppi per la distribuzione di posta Internet spazzatura senza scrupoli, altrimenti noto come spam.