Che cosa è un Bot Spider?

May 14

Che cosa è un Bot Spider?


Un ragno bot è un programma per computer automatizzato - bot è una scorciatoia per "robot" - che accede a pagine accessibili al pubblico sul web, recupera il contenuto e cataloghi IT. ragni Bot seguono anche tutti i link esterni, o collegamenti ipertestuali - parole, frasi e immagini in cui gli utenti possono fare clic per spostarsi da una pagina all'altra - su una pagina e catalogare i contenuti che trovano.

Come Bot ragni lavoro

Un ragno bot inizia in genere con un unico, ben noto indirizzo Web, altrimenti noto come Universal Resource Locator (URL). Il ragno bot scarica il contenuto dalla pagina Web associata a quell'indirizzo e lo copia in un database. Tutti i link esterni sulla pagina vengono aggiunti a un elenco, noto come URL di frontiera, che il ragno bot utilizza per scaricare e copiare il contenuto dalla pagina di destinazione o di destinazione per ogni link. Naturalmente, la maggior parte delle pagine web contengono collegamenti, in modo da ragni bot può iniziare la ricerca, o "strisciare", quasi ovunque sul Web.

Motori di ricerca

I motori di ricerca, come Google, Yahoo! e molti altri, usano un gruppo di ragni bot, che operano in parallelo, per creare uno snapshot del web su base regolare. L'obiettivo è quello di creare un catalogo locale, o di un indice, di pagine web che il motore di ricerca può cercare i risultati più applicabili quando un utente digita una query. Una serie di politiche comportamentali, definite dal creatore dei ragni bot, determina quali pagine web sono state visitate e con quale frequenza. Un motore di ricerca, tuttavia, deve mantenere un catalogo up-to-date, se vuole mantenere la sua affidabilità e la credibilità.

selettività

Il Web è costituito da milioni di pagine, quindi, anche un gruppo di ragni non si può pretendere di scaricare tutto il Web prima di pagine vengono aggiunte, modificate o eliminate. ragni Bot devono quindi dare la priorità alle pagine scaricate e copiare, spesso in relazione a un argomento predefinito, o un elenco di argomenti, oppure scaricando solo le pagine con il testo statico - scritto in Hypertext Markup Language (HTML) - e ignorando tutti gli altri tipi di contenuti.

altre applicazioni

ragni bot non vengono utilizzati solo dai motori di ricerca. Essi possono essere utilizzati da altre applicazioni per convalidare la struttura delle pagine Web, tra cui i collegamenti ipertestuali, o per generare statistiche che permettono di contenuto Web per essere meglio compresa. ragni Bot può essere utilizzato anche per raccogliere informazioni specifiche, inclusi gli indirizzi e-mail e le informazioni di contatto, una funzione che viene spesso sfruttato da mittenti di corrispondenza internet spazzatura, o spam.