April 12
Un ragno Web è un programma che esegue la scansione del Internet in un determinato modo significativo. spider web sono utilizzati dai motori di ricerca di Internet, come Google, Yahoo e molti altri per recuperare e indicizzare i contenuti. Ma possono anche essere utilizzati per raccogliere informazioni - tra cui indirizzi e-mail - il contenuto dell'archivio e generare statistiche.
Lo scopo di spider dei motori di ricerca sul web è quello di rendere la ricerca Internet come rapido ed efficiente possibile. spider web possono accedere a siti web pubblicamente accessibili, copiare il contenuto in un database e l'indice su base regolare. Ciò significa che quando si entra in una query in un motore di ricerca è possibile cercare rapidamente l'indice locale e restituire i risultati che sono più applicabili alla tua richiesta. spider dei motori di ricerca Web utilizzano una serie di politiche di comportamento per determinare la frequenza con cui i siti web sono state visitate e quali pagine Web vengono copiati nel database.
Se si desidera aumentare il profilo, o la visibilità, del tuo sito web su Internet, è possibile registrare con un motore di ricerca. È inoltre possibile utilizzare Hypertext Markup Language (HTML) tag, noto come meta tag, nella parte superiore di ogni pagina Web per descrivere il suo contenuto e per fornire parole chiave - un piccolo insieme di parole che trasmettono l'oggetto del contenuto - a un ragnatela. Questa informazione determina il modo in cui il contenuto viene indicizzato nel database del motore di ricerca.
La copia del contenuto del sito web da spider web non è considerato una violazione del diritto d'autore negli Stati Uniti, ma anche così, si potrebbe desiderare di evitare che il vostro sito web in fase di scansione. Per fare questo, è possibile aggiungere un protocollo di esclusione robot - in genere in un file chiamato "robot.txt" - a una pagina Web. Un protocollo di esclusione robot indica ad un ragno Web che una pagina non è adatto per la scansione o semplicemente che il suo proprietario non vuole che essere sottoposti a scansione. Attenzione, però, che non c'è nulla di giuridicamente vincolante sui protocolli di esclusione di robot, e alcuni ragni Web sono programmati di ignorare del tutto.
Altri tipi, non tradizionali di ragni web può essere utilizzato per scattare un'istantanea del contenuto di Internet in qualsiasi momento, o per generare statistiche che permettono al contenuto di essere capito. Allo stesso modo, alcuni ragni Web possono essere utilizzati per verificare la validità del codice HTML e collegamenti ipertestuali - parole, frasi o immagini in cui i visitatori possono fare clic - in una pagina Web. Purtroppo, un altro tipo di maligno ragno Web può essere utilizzato per raccogliere indirizzi e-mail, che vengono utilizzati per generare non richiesti, o spam, messaggi e-mail.