Quali sono Ragni & Perché sono alla ricerca al mio sito web?

April 12

Quali sono Ragni & Perché sono alla ricerca al mio sito web?


Un ragno Web è un programma che esegue la scansione del Internet in un determinato modo significativo. spider web sono utilizzati dai motori di ricerca di Internet, come Google, Yahoo e molti altri per recuperare e indicizzare i contenuti. Ma possono anche essere utilizzati per raccogliere informazioni - tra cui indirizzi e-mail - il contenuto dell'archivio e generare statistiche.

Motori di ricerca

Lo scopo di spider dei motori di ricerca sul web è quello di rendere la ricerca Internet come rapido ed efficiente possibile. spider web possono accedere a siti web pubblicamente accessibili, copiare il contenuto in un database e l'indice su base regolare. Ciò significa che quando si entra in una query in un motore di ricerca è possibile cercare rapidamente l'indice locale e restituire i risultati che sono più applicabili alla tua richiesta. spider dei motori di ricerca Web utilizzano una serie di politiche di comportamento per determinare la frequenza con cui i siti web sono state visitate e quali pagine Web vengono copiati nel database.

Inclusione

Se si desidera aumentare il profilo, o la visibilità, del tuo sito web su Internet, è possibile registrare con un motore di ricerca. È inoltre possibile utilizzare Hypertext Markup Language (HTML) tag, noto come meta tag, nella parte superiore di ogni pagina Web per descrivere il suo contenuto e per fornire parole chiave - un piccolo insieme di parole che trasmettono l'oggetto del contenuto - a un ragnatela. Questa informazione determina il modo in cui il contenuto viene indicizzato nel database del motore di ricerca.

Esclusione

La copia del contenuto del sito web da spider web non è considerato una violazione del diritto d'autore negli Stati Uniti, ma anche così, si potrebbe desiderare di evitare che il vostro sito web in fase di scansione. Per fare questo, è possibile aggiungere un protocollo di esclusione robot - in genere in un file chiamato "robot.txt" - a una pagina Web. Un protocollo di esclusione robot indica ad un ragno Web che una pagina non è adatto per la scansione o semplicemente che il suo proprietario non vuole che essere sottoposti a scansione. Attenzione, però, che non c'è nulla di giuridicamente vincolante sui protocolli di esclusione di robot, e alcuni ragni Web sono programmati di ignorare del tutto.

Altri tipi di ragni

Altri tipi, non tradizionali di ragni web può essere utilizzato per scattare un'istantanea del contenuto di Internet in qualsiasi momento, o per generare statistiche che permettono al contenuto di essere capito. Allo stesso modo, alcuni ragni Web possono essere utilizzati per verificare la validità del codice HTML e collegamenti ipertestuali - parole, frasi o immagini in cui i visitatori possono fare clic - in una pagina Web. Purtroppo, un altro tipo di maligno ragno Web può essere utilizzato per raccogliere indirizzi e-mail, che vengono utilizzati per generare non richiesti, o spam, messaggi e-mail.