Come posso dire se i robot hanno Scansionati mio sito?

April 14

Potreste essere sorpresi di apprendere che i motori di ricerca, come Google o Bing, e spammer professionisti hanno qualcosa in comune - che usano i robot di software automatizzati di setacciare il web per informazioni. Crawler e robot da imprese con buone intenzioni, come le società del motore di ricerca, si basano sul file "robots.txt" che si trova sul server Web per determinare quali pagine alla lista, o meno, nei loro indici. D'altra parte, gli spammer spesso ignorano le regole nel file "robot.txt" e sono semplicemente alla ricerca di indirizzi di posta elettronica a cui si possono inviare messaggi non richiesti. Indipendentemente dal tipo di robot che striscia o indicizza il tuo sito, però, è possibile monitorare le loro andirivieni utilizzando i file di log sul server.

istruzione

1 Accedere alla pagina web della pagina del pannello di accesso di controllo del vostro account di hosting. Si noti che con alcuni account di hosting Web, è necessario immettere un numero di porta con l'URL per accedere alla pagina del pannello di controllo. Ad esempio, l'URL di accesso per il vostro pannello di controllo potrebbe essere simile a "http://mywebsitename.com:2092" (senza le virgolette).

2 Fare clic su "Web log", "Statistiche analogici", "Webalizer", "Raw Accesso Logs" o altro collegamento simile nei "Registri" o "sezione Statistiche Web" del pannello di controllo.

3 Fare clic sul nome del nome a dominio per il quale si desidera esaminare log di accesso, se si dispone di più di un dominio sul server.

4 Selezionare l'ultima data o il mese indicato nella lista, come questa sezione contiene le voci di registro più up-to-date per il tuo sito.

5 Esaminare le voci di registro sotto il "Browser Report" o intestazioni "Riepilogo Browser". Rivedere l'elenco delle voci e cercare quelli che contengono le parole "robot", "spider", "bot", "Autobot" o le parole che sono simili. Si tratta di robot o crawler automatizzati in genere.

6 Esaminare il nome di dominio nell'URL contiene una delle parole chiave di cui sopra per i crawler o robot. Questo è il dominio di riferimento del sito web che inviare il robot o crawler al tuo sito. Se si collega il nome di dominio del sito in un motore di ricerca, si dovrebbe essere in grado di trovare informazioni sulla società o un sito che si riferiva il crawler al tuo sito web.

Consigli e avvertenze

  • I registri per il tuo sito dovrebbe anche contenere informazioni su quante volte crawler o robot accedere tuo sito.
  • Se non è possibile trovare le informazioni sul dominio di riferimento, con un motore di ricerca, utilizzare i siti di ricerca DNS, come DNSStuff.com, DNSWatch.com, e Whois.com.