April 14
Potreste essere sorpresi di apprendere che i motori di ricerca, come Google o Bing, e spammer professionisti hanno qualcosa in comune - che usano i robot di software automatizzati di setacciare il web per informazioni. Crawler e robot da imprese con buone intenzioni, come le società del motore di ricerca, si basano sul file "robots.txt" che si trova sul server Web per determinare quali pagine alla lista, o meno, nei loro indici. D'altra parte, gli spammer spesso ignorano le regole nel file "robot.txt" e sono semplicemente alla ricerca di indirizzi di posta elettronica a cui si possono inviare messaggi non richiesti. Indipendentemente dal tipo di robot che striscia o indicizza il tuo sito, però, è possibile monitorare le loro andirivieni utilizzando i file di log sul server.
1 Accedere alla pagina web della pagina del pannello di accesso di controllo del vostro account di hosting. Si noti che con alcuni account di hosting Web, è necessario immettere un numero di porta con l'URL per accedere alla pagina del pannello di controllo. Ad esempio, l'URL di accesso per il vostro pannello di controllo potrebbe essere simile a "http://mywebsitename.com:2092" (senza le virgolette).
2 Fare clic su "Web log", "Statistiche analogici", "Webalizer", "Raw Accesso Logs" o altro collegamento simile nei "Registri" o "sezione Statistiche Web" del pannello di controllo.
3 Fare clic sul nome del nome a dominio per il quale si desidera esaminare log di accesso, se si dispone di più di un dominio sul server.
4 Selezionare l'ultima data o il mese indicato nella lista, come questa sezione contiene le voci di registro più up-to-date per il tuo sito.
5 Esaminare le voci di registro sotto il "Browser Report" o intestazioni "Riepilogo Browser". Rivedere l'elenco delle voci e cercare quelli che contengono le parole "robot", "spider", "bot", "Autobot" o le parole che sono simili. Si tratta di robot o crawler automatizzati in genere.
6 Esaminare il nome di dominio nell'URL contiene una delle parole chiave di cui sopra per i crawler o robot. Questo è il dominio di riferimento del sito web che inviare il robot o crawler al tuo sito. Se si collega il nome di dominio del sito in un motore di ricerca, si dovrebbe essere in grado di trovare informazioni sulla società o un sito che si riferiva il crawler al tuo sito web.