Come evitare controlli Bot

January 26

Come evitare controlli Bot


I motori di ricerca come Google e Bing generano i link sui loro siti utilizzando programmi automatici di setacciare Internet per link e contenuti. Questi programmi, conosciuti come bot, crawler o spider, visitare un sito web in cui il proprietario del sito web presenta la URL del motore di ricerca, o quando i siti web visitati dai bot di ricerca collegamento a un altro sito. Il proprietario di un sito web potrebbe non volere il suo sito web, o parti del suo sito web, da quotate su un motore di ricerca. Per consentire ai proprietari di nascondere parti del loro sito web, i motori di ricerca cercano un file chiamato robots.txt immediatamente dopo la visita di un nuovo sito web.

istruzione

1 Aprire un editor di testo, come Blocco note di Microsoft.

2 Digitare quanto segue per impedire eventuali bot di indicizzare tutte le zone del tuo sito.

User-agent: *

Disallow: /

3 Modificare il valore "User-agent" per il nome di un motore di ricerca 'ragno o multipli spider di ricerca per creare regole appositamente per quei bot. Modificare il valore "Disallow" ai nomi delle directory specifici per bloccare i bot di accedere solo gli indici, consentendo loro di attraversare il resto del sito. Aggiungere più "user-agent" linee per creare diversi "Non consentire" comandi per diversi bot. Ad esempio, le seguenti linee di bloccare la maggior parte bot di ricerca da tutte le parti di un sito web, ma permette i bot di Google libero accesso, ad eccezione di due directory:

User-agent: *

Disallow: /

User-agent: Googlebot

Disallow: / private /

Disallow: / secret /

4 Salvare il file di testo con il nome di "robots.txt" ESATTAMENTE. Non aggiungere capitalizzazione o di altre modifiche al nome del file.

5 Carica il file nella directory radice principale per il vostro sito web, dove si trova in genere il "Main", "benvenuto" o "pagina Indice". Verificare che l'indirizzo Web per il file finisce per separarsi dal titolo della pagina pagina di una singola barra rovesciata (www.example.com/robots.txt). Evitare di mettere il file in un'altra directory, come i robot controllano solo la directory principale per le istruzioni del file robots.txt.

Consigli e avvertenze

  • L'asterisco è un comando speciale in robots.txt che chiama tutti i bot di ricerca. Non può essere usato come un comando "wild card" in qualsiasi altro modo.
  • È possibile nascondere le pagine specifiche, nonché elenchi digitando il percorso della directory del file. Ad esempio, il seguente testo si nasconde solo la pagina "nospiders.html" che si trova nella directory "segreto": "Non consentire: /secret/nospiders.html".
  • Alterare il nome del file o di riporla in qualsiasi directory diversa dalla directory radice causerà bot di ignorare le istruzioni nel file.