January 26
I motori di ricerca come Google e Bing generano i link sui loro siti utilizzando programmi automatici di setacciare Internet per link e contenuti. Questi programmi, conosciuti come bot, crawler o spider, visitare un sito web in cui il proprietario del sito web presenta la URL del motore di ricerca, o quando i siti web visitati dai bot di ricerca collegamento a un altro sito. Il proprietario di un sito web potrebbe non volere il suo sito web, o parti del suo sito web, da quotate su un motore di ricerca. Per consentire ai proprietari di nascondere parti del loro sito web, i motori di ricerca cercano un file chiamato robots.txt immediatamente dopo la visita di un nuovo sito web.
1 Aprire un editor di testo, come Blocco note di Microsoft.
2 Digitare quanto segue per impedire eventuali bot di indicizzare tutte le zone del tuo sito.
User-agent: *
Disallow: /
3 Modificare il valore "User-agent" per il nome di un motore di ricerca 'ragno o multipli spider di ricerca per creare regole appositamente per quei bot. Modificare il valore "Disallow" ai nomi delle directory specifici per bloccare i bot di accedere solo gli indici, consentendo loro di attraversare il resto del sito. Aggiungere più "user-agent" linee per creare diversi "Non consentire" comandi per diversi bot. Ad esempio, le seguenti linee di bloccare la maggior parte bot di ricerca da tutte le parti di un sito web, ma permette i bot di Google libero accesso, ad eccezione di due directory:
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: / private /
Disallow: / secret /
4 Salvare il file di testo con il nome di "robots.txt" ESATTAMENTE. Non aggiungere capitalizzazione o di altre modifiche al nome del file.
5 Carica il file nella directory radice principale per il vostro sito web, dove si trova in genere il "Main", "benvenuto" o "pagina Indice". Verificare che l'indirizzo Web per il file finisce per separarsi dal titolo della pagina pagina di una singola barra rovesciata (www.example.com/robots.txt). Evitare di mettere il file in un'altra directory, come i robot controllano solo la directory principale per le istruzioni del file robots.txt.