July 28
Il file robots.txt fornisce le linee guida a tutti i robot web la scansione del sito. I motori di ricerca come robot utilizzo Web di Google e Bing di indicizzare automaticamente il Web. Per impostazione predefinita, i robot scansione del tuo intero sito web. Tuttavia, la maggior parte dei siti web includono i file che non sono destinate ad essere sottoposti a scansione perché non sono stati progettati come parte della porzione visualizzazione del sito o per ragioni amministrative. Il file robots.txt indica che le directory non dovrebbero essere sottoposti a scansione. Tenete a mente che il malware robot e altri programmi progettati per la ricerca di sistemi vulnerabili saranno ignorare il file, in modo da non utilizzare come misura di sicurezza.
1 Aprire un programma di elaborazione testi testo semplice come Blocco note. Digitare la seguente riga nella parte superiore del file:
User-agent: *
Ciò si applica tutte le regole che seguono per tutti i robot.
2 Aggiungere una linea Disallow per ogni directory che non si desidera sottoporre a scansione:
Disallow: / administrator
Questa linea Disallow dice il robot non si vuole che entrare nella directory che segue, non includere tutta l'URL in questa linea. Ad esempio, per non consentire "mysite.com/dontcrawl," devi digitare "Disallow: / dontcrawl" al file robots.txt.
3 Aggiungere una riga Disallow aggiuntivo per ogni directory non si desidera scansione. Non mettere più di una directory per riga. È inoltre possibile impedire che un file o una pagina specifica inserendo il nome del file esatto.
4 Salvare il file come robots.txt sul computer. Il nome del file deve essere tutto minuscolo. Carica il file nella directory principale del tuo sito web utilizzando FTP o strumenti del tuo host web.