Come creare un file robots.txt per il tuo sito

July 28

Il file robots.txt fornisce le linee guida a tutti i robot web la scansione del sito. I motori di ricerca come robot utilizzo Web di Google e Bing di indicizzare automaticamente il Web. Per impostazione predefinita, i robot scansione del tuo intero sito web. Tuttavia, la maggior parte dei siti web includono i file che non sono destinate ad essere sottoposti a scansione perché non sono stati progettati come parte della porzione visualizzazione del sito o per ragioni amministrative. Il file robots.txt indica che le directory non dovrebbero essere sottoposti a scansione. Tenete a mente che il malware robot e altri programmi progettati per la ricerca di sistemi vulnerabili saranno ignorare il file, in modo da non utilizzare come misura di sicurezza.

istruzione

1 Aprire un programma di elaborazione testi testo semplice come Blocco note. Digitare la seguente riga nella parte superiore del file:

User-agent: *

Ciò si applica tutte le regole che seguono per tutti i robot.

2 Aggiungere una linea Disallow per ogni directory che non si desidera sottoporre a scansione:

Disallow: / administrator

Questa linea Disallow dice il robot non si vuole che entrare nella directory che segue, non includere tutta l'URL in questa linea. Ad esempio, per non consentire "mysite.com/dontcrawl," devi digitare "Disallow: / dontcrawl" al file robots.txt.

3 Aggiungere una riga Disallow aggiuntivo per ogni directory non si desidera scansione. Non mettere più di una directory per riga. È inoltre possibile impedire che un file o una pagina specifica inserendo il nome del file esatto.

4 Salvare il file come robots.txt sul computer. Il nome del file deve essere tutto minuscolo. Carica il file nella directory principale del tuo sito web utilizzando FTP o strumenti del tuo host web.

Consigli e avvertenze

  • Se il vostro hosting provider non vi permette di modificare o avere il proprio file robots.txt, si dovrebbe inserire una richiesta con loro per inserire un file personalizzato per il vostro sito sui loro server.
  • Tecnicamente, si indica i motori di ricerca che cosa possono vedere e indice, dicendo loro che cosa non guardare.
  • Non avendo un file robots.txt sul tuo sito, i motori di ricerca per scontato che tutto è OK per l'indice.
  • Controllare il file robots.txt su altri siti per vedere quello che stanno bloccando (compresi i motori di ricerca)
  • Per informare i ragni di non indicizzare un intera directory, assicurarsi di seguire il nome della directory con una barra finale. vale a dire: / directory /. La barra finale dice che il robot si tratta di una directory.
  • Sebbene la maggior parte dei robot sono in esecuzione da server UNIX, è una buona idea per assicurarsi che qualsiasi directory o file denominati nel file robots.txt sono esattamente lo stesso caso come il nome del file sul server. (Windows server saranno di server i nomi dei file di maiuscole e minuscole), server UNIX servirà anche i nomi di file maiuscole e minuscole, purché siano configurati per farlo.
  • le migliori prassi è quella di nominare tutti i file con schemi di lettera minuscola non importa quale piattaforma server ci si trova.
  • Auto generato file robots.txt che inviano altro che il testo potrebbe fare un motore di ricerca non indicizzare il tuo sito.
  • Se l'auto ha generato il file robots.txt di invio e la pagina HTML di nuovo, su richiesta, i motori di ricerca non possono indicizzare il tuo sito.