Come creare un file robots.txt per il tuo sito / Myclads.com

Come creare un file robots.txt per il tuo sito

July 28

Il file robots.txt fornisce le linee guida a tutti i robot web la scansione del sito. I motori di ricerca come robot utilizzo Web di Google e Bing di indicizzare automaticamente il Web. Per impostazione predefinita, i robot scansione del tuo intero sito web. Tuttavia, la maggior parte dei siti web includono i file che non sono destinate ad essere sottoposti a scansione perché non sono stati progettati come parte della porzione visualizzazione del sito o per ragioni amministrative. Il file robots.txt indica che le directory non dovrebbero essere sottoposti a scansione. Tenete a mente che il malware robot e altri programmi progettati per la ricerca di sistemi vulnerabili saranno ignorare il file, in modo da non utilizzare come misura di sicurezza.

istruzione

1 Aprire un programma di elaborazione testi testo semplice come Blocco note. Digitare la seguente riga nella parte superiore del file:

User-agent: *

Ciò si applica tutte le regole che seguono per tutti i robot.

2 Aggiungere una linea Disallow per ogni directory che non si desidera sottoporre a scansione:

Disallow: / administrator

Questa linea Disallow dice il robot non si vuole che entrare nella directory che segue, non includere tutta l'URL in questa linea. Ad esempio, per non consentire "mysite.com/dontcrawl," devi digitare "Disallow: / dontcrawl" al file robots.txt.

3 Aggiungere una riga Disallow aggiuntivo per ogni directory non si desidera scansione. Non mettere più di una directory per riga. È inoltre possibile impedire che un file o una pagina specifica inserendo il nome del file esatto.

4 Salvare il file come robots.txt sul computer. Il nome del file deve essere tutto minuscolo. Carica il file nella directory principale del tuo sito web utilizzando FTP o strumenti del tuo host web.

Consigli e avvertenze

Se il vostro hosting provider non vi permette di modificare o avere il proprio file robots.txt, si dovrebbe inserire una richiesta con loro per inserire un file personalizzato per il vostro sito sui loro server.
Tecnicamente, si indica i motori di ricerca che cosa possono vedere e indice, dicendo loro che cosa non guardare.
Non avendo un file robots.txt sul tuo sito, i motori di ricerca per scontato che tutto è OK per l'indice.
Controllare il file robots.txt su altri siti per vedere quello che stanno bloccando (compresi i motori di ricerca)
Per informare i ragni di non indicizzare un intera directory, assicurarsi di seguire il nome della directory con una barra finale. vale a dire: / directory /. La barra finale dice che il robot si tratta di una directory.
Sebbene la maggior parte dei robot sono in esecuzione da server UNIX, è una buona idea per assicurarsi che qualsiasi directory o file denominati nel file robots.txt sono esattamente lo stesso caso come il nome del file sul server. (Windows server saranno di server i nomi dei file di maiuscole e minuscole), server UNIX servirà anche i nomi di file maiuscole e minuscole, purché siano configurati per farlo.
le migliori prassi è quella di nominare tutti i file con schemi di lettera minuscola non importa quale piattaforma server ci si trova.
Auto generato file robots.txt che inviano altro che il testo potrebbe fare un motore di ricerca non indicizzare il tuo sito.
Se l'auto ha generato il file robots.txt di invio e la pagina HTML di nuovo, su richiesta, i motori di ricerca non possono indicizzare il tuo sito.