Come creare un robot Web

August 6

Come creare un robot Web


Anche se suona inverosimile, bloccando i motori di ricerca con i robot è in realtà quello di un file robot.txt fa. I motori di ricerca utilizzano spider (o robot, o bot) per eseguire la scansione o indicizzare il tuo sito web, alla ricerca di parole chiave da utilizzare per portare il vostro sito web in una ricerca. Un file robot.txt è un file è possibile creare facilmente di lasciare che il ragno sa che non si desidera che strisciare sulla tua pagina, o una parte della pagina.

istruzione

1 Aprite il vostro editor di testo preferito. Non importa quello che editor di testo che si usa. Notepad funziona bene se siete su un PC, e si trovano sotto "Accessori".

2 Inserire due linee, una per il nome del ragno che verrà strisciando tua pagina web, e uno per il nome della directory o il file che si desidera escludere per la ricerca. Questa è la sintassi:

User-Agent: [ragno o il nome del Bot]
Disallow: [Directory o nome file]

Per esempio:

User-agent: Googlebot
Disallow: /mywebsite/private.html

dove "Googlebot" è il robot inviato da Google, e "private.html" è il file nella directory "mywebsite" che non si vuole che il robot da indicizzare.

3 Escludere una sezione del tuo sito da tutti i ragni. Se non si desidera che i robot di indicizzare una certa sezione del sito, utilizzare il carattere "*" dopo User-Agent. Il file sarebbe simile a questa:

User-agent: *
Disallow: /mywebsite/private.html

4 Escludere l'intero sito da tutti i robot. Se non si desidera che il tuo sito sia visibile da robot, (ad esempio, se si sta costruendo il vostro sito web, e non è pronto per essere visualizzato dal pubblico), inserire un carattere "*" dopo User-Agent, e il "/" dopo Disallow. Per esempio:

User-agent: *
Disallow: /

5 Se si desidera consentire a tutti i robot di accedere l'intero sito, è sufficiente aggiungere l'asterisco come prima, e lasciare la sezione Disallow vuoto, come segue:

User-agent: *
Disallow:

6 Salvare il file come robot.txt, e posizionarlo nella directory principale del tuo sito web. Ad esempio, http://www.mywebsite.com/robots.txt.

Consigli e avvertenze

  • Questa tecnica non è una misura di sicurezza. Pagine che non sono indicizzati possono ancora essere raggiunti. Ci sono centinaia di bot là fuori, alcuni dei quali non rispetteranno i vostri desideri, e cercherà sezioni riservate dei siti in ogni caso. Altri ancora sono stati progettati per cercare solo quelle sezioni ristrette.
  • Se si limita l'intero sito mentre è in fase di costruzione, ricordarsi di sollevare tale limitazione quando il sito è pronto per la visualizzazione in modo che possa essere indicizzato.