Come funziona GoogleBot Sapere quando una pagina viene modificato?

June 19

Come funziona GoogleBot Sapere quando una pagina viene modificato?


spider di Google, noto anche come il Googlebot, esegue la scansione del Web su un proprio calendario, determinare quali pagine vengono modificate e richiedono reindexing confrontandoli con l'indice esistente. Anche se questo processo avviene molto rapidamente, è utile conoscere quali Stecche il Googlebot utilizza per la ricerca di pagine aggiornate ed i problemi che possono incontrare.

Googlebot Frequenza

ragno di Google esegue la scansione molto rapidamente il Web; molti siti vengono visitati ogni giorno. Questo non significa che il ragno esegue la scansione di tutte le pagine aggiornate, tuttavia. L'algoritmo di Google utilizza per determinare la frequenza di scansione include variabili quali page rank, il numero di link che puntano alla pagina, le informazioni nel sito e anche la lunghezza dell'URL. Una pagina specifica può essere aggiornato nell'indice di Google entro poche ore, mentre un altro non possono essere aggiornati per diversi giorni, a seconda di queste variabili.

Sitemaps

Uno spunto il Googlebot utilizza per determinare la freschezza del tuo sito è il file sitemap, un documento XML contenente sia le pagine importanti sul suo sito e la frequenza con cui è molto probabile che aggiornarli. È possibile creare una mappa del sito utilizzando una serie di strumenti on-line, compresi i servizi web gratuiti e WordPress plug-in, caricarlo al livello principale del sito e lo sottopone a Google tramite Google Webmaster Tools o il seguente URL:

http://www.google.com/webmasters/sitemaps/ping?sitemap=http://www.YourSite.com/sitemap.xml

If-Modified-Since

Un altro spunto è nell'intestazione HTTP del Web server del sito. Chiamato il "If-Modified-Since", quando il Googlebot raggiunge la tua pagina, si chiederà al server se la pagina è stata aggiornata dall'ultima visita. Se così, o quando la pagina è nuovo, il server restituisce una risposta "200 OK". Se la pagina non è stata modificata, questa intestazione restituisce la risposta "304 Non modificato", risparmiando il tempo di Googlebot e risparmiare larghezza di banda. problemi di configurazione con il server web potrebbe causare problemi con questa intestazione e impedire che il ragno di eseguire la scansione della pagina. È possibile verificare il If-Modified-Since con uno strumento online in Feedthebot.com.

Strumenti per i Webmaster

Google ha sviluppato il sito web Webmaster Tools per aiutare i proprietari di siti di monitorare le visite del Googlebot, nonché di vedere gli errori di indicizzazione e altri problemi che possono impedire a Google di indicizzare pagine aggiornate. Webmaster Tools include anche strumenti per la presentazione delle tue sitemap, presentando singole pagine per l'indicizzazione e la rimozione di URL che non si desidera visualizzare nell'indice di Google. C'è anche uno strumento che vi permetterà di controllare il file robots.txt, che mette in guardia i ragni lontano da pagine che non vuoi indicizzato.

AJAX contenuti

Sebbene AJAX aggiorna dinamicamente una pagina Web on-the-fly, il Googlebot vede solo il codice HTML della pagina e non eseguirà il codice JavaScript. Se si vuole Google per gli aggiornamenti indice composto utilizzando le funzionalità AJAX della pagina, è necessario includere HTML alternativo per il ragno. Google offre un metodo con il quale si può offrire una versione alternativa di contenuti AJAX per il Googlebot.