February 18
Un ragno web è un'applicazione per computer che scarica una pagina web, e poi segue tutti i link in quella pagina e li scarica pure. spider web sono utilizzati per memorizzare i siti web per la lettura offline, o per lo stoccaggio di pagine web in banche dati per essere utilizzati da un motore di ricerca. Creazione di un ragno Web è un compito impegnativo, adatto per una classe di programmazione a livello di college. Queste istruzioni presuppongono che dispone di esperienza di programmazione solida ma nessuna conoscenza dell'architettura ragno. I passi lay out un'architettura molto particolare per la scrittura di un ragno Web nella lingua prescelta.
1 Inizializzare il programma con la pagina web iniziale che si desidera scaricare. Aggiungere l'URL per questa pagina ad un nuova tabella del database di URL.
2 Invia un comando al browser Web sia stato ordinato di recuperare questa pagina web, e salvarla su un disco. Spostare il puntatore del database avanti di un passo oltre l'URL appena scaricato, che ora puntare alla fine della tabella.
3 Leggi la pagina web nel programma, e analizzarlo per i collegamenti a pagine web supplementari. Questo è in genere fatto attraverso la ricerca di testo stringa "http: //", (., Ad esempio "", "", o ">") e catturare il testo tra quella corda e un carattere di terminazione. Aggiungere tali link la tabella del database URL; il puntatore del database deve rimanere in cima a questa nuova lista.
4 Verificare le voci nella tabella del database per l'unicità, e rimuovere qualsiasi URL che compaiono più di una volta.
5 Se si desidera applicare un filtro URL (ad esempio, per impedire il download di pagine dai siti a diversi domini), si applica ora alla tabella di database di URL e rimuovere tutti gli URL che non si desidera scaricare.
6 Impostare un ciclo programmatico in modo che il ragno torna al punto 2 di cui sopra. Ciò ricorsivamente scaricare tutti gli URL vostri incontri ragno. Rimozione di URL duplicati assicura che il ragno correttamente terminerà quando raggiunge l'ultimo URL univoco.