Come creare un Ragnatela

February 18

Un ragno web è un'applicazione per computer che scarica una pagina web, e poi segue tutti i link in quella pagina e li scarica pure. spider web sono utilizzati per memorizzare i siti web per la lettura offline, o per lo stoccaggio di pagine web in banche dati per essere utilizzati da un motore di ricerca. Creazione di un ragno Web è un compito impegnativo, adatto per una classe di programmazione a livello di college. Queste istruzioni presuppongono che dispone di esperienza di programmazione solida ma nessuna conoscenza dell'architettura ragno. I passi lay out un'architettura molto particolare per la scrittura di un ragno Web nella lingua prescelta.

istruzione

1 Inizializzare il programma con la pagina web iniziale che si desidera scaricare. Aggiungere l'URL per questa pagina ad un nuova tabella del database di URL.

2 Invia un comando al browser Web sia stato ordinato di recuperare questa pagina web, e salvarla su un disco. Spostare il puntatore del database avanti di un passo oltre l'URL appena scaricato, che ora puntare alla fine della tabella.

3 Leggi la pagina web nel programma, e analizzarlo per i collegamenti a pagine web supplementari. Questo è in genere fatto attraverso la ricerca di testo stringa "http: //", (., Ad esempio "", "", o ">") e catturare il testo tra quella corda e un carattere di terminazione. Aggiungere tali link la tabella del database URL; il puntatore del database deve rimanere in cima a questa nuova lista.

4 Verificare le voci nella tabella del database per l'unicità, e rimuovere qualsiasi URL che compaiono più di una volta.

5 Se si desidera applicare un filtro URL (ad esempio, per impedire il download di pagine dai siti a diversi domini), si applica ora alla tabella di database di URL e rimuovere tutti gli URL che non si desidera scaricare.

6 Impostare un ciclo programmatico in modo che il ragno torna al punto 2 di cui sopra. Ciò ricorsivamente scaricare tutti gli URL vostri incontri ragno. Rimozione di URL duplicati assicura che il ragno correttamente terminerà quando raggiunge l'ultimo URL univoco.

Consigli e avvertenze

  • Se si utilizza un sistema operativo Unix, controllare la documentazione di Unix (o "man pages") per curl e wget. Questi comandi includono molti built-in opzioni di spidering, che possono ridurre notevolmente i tempi di programmazione e la complessità.