Come usare Apache Crawl Via Java

September 23

Apache Nutch è un'applicazione Web crawler open-source scritto in linguaggio di programmazione Java. È stato sviluppato da Apache Software Foundation. Per utilizzare il crawler Apache sviluppato, è necessario disporre di Apache Tomcat e Java 1.4 di Sun o IBM installati sul computer Linux. Una volta installato, utilizzare Apache Nutch come un crawler Web per seminare un database con un elenco di un sito web indirizzi, proprio come giganti di Internet come Google e Yahoo fanno con i loro motori di ricerca.

istruzione

1 Aprire un editor di testo e modificare il file "crawl-urlfilter.txt" nella directory "conf". Sostituire il nome a dominio con il nome del sito che si desidera eseguire la scansione. Ad esempio, la linea completa di testo dovrebbe assomigliare a questo, una volta modificato, con il nome di dominio effettivo al posto di "example.com":

+ ^ Http: // (. [A-z0-9] * \) * example.com /

2 Avviare il prompt del terminale sul computer ed eseguire una scansione del sito designato. Tipo "./nutch crawl ../urls -dir ../crawled/ -depth 1" e premere il tasto "Enter".

3 Avviare il server Apache Tomcat. Tipo "catalina.sh iniziare" al prompt e premere il tasto "Enter".

4 Aprire un browser Web e visitare "http: // localhost:. 8080 / & quot; per accedere alla funzione di ricerca digitare una o più parole chiave nella casella di ricerca del dell'interfaccia e fare clic sul pulsante" Cerca "I risultati della ricerca vengono visualizzati sul. pagina successiva.