Come Raschiare e analizzare gli indirizzi

April 1

Come Raschiare e analizzare gli indirizzi


Raschiatura e analisi sono due strettamente legate pratiche di data mining di siti web. Il più generale, l'analisi, si riferisce ad abbattere dati nelle sue parti costituenti. Quando la scuola media insegnante di inglese ti ha chiesto al diagramma frasi, sei stato l'analisi della parole di quelle frasi per le loro parti del discorso. Raschio più specificamente si riferisce ad analisi delle pagine Web per particolari tipi di dati, in questo caso, gli indirizzi. Il linguaggio di programmazione Python e l'estensione "BeautifulSoup" permettono all'utente di raschiare e analizzare siti web in poche righe di codice.

istruzione

1 Installare BeautifulSoup scaricando l'ultima versione dal software scadente e decomprimere decomprimere il file /. Aprire una finestra di terminale e digitare il seguente comando:
My-iMac: ~ me $ pitone Download / BeautifulSoup-3.2.0 / python setup.py install

Questo dice l'interprete Python per eseguire lo script di installazione BeautifulSoup che si trova nella cartella BeautfulSoup, che si trova nella cartella Download.

2 Digitare Python al prompt, ritorno e l'importazione BeautifulSoup colpire:
My-iMac: ~ $ me pitone

importazione BeautifulSoup

3 Eseguire il seguente script per aprire una pagina web e stampare qualsiasi Universal Resource Locator (indirizzi web) si potrebbe trovare in una pagina:

importazione urllib2
page = urllib2.urlopen ( "http: //www.THE URL che si desidera per raschiare QUI")
zuppa = BeautifulSoup (pagina)
soup.findAll ( 'a')
soup.strip print ()
stampare
Questo script aprirà una pagina web, analizzare il codice HTML, cercare il tag <a> in cui sono inseriti gli indirizzi web, rimuovere i tag e lasciare il testo.