Come usare Html5lib in Python

December 30

Il linguaggio di programmazione Python in grado di supportare HTML 5 siti web utilizzando la libreria 'Html5lib.' Questa libreria consente di scrivere script Python che analizzano HTML 5 pagine utilizzando una struttura ad albero. strutture ad albero sono viste gerarchiche di elementi della pagina web. Accesso a elementi della pagina web è realizzato utilizzando un albero camminatore. L'albero walker 'passeggiate' lungo i collegamenti dei nodi dell'albero, e può attraversare l'intero albero. È possibile utilizzare Python con 'Html5lib' di aprire, visualizzare e stampare un sito web HTML 5.

istruzione

1 Aprire l'editor di testo IDLE in Programmi (o applicazioni per Macintosh) nella directory Python. Si apre un file di codice sorgente vuoto.

2 Importare il modulo "Html5lib" scrivendo le seguenti istruzioni nella parte superiore del file di codice sorgente:

importazione html5lib

da treebuilders html5lib importazione, treewalkers, serializzatore

importazione urllib2

3 Creare un nuovo parser HTML 5, che verrà utilizzato per leggere un sito web HTML. Dichiarare un nuovo parser scrivendo il seguente:

parser = html5lib.HTMLParser ()

4 Aprire un sito web passando il suo nome nella funzione urllib2.urlopen. Per esempio, se si desidera aprire "www.website_adddress.com," scrivere la seguente:

URL = urllib2.urlopen ( "http://www.website_address.com") .read ()

5 Passare il sito web in HTML 5 parser per ricevere una rappresentazione ad albero. Salva questa rappresentazione in una variabile denominata "albero", scrivendo la seguente dichiarazione:

albero = parser.parse (URL)

6 Creare un albero walker come questo:

TreeWalker = treewalkers.getTreeWalker ( "dom")

7 Passeggiata attraverso l'albero con l'albero camminatore. L'albero camminatore restituirà un flusso di informazioni che scopre nel sito HTML 5. Per raggiungere a piedi attraverso l'albero, scrivere il seguente:

flusso = TreeWalker (albero)

8 Serializzare il flusso in modo che si può facilmente uscita alla console. È possibile serializzare il flusso utilizzando le seguenti due affermazioni:

seriali = serializer.htmlserializer.HTMLSerializer (omit_optional_tags = False)

output = serial.serialize (stream)

9 Scorrere l'uscita serializzato del torrente in questo modo:

per l'elemento in uscita:

10 Rientrare la riga immediatamente dopo l'istruzione precedente e scrivere una funzione di stampa, in questo modo:

stampa (elemento)

11 Eseguire il programma premendo F5. Lo script si aprirà e quindi analizzare una pagina web HTML 5. Lo script quindi serializza la struttura ad albero della pagina e uscite alla console. L'uscita varia a seconda della pagina Web scelto, ma potrebbe essere simile a questa:

<Html>

<Head>

</ Head>

<Body>

Benvenuti in una pagina web!

</ Body>

</ Html>