December 30
Il linguaggio di programmazione Python in grado di supportare HTML 5 siti web utilizzando la libreria 'Html5lib.' Questa libreria consente di scrivere script Python che analizzano HTML 5 pagine utilizzando una struttura ad albero. strutture ad albero sono viste gerarchiche di elementi della pagina web. Accesso a elementi della pagina web è realizzato utilizzando un albero camminatore. L'albero walker 'passeggiate' lungo i collegamenti dei nodi dell'albero, e può attraversare l'intero albero. È possibile utilizzare Python con 'Html5lib' di aprire, visualizzare e stampare un sito web HTML 5.
1 Aprire l'editor di testo IDLE in Programmi (o applicazioni per Macintosh) nella directory Python. Si apre un file di codice sorgente vuoto.
2 Importare il modulo "Html5lib" scrivendo le seguenti istruzioni nella parte superiore del file di codice sorgente:
importazione html5lib
da treebuilders html5lib importazione, treewalkers, serializzatore
importazione urllib2
3 Creare un nuovo parser HTML 5, che verrà utilizzato per leggere un sito web HTML. Dichiarare un nuovo parser scrivendo il seguente:
parser = html5lib.HTMLParser ()
4 Aprire un sito web passando il suo nome nella funzione urllib2.urlopen. Per esempio, se si desidera aprire "www.website_adddress.com," scrivere la seguente:
URL = urllib2.urlopen ( "http://www.website_address.com") .read ()
5 Passare il sito web in HTML 5 parser per ricevere una rappresentazione ad albero. Salva questa rappresentazione in una variabile denominata "albero", scrivendo la seguente dichiarazione:
albero = parser.parse (URL)
6 Creare un albero walker come questo:
TreeWalker = treewalkers.getTreeWalker ( "dom")
7 Passeggiata attraverso l'albero con l'albero camminatore. L'albero camminatore restituirà un flusso di informazioni che scopre nel sito HTML 5. Per raggiungere a piedi attraverso l'albero, scrivere il seguente:
flusso = TreeWalker (albero)
8 Serializzare il flusso in modo che si può facilmente uscita alla console. È possibile serializzare il flusso utilizzando le seguenti due affermazioni:
seriali = serializer.htmlserializer.HTMLSerializer (omit_optional_tags = False)
output = serial.serialize (stream)
9 Scorrere l'uscita serializzato del torrente in questo modo:
per l'elemento in uscita:
10 Rientrare la riga immediatamente dopo l'istruzione precedente e scrivere una funzione di stampa, in questo modo:
stampa (elemento)
11 Eseguire il programma premendo F5. Lo script si aprirà e quindi analizzare una pagina web HTML 5. Lo script quindi serializza la struttura ad albero della pagina e uscite alla console. L'uscita varia a seconda della pagina Web scelto, ma potrebbe essere simile a questa:
<Html>
<Head>
</ Head>
<Body>
Benvenuti in una pagina web!
</ Body>
</ Html>