Come: REGEX per analizzare XML

September 16

Come: REGEX per analizzare XML


Analisi XML rappresenta una sfida per l'analizzatore aspiranti testo a causa di estensibilità di XML. convenzioni di formattazione XML sono di natura gerarchica, cioè alcuni tag dominano altri tag. Espressioni regolari (regex) identificare i modelli di testo XML - Un REGEX per la corrispondenza tag XML abbinerà tutto dentro i tag XML <>, ma non verranno visualizzati l'organizzazione gerarchica di questi tag. E 'possibile separare questa struttura di tag dal testo utilizzando il linguaggio di programmazione Python e il pacchetto di Natural Language Toolkit, che incorpora le espressioni regolari e manipolazione del testo e in grado di visualizzare i tag XML e la loro organizzazione.

istruzione

1 Aprire una finestra di terminale e digitare il comando "python -v" al prompt per controllare la presenza e la versione di Python sul computer. Vai alla homepage NLTK e scaricare il pacchetto di installazione NLTK appropriato per il sistema operativo. Controllare che NLTK sia correttamente installata inserendo il comando ">>> import NLTK" al prompt di Python.

2 Tipo ">>> nltk.download ()" per aprire una finestra. Scegliere la riga con l'etichetta "tutto" e fare clic sul pulsante di download. Questo scaricherà una serie di testi per NLTK di lavorare con, tra le quali "Il Mercante di Venezia" di Shakespeare formattato con speciali tag XML per i giochi.

3 Importare il mercante di Venezia tag in XML con il seguente comando al prompt di Python:

merchant_file = nltk.data.find ( 'corpora / Shakespeare / merchant.xml')

Assegnare il file di una variabile in modo che si può manipolare con comandi Python:

cruda = aperto (merchant_file) .read ()

Giusto per assicurarsi che sia lì, digitare il seguente comando per visualizzare i primi 168 caratteri:

stampare greggio [0: 168]

Vedrete i tag di intestazione XML e le speciali etichette di gioco XML.

4 Immettere il seguente comando al prompt di Python:

da nltk.etree.ElementTree importazione ElementTree

e premere il tasto "Return", quindi digitare quanto segue al prompt di Python:

merchant = ElementTree (). parse (merchant_file)

Il comando di analisi permette all'utente di visualizzare i tag XML e il loro contenuto. Per costruire una visione gerarchica di tag XML correttamente nidificati, digitare il seguente comando al prompt di Python:

merchant.getchildren ()

Questo mostrerà tutti i particolari tag XML di gioco nel loro ordine gerarchico. L'output di questo comando dovrebbe essere simile a questo:

[<Elemento titolo a 2261b48>, <Elemento PERSONAE a 2261b20>, <Elemento SCNDESCR a 22cc260>, <Elemento PLAYSUBT a 22cc198>, <Elemento ACT a 22cc0f8>, <Elemento ACT a f2bff08>, <Elemento ACT a f3218a0>, <Elemento ACT a f0e8a30>, <Elemento ACT a ee07328>]