Come rilevare sostantivi in ​​Python

March 20

Come rilevare sostantivi in ​​Python


Rilevamento sostantivi in ​​Python richiede l'abilità di un programmatore e un linguista. La lingua inglese si pone trappole per il linguista computazionale intrepido con la sua ricca ambiguità morfologica. Per esempio, la parola "attraversa" potrebbe essere un sostantivo plurale o una terza persona, verbo tempo presente. Fortunatamente, i creatori del linguaggio naturale toolkit Python Module hanno sviluppato un tagger parte del discorso che rappresenta queste difficoltà e in grado di codificare le parole di frasi in inglese con le rispettive parti del discorso, tra i sostantivi.

istruzione

1 Scaricare e installare il modulo Python Natural Language Toolkit dal sito del progetto ntlk.org. Potrebbe essere necessario installare i moduli aggiuntivi per il sostegno NLTK.

2 Aprire una finestra di terminale e iniziare una sessione di Python digitando Python al prompt della riga di comando. Quando Python è installato e funzionante, richiamare il modulo NLTK con il NLTK comando di importazione. Le istruzioni e comandi simile a questa in Mac OS X:

My-MacBook-Pro: ~ $ PNA1 python

Python 2.6.1 (r261: 67515, 24 Giugno 2010, 21:47:49)

[GCC 4.2.1 (Apple Inc. costruire 5646)] su Darwin

Digitare "help", "diritto d'autore", "crediti" o "licenza" per ulteriori informazioni.

importazione NLTK

3 Richiamare la parte del discorso tagger e immettere la frase in cui si desidera rilevare i nomi digitando i seguenti comandi e dati al prompt di Python:

text = nltk.word_tokenize ( "L'uomo attraversa la strada per vendere croci.")

nltk.pos_tag (testo)

4 Premere il tasto Invio dopo >>> nltk.pos_tag (testo)

[( 'The', 'DT'), ( 'uomo', 'NN'), ( 'attraversa', 'VBZ'), ( 'la', 'DT'), ( 'strada', 'NN') , ( 'a', 'TO'), ( 'vendere', 'VB'), ( 'croci', 'NNS'), ( '.', '.')]

NLTK ha correttamente etichettato ogni parola nella frase. In particolare, ha rilevato i nomi e contrassegnati loro nomi come singolari con NN (uomo, strada) e sostantivi plurali con NNS (croci) e ha segnato correttamente la prima occorrenza di croci come verbo con il tag VBZ.

Consigli e avvertenze

  • Se si vuole vedere cosa c'è sotto il cofano di un modulo di elaborazione del linguaggio come NLTK, è necessario seguire corsi di Natural Language Processing e linguistica computazionale.