Strumenti per Data Mining e apprendimento pratico della macchina

April 16

Data mining e machine learning sono due aree della scienza che attingono da una varietà di discipline con l'obiettivo di utilizzare i computer per raccogliere informazioni dai corpi di testo. Idee dai campi della linguistica, informatica e matematica sono impiegati per determinare le relazioni tra le parole e le frasi e di creare modelli e descrizioni delle caratteristiche del testo. Questi principi e le idee vengono applicate nei pacchetti di data mining e software di apprendimento automatico.

Natural Language Toolkit

Conosciuto anche come NLTK, il linguaggio naturale Toolkit è una raccolta di librerie software che aiutano nella elaborazione del linguaggio statistico. Collezioni di testo chiamato corpora vengono importate in NLTK e moduli sono chiamati ad analizzare il testo e produrre comprensione circa la natura del testo. I moduli includono parola derivante, estrazione pezzo e analisi grammaticale. Il NLTK è stato scritto per il più alto livello di programmazione linguaggio Python. Si tratta di un progetto open-source che continua ad essere rivisto e migliorato da collaboratori provenienti da tutto il mondo.

Weka

Weka fornisce un insieme di algoritmi di apprendimento automatico che sono frequentemente utilizzate per l'analisi del testo durante i processi di data mining. Questo pacchetto software è guidata dal gruppo Machine Learning presso l'Università di Waikato, Nuova Zelanda. Weka è implementato nel linguaggio di programmazione Java ed è distribuito gratuitamente sotto la GNU General Public License. Questo pacchetto fornisce i metodi per la pre-elaborazione di testo, come ad esempio il disegno informazioni da un database e la lettura di file CSV.

Elki

Elki è un framework che fornisce algoritmi per il clustering, la gestione di indici di database e rilevamento di valori erratici. Il suo nome è un acronimo per l'ambiente per lo sviluppo di KDD-applicazioni supportate da strutture di indice. KDD è un altro acronimo che sta per Knowledge Discovery in Database. Elki è un progetto accademico che viene mantenuto dal Ludwig Maximillian dell'Università di Monaco e destinato ad essere utilizzato da studenti, docenti, ricercatori e ingegneri del software. E 'scritto in Java ed è protetto da copyright. Una licenza deve essere ottenuto per usare il quadro Elki.

RapidMiner

Un'altra raccolta open-source di strumenti di dati linguistici, RapidMiner è un ambiente in cui possono essere eseguiti esperimenti di apprendimento automatico ed i risultati raccolti per ulteriori analisi. RapidMiner è adatto per una varietà di compiti text-mining, come la scoperta della conoscenza, la creazione di descrizioni statistiche dei dati di testo e di elaborazione da operazioni di spettrometria di massa e genotipo. RapidMiner è dotato di un avanzato interfaccia utente grafica che aiuta nella visualizzazione delle informazioni in modi descrittivi, come istogrammi, e aiuta anche in fase di sviluppo del flusso di lavoro. RapidMiner è scritto in Java, può essere integrato con la piattaforma Weka e può essere chiamato da altri programmi scritti in altri linguaggi di alto livello, come Perl, Python e C ++.