La Top 10 algoritmi di Data Mining

September 5

La Top 10 algoritmi di Data Mining


Il data mining è il processo di analisi e riepilogo dei dati da diverse prospettive. Si sforza di definire modelli di dati e le relazioni tra grandi piscine di informazioni utilizzando algoritmi --- serie di regole che risolvono un problema su una serie di misure concrete (si pensi l'algoritmo di Euclide in algebra, che trova massimo comune divisore di due numeri ').

L'IEEE International Conference on Data Mining 2006 classificato tra i primi 10 algoritmi nel campo.

decision Trees

algoritmi di decisione degli alberi hanno lo scopo di organizzare i dati sulle scelte in rami di influenza in competizione, dopo una decisione iniziale. Il tronco dell'albero rappresenta la decisione iniziale, e si inizia con un sì-o-no domanda, ad esempio se o non mangiare la prima colazione. Mangiare la prima colazione e non facendo colazione sarebbe la prima due rami divergenti dell'albero, e ogni scelta in seguito avrebbe avuto i suoi rami divergenti che porta fino a un punto finale.

L'algoritmo K-Means

L'algoritmo k-means è basata su analisi dei cluster. Ha lo scopo di rompere i dati raccolti in "cluster" separati raggruppati per caratteristiche simili.

Support Vector Machines

Supporto algoritmi Vector Machine prendono dati di input e prevedere quale delle due possibili categorie che includono i dati di input. Un esempio potrebbe essere la raccolta dei codici di avviamento postale di un pool di elettori e cercando di prevedere se un elettore dare è un democratico o repubblicano.

L'algoritmo Apriori

L'algoritmo Apriori tracce tipicamente i dati delle transazioni. Per esempio, in un negozio di abbigliamento, l'algoritmo potrebbe tenere traccia di quali camicie clienti in genere acquistano insieme.

L'algoritmo EM

Questo algoritmo definisce i parametri analizzando i dati e stima la probabilità di un risultato futuro o un evento casuale all'interno dei parametri dei dati. Per esempio, l'algoritmo EM potrebbe tentare di prevedere il tempo della prossima eruzione di un geyser sulla base dei dati di tempo di eruzioni passate.

Algoritmo PageRank

L'algoritmo PageRank è un algoritmo di base per i motori di ricerca. Si colloca e stima la pertinenza di un singolo pezzo di dati all'interno di un più ampio insieme di dati, come ad esempio un unico sito web all'interno del più ampio insieme di tutti i siti web su Internet.

Algoritmo AdaBoost

L'algoritmo AdaBoost funziona all'interno di altri algoritmi di apprendimento che anticipano il comportamento sulla base di dati osservati per renderli più sensibili ai valori statistici. Anche se l'algoritmo EM potrebbe essere distorta da un geyser con due eruzioni in meno di un minuto, quando di solito erutta una volta al giorno, l'algoritmo AdaBoost sarebbe modificare l'uscita del EM dell'algoritmo analizzando la rilevanza del valore anomalo.

K-vicina Algoritmo prossimo

Questo algoritmo riconosce modelli nei dati di posizione e associa i dati con un identificatore più grande. Ad esempio, se si voleva assegnare un ufficio postale per la posizione geografica di ogni casa e aveva il pool di dati di posizione geografica di ogni casa, il-più vicino k algoritmo prossimo assegnerebbe le case per l'ufficio postale più vicino in base alla loro vicinanza gli uni agli altri.

naive Baye

L'algoritmo di Bayes Naive prevede un risultato identità basata su dati provenienti da osservazioni noti. Ad esempio, se una persona è g piedi sei pollici di altezza e indossa una taglia 14 scarpe, l'algoritmo Naive Bayes sarebbe predire con una certa probabilità che la persona è un uomo.

CART Algoritmo

"CART" sta per l'analisi "Classificazione e regressivo Tree". Come analisi albero decisionale, organizza i dati in base alle scelte, come ad esempio se una persona è sopravvissuta un terremoto in competizione? A differenza di algoritmi albero decisionale, che può classificare solo un risultato o di dare un risultato numerico di regressione-based, l'algoritmo CART può utilizzare sia per prevedere la probabilità di un evento.