Come costruire un database Albero decisionale

March 19

Come costruire un database Albero decisionale


alberi di decisione sono oggetto di studio accademico intensa nei settori di ricerca operativa e informatica. Anche se non necessariamente il modo migliore per strutturare le informazioni necessarie per giungere a una conclusione, alberi decisionali funzionano bene con gli algoritmi di computer standard per il supporto decisionale. Inoltre, essi forniscono un metodo di esprimere regole di business in modo che le persone con nessuna esperienza precedente con alberi di decisione sono in grado di seguire. Un albero di decisione è simile ad un diagramma di flusso, consentendo la navigazione attraverso un percorso di scelte fino a raggiungere una conclusione definitiva.

istruzione

1 Ottenere i set di dati che verranno utilizzati per l'analisi e la verifica della struttura finale. Altri dati utilizzati nell'analisi produrrà una rappresentazione più accurata albero del processo decisionale. Ci sono molti modi diversi per creare e strutturare un albero decisionale. L'algoritmo ID3 è un primo approccio su cui si basano le variazioni più sofisticati.

2 Elencare tutti gli attributi che vengono utilizzati dal set di dati. Per esempio, in un insieme di dati di applicazione di prestito delle banche, il record per ciascun richiedente includerà attributi quali nome, indirizzo, telefono, reddito, valore casa, mutuo, la banca e la carta di credito saldi.

Se la creazione manuale di un albero di decisione, naturalmente escludere gli attributi come il nome, che non ci si aspetterebbe di influenzare la decisione di concedere un prestito. Quando si utilizzano tecniche di data mining di computer, tutti gli attributi sono considerati, lasciando il programma per computer per determinare quali non hanno alcuna rilevanza per il risultato finale.

3 Specificare quale attributo è l'attributo di destinazione. Nell'esempio di una domanda di prestito, l'attributo target è quello che indica se il prestito è stato concesso o negato.

4 Selezionare l'attributo di fornire il maggior guadagno informazioni per l'utilizzo come nodo principale. L'albero è costituito da nodi decisionali e nodi foglia. Al nodi decisionali, un ramo viene creato per ogni possibile valore dell'attributo di destinazione. Ogni ramo rappresenta i record di dati che condividono lo stesso valore per l'attributo di destinazione.

Un nodo foglia è raggiunta quando tutti i record esaminati nelle nodo corrente avere lo stesso risultato per l'attributo di destinazione. Nell'esempio prestito, se tutti coloro che si applica per un prestito viene approvato, l'intero albero decisionale è il caso banale di un singolo nodo foglia senza rami. E 'più probabile che i dati saranno divisi in due rami: approvate e negato.

Metodi di calcolo selezionando l'attributo da utilizzare in qualsiasi nodo della struttura sono estremamente complessi. Cercare l'attributo che predice più fortemente il risultato di destinazione. Intuitivamente, "reddito" sarebbe un candidato migliore per il nodo principale di "nome".

5 Rimuovere l'attributo radice dalla lista dei potenziali attributi da utilizzare per i nodi di filiale. Selezionare l'attributo rimanente con il maggior guadagno informazioni per assegnare ai nodi filiali.

Nell'esempio corrente, i nodi filiali in ogni punto della struttura creano rami di prestiti approvati e negati. Non ci può essere un qualsiasi numero di rami provenienti da un nodo albero decisionale, a seconda di quanti valori possibili possono essere assegnati a l'attributo target.

6 Ripetere il processo lungo ogni ramo fino a raggiungere un nodo foglia in cui tutti i dati condivide lo stesso valore per l'attributo di destinazione. La profondità massima dell'albero in qualsiasi punto sarà il numero totale di attributi individuati all'inizio.

È probabile che non ogni attributo è rilevante per la decisione in ogni ramo e così alcuni rami saranno più brevi. Dopo aver completato l'albero, a piedi, attraverso di essa per trovare le regole che ha derivate. Ad esempio, si potrebbe trovare che "un prestito sarà approvato se si dispone di un reddito elevato, elevato risparmio e nessun debito."

7 Utilizzare i dati di prova stabiliti per convalidare l'albero creato. L'albero dovrebbe prevedere accuratamente i risultati dei nuovi dati.