Come sviluppare metriche di qualità dei dati

January 1

data warehouse e data mining strumenti rendono facile da estrarre e analizzare enormi volumi di informazioni, ma la qualità dell'analisi è solo buono come la qualità dei dati. Il primo passo in qualsiasi progetto di deposito studio di ricerca o dati deve essere una valutazione della qualità dei dati destinati a progetto. Misure per la completezza, la validità e la consistenza tutto fattore in questa valutazione. Per sviluppare metriche di qualità dei dati, è necessario seguire alcuni passaggi.

istruzione

1 Sviluppare un quadro di riferimento per misurare la qualità dei dati. Creare spazio in ogni database in cui i risultati dei controlli di qualità possono essere memorizzati. Sviluppare relazioni o cruscotti di questi dati.

2 Misurare la completezza dei dati. Scegli elementi chiave per ogni database e contare la percentuale di valori nulli, campi vuoti o valori che rappresentano i dati non disponibili o sconosciute.

3 Misurare percentuali di valori consentiti. Quando un campo ha un numero di valori di codice predefiniti, misurare la distribuzione di questi valori contro il numero di valori errati e mancanti. Analizzare queste distribuzioni per determinare se alcuni codici appaiono troppo spesso. Se è così, questo valore può essere necessario suddiviso per fornire una migliore descrizione. Ad esempio, se le risposte sono nero, bianco e colore e il 98% delle risposte sono il colore, che potrebbe dare un senso di sostituire il colore rosso, blu o verde.

4 Verificare la presenza di valori ragionevoli. misurazioni numeriche generalmente avvengono entro un intervallo consentito. Ad esempio, una misurazione della temperatura Fahrenheit informazioni meteo solito apparirà come un valore da circa -40 a 120. Qualsiasi valore al di fuori di tale intervallo non è probabilmente valida.

5 Confrontare i valori all'interno dello stesso record per coerenza. Se la temperatura era di 90 gradi Fahrenheit e il valore di precipitazione è neve, uno dei due valori è probabilmente errata.

6 Verificare la coerenza tra i record correlati. Utilizzare simili controlli di coerenza tra i record in relazioni padre-figlio e all'interno di più elementi figlio. relazioni padre e bambino sono collegamenti tra elementi del database. Ad esempio, in un numero di elementi relativi al tempo, se una serie di temperatura Temperature lista misurazioni orarie in costante aumento da 50 a 70 gradi tutta la mattina ma la lettura 10:00 è -20, questo valore è probabilmente in errore.

7 Creare report, dashboard o notifiche sulla base dei dati raccolti. Riassumere dal gruppo organizzativo, il fornitore o il tipo di cliente con capacità di drill-down per elementi di dati specifici. Analizzare i dati per determinare dove si verificano gli errori e che cosa si può fare per migliorare la qualità dei dati.

8 Migliorare la qualità dei dati. Rivedere le regole di business, software di riparazione per rifiutare i dati cattivi, informare i clienti su tematiche di dati e di trovare il modo di premiare iniziative di qualità. Monitorare queste misure nel corso del tempo.

Consigli e avvertenze

  • La maggior parte dei database relazionali offrono modi per rifiutare i dati non validi con i vincoli e le chiavi esterne. Utilizzare questi vincoli per far rispettare la qualità dei dati.