Teorie dati di pulizia

February 22

Teorie dati di pulizia


Gli errori possono essere fatti durante la raccolta e l'integrazione dei dati, e gli analisti hanno bisogno di sapere come identificare e correggere questi errori. Questo è chiamato pulizia dati o scrubbing dati. Questa non è una scienza esatta, e, talvolta, la decisione di cosa fare si basa sul giudizio dell'analista; Tuttavia, lei sa che non solo è importante avere una quantità sufficiente di dati - deve essere di qualità rispettabile, troppo.

Semantica e formattazione

Un compito di pulizia dati comune comporta la rimozione di errori nella formattazione. Questo potrebbe essere qualcosa di semplice come errori di ortografia fatti durante la raccolta dei dati o l'ingresso, fino a problemi con il simbolo utilizzato per voci separate. Per esempio, immaginate il seguente pezzo di dati all'interno di un insieme di dati in cui un apostrofo viene utilizzato per voci distinte:

Bird Watchers 'Club'42 Beacon Street'Boston

Questo sarebbe letto come:

gli amanti del birdwatching
Club
42 Beacon Street
Boston

interrogazioni e programmi automatici sono spesso utilizzati per pulire i dati di questo errore.

Integrazione

Alcuni set di dati vanno bene da solo, ma diventano problematici una volta che sono integrati in un repository più grande o un data warehouse. Ad esempio, l'età può essere memorizzato come data di nascita:

gg / mm / aa
gg / mm / aaaa

O per fascia:

20-30, 30-40, 40-50
15-25, 25-35, 35-45

In alcuni casi, come la data di formattazione di nascita, è abbastanza semplice per identificare le strutture semantiche e standardizzare le voci. In casi come l'età varia tuttavia, le ipotesi devono essere fatte. Per esempio; è il numero di persone di età compresa tra 25-35 la media delle persone di età compresa tra 20-30 e 30-40?

Valori anomali

I valori anomali sono punti di dati che si trovano lontano dal resto dei dati. Per esempio un'età di 600, o di un test di punteggio più volte superiore alla media. Nel primo caso, si può tranquillamente supporre che fosse un errore di battitura, ma nel secondo non è così evidente. Quando non si sa se un outlier è un errore o un punto dati legittima, è il vostro giudizio se rimuovere o meno, tenendo conto della finalità dei dati.

Dati mancanti

È inoltre necessario decidere cosa fare se i dati non è presente. In primo luogo, i modelli devono essere identificati mediante query e analisi statistiche - la distribuzione dei dati mancanti determina ciò che si dovrebbe fare. Per esempio, se un sondaggio online ha due pagine, ma solo le domande sulla prima pagina sono stati risposto, queste informazioni possono essere utilizzate per perfezionare le forme. Se i dati mancanti è distribuito in modo casuale e si trova sulla stessa variabile, a volte è possibile effettuare stime sulla base di quanto già noto.