Pulizia dei dati e procedure di codifica

January 19

Pulizia dei dati e procedure di codifica


Analizzando i dati, non solo è necessario avere una grande quantità sufficiente, ma è anche fondamentale che la qualità dei dati è di alto livello. I dati possono essere resi "sporco" in un certo numero di modi - errori durante la raccolta, errori durante l'integrazione di più set di dati e la cancellazione accidentale sono solo alcuni di tali modi. Per questo motivo, è importante che i dati viene pulita prima dell'uso.

Dati mancanti

procedure automatizzate sono spesso utilizzati per trovare i dati mancanti. Questi potrebbero essere query SQL in un database, o analisi statistiche. Come analista si guarda per i modelli nella diffusione dei dati mancanti. È quindi prendere decisioni su cosa fare, che può essere escluso del tutto alcune variabili, o sostituendo i loro valori con le medie. A volte i dati mancanti possono indicare gli errori quando l'integrazione di più set di dati, e in uno scenario peggiore dei casi l'intero processo può essere ripetuto per ottenere tutti i dati.

Valori anomali

Un valore anomalo è un valore di dati che è il modo di fuori del modello generale dei dati. Essi possono essere identificati con grafici, quali box plot, o cercando per i valori di un determinato numero di deviazioni standard dalla media. Una volta identificato, è necessario decidere se rimuovere o meno - che coinvolge decidere se fossero errori nella raccolta dei dati, o di veri valori. A volte, si potrebbe scegliere di eseguire determinate procedure con e senza valori anomali, per confrontare i risultati.

errori di formattazione

gli errori più banali in un insieme di dati potrebbero essere errori di ortografia o altri errori simili. Le query possono essere utilizzati per trovare e sostituire errori evidenti, come errori di ortografia dei nomi di marca o luoghi, ma possono anche essere utilizzati per evidenziare i punti di dati che potrebbe aver bisogno di pulizia. Ad esempio, è possibile eseguire una ricerca dei cognomi o numeri di telefono sopra e sotto una certa lunghezza, per individuare gli errori che si sono verificati da qualche parte lungo la raccolta dei dati e processo di integrazione.

codifica dei dati

È comune per i dati siano inizialmente in un formato che è adatto per l'analisi. Ad esempio, potrebbe essere necessario risposte di indagine per essere convertito in un equivalente numerico, ad esempio da "fortemente d'accordo" a "7", o possono avere bisogno di essere convertito in variabili indicatore binarie variabili categoriali come genere. Questo si chiama codifica o ricodifica, ed è buona norma creare nuove variabili con i nuovi dati codificati piuttosto che sovrascrivere quelli vecchi, in modo che gli errori possono essere di nuovo-controllati.