Strategie di pulizia dei dati

July 20

Strategie di pulizia dei dati


I dati possono essere danneggiati in qualsiasi numero di modi, da errori di input dell'utente per la formattazione incongruenze. I duplicati sono uno dei problemi più comuni di dati nei database maggior parte delle aziende. Il modo migliore per garantire l'accuratezza dei dati è quello di prevenire la corruzione, ma è saggio avere un piano per affrontare i problemi di dati in caso di problemi.

Duplicazione

I duplicati possono essere una cosa frustrante vedere come revisore dei dati. Spesso, una schermata dei dati front-end non può prendere certi tipi di duplicati; per esempio, in una tabella di indirizzi, 123 Main Street e Via Garibaldi 123 possono sembrare due punti diversi, quando in realtà sono lo stesso indirizzo.

Questo può essere risolto utilizzando uno dei due metodi: rimozione di dati o di correzione dei dati. la rimozione dei dati significherebbe l'eliminazione di tutti, ma una istanza di un insieme di duplicati, mentre la correzione dei dati sarebbe aggiornare tutte le istanze di una duplicazione di un singolo valore concordato. I pacchetti software sono disponibili che utilizzano un algoritmo per identificare i valori anomali sulla base di deviazione standard, cluster o di altri criteri, quindi i valori anomali vengono valutati da un esperto in materia che determina il destino della voce inaspettata.

Extract, Transform, Load

Extract, Transform, Load, o ETF, è un metodo comunemente utilizzato per spostare dati e puliti. Anche se non si verifica alcuna pulizia manuale, ci sono le attività automatizzate in fase di traduzione. Ad esempio, se la tabella di origine negozi "M" e "F" e la tabella contiene destinazione "maschili" e "femminili", viene eseguito uno script di tradurre i dati per i nuovi valori.

Una volta che i dati sono puliti e convalidato, può essere importato nella tabella di destinazione. Può anche avvenire sopra i vecchi dati da scrivere sui dati. Questo funziona bene quando un'intera colonna di dati in una tabella deve essere cambiato.

Aggiornamento di sistemi legacy

L'aggiornamento di un sistema legacy in genere comporta spostare i dati in una posizione intermedia, o area, dove è poi sottoposto ad un processo automatizzato, così come manuale rotondo pulizia dei dati messa in scena. Questo viene fatto per evitare di commettere errori irreversibili ai dati legacy prima di importarlo nel nuovo sistema. Va notato che i dati legacy non devono essere aggiornate, secondo information-management.com, al fine di evitare il mantenimento di due insiemi di dati separati. Va in pensione, invece, e il nuovo sistema dovrebbe essere l'unico in uso andando avanti.