Metodi di pulizia dei dati

April 21

pulizia dei dati - altrimenti noto come la pulizia di dati o lavaggio - è il processo di rilevare e correggere gli errori, incongruenze e omissioni nei dati. Grandi quantità di dati vengono raccolti e analizzati da politici, economisti e scienziati, ma errori nei dati - che possono influenzare la sua lavorazione e le conclusioni tratte da esso - sono comuni e da aspettarselo. Ci sono diversi metodi di pulizia dei dati, sia tradizionali che automatizzati.

Metodi statistici

Metodi statistici possono essere utilizzati per controllare i dati e correggere l'errore dati anche complessi. Un statistico in grado di analizzare la media, la deviazione standard e la gamma di valori di dati e, così facendo, identificare i singoli record del database (tuple) che non sono validi. Questi record possono essere eliminati, o sostituito con un valore statistico medio o altro. I metodi statistici di pulizia dati possono anche indicare valori mancanti, che possono essere riempiti con valori plausibili in base al resto del set di dati.

Dati di pulizia Tools

strumenti di pulizia dei dati esistono da un certo numero di anni. Automated strumenti di pulizia dei dati in genere si concentrano su uno specifico dominio di database - che definisce i possibili valori che può essere entrato in ogni campo, o un attributo - come ad esempio nome e indirizzo dei dati. Essi utilizzano in genere un insieme di regole di corrispondenza da una libreria, o forniti in modo interattivo da parte dell'utente, di convalidare i nomi delle strade, nomi di città e codici di avviamento postale e trasformare i dati esistenti in singoli elementi standard. Usano record corrispondente per determinare se due record rappresentano i dati sullo stesso argomento e sono in grado di combinare singoli record che hanno, per esempio, lo stesso indirizzo. strumenti di pulizia dei dati possono variare nel livello di sofisticazione per quanto riguarda i dati di auditing, la pulizia e la migrazione.

Strumenti di ETL

ETL l'acronimo di "Extract, Transform, Load" e ci sono molti strumenti software commerciale progettato per aiutare il processo ETL di pulizia dei dati. Le caratteristiche importanti di uno strumento di ETL efficace è la sua capacità di leggere i dati di origine direttamente e per purificare e trasformare i dati, insieme con il suo supporto per i metadati. I metadati sono la documentazione o informazioni su una parte specifica di dati e può aiutare un utente a rilevare gli errori e le incongruenze nei dati che non possono, necessariamente, essere identificati dallo strumento di ETL in sé. strumenti di ETL in genere forniscono una libreria di funzioni e schemi per la trasformazione dei dati - tipo di dati conversioni, funzioni aritmetiche, funzioni di stringa, ecc - e possono estrarre i dati da fonti di dati a forma libera, con alcune limitazioni, nonché tramite lo standard ODBC ( "Open Database Connectivity") e EDA ( "Electronic design Automation") interfacce.