Blog ↗

Was ist Data Cleansing?

Der Prozess der „Datenreinigung” nimmt einen großen Stellenwert im Rahmen des Datenmanagements in Krisenunternehmen ein. Es beinhaltet keineswegs nur die Löschung nicht benötigter Dateien und Duplikate. Stattdessen werden Daten auch verändert, um ihre Genauigkeit und damit ihre Qualität zu maximieren.

Datenbestände in gewöhnlichen Insolvenzen, Sanierungen und Restrukturierungen sind i.d.R. so groß, dass heute in der Regel künstliche Intelligenz eingesetzt wird, um Data Cleansing durchzuführen. Daten werden dabei wie bereits beschrieben gelöscht, aber auch formatiert, ergänzt, konsolidiert oder anderweitig angepasst. Die Datenqualität steigt durch diesen Prozess und eine anschließende Arbeit mit ihnen wird einfacher und vor allem zuverlässiger.

Data Cleansing

Sichergestellt werden soll, dass die Integrität der Daten vorhanden ist, sie sich nicht widersprechen und interpretierbar sind. Ungenaue, fehlerhafte, inkonsistente, doppelte oder falsch formatierte Daten werden in dem Prozess korrigiert.

 

Die 7 Schritte des Data Cleansing

Es gibt im wesentlichen diese sieben Schritte des Data Cleansings:

1. Datensicherung

2. Definition der Kriterien und Anforderungen an die Datenqualität

3. Analyse der Daten gemäß der Anforderungen

4. Auflistung der bei der Analyse festgestellten Probleme der Datenqualität und der Analyse ihrer Problemursache

5. Standardisierung

6. Durchführung der eigentlichen Datenreinigung (der erfassten Fehler, Duplikate und Datenlücken)

7. Freigabe der bereinigten Daten

Es kann sein, dass die Schritte 2 bis 4 mehrfach durchgeführt werden müssen. Sobald die benötigte Datenqualität erreicht ist, wird die Standardisierung (Schritt 5) durchgeführt und erst danach erfolgt das eigentliche Data Cleansing.

 

Diese Anwendungen eignen sich für die „Datenreinigung“

Verschiedene Anwendungen können im Rahmen dieses Prozesses genutzt werden, z.B. zum Konvertieren der Daten, zum Erkennen und Löschen von Duplikaten und zur Bearbeitung von lückenhaften Daten. Unter anderem lassen sich Tools wie Trifacta Wrangler, TIBCO Clarity, Winpure oder OpenRefine nutzen.