Beim Data Profiling handelt es sich um weitgehend automatisierte Prozesse, mit denen sich die Qualität von Daten im Hinblick auf Struktur, Eindeutigkeit und Konsistenz analysieren und bewerten lässt. Data Profiling behebt jedoch keine Qualitätsprobleme der Daten.
Das Hauptziel des Data Profilings ist es, Daten systematisch nach Fehlern, Inkonsistenzen und Defiziten hin zu untersuchen.
Ein typischer Ablauf besteht aus 5 Schritten:
- Der Integration der Daten (Integration)
- Der Analyse der integrierten Daten (Analysis)
- Der Darstellung der Ergebnisse (Presentation)
- Der fachlichen Bewertung der Ergebnisse (Evaluation)
- Der Beurteilung des Gesamtzustands (Assessment)
Für den Vorgang bieten sich vor allem folgende Data Profiling-Tools an:
Anbieter | BI Business Intelligence-Werkzeug | Kurzbeschreibung |
Dataflux | DfPower Studio | Verarbeitet Millionen Datensätze auf jeder beliebigen relationalen Standard-Datenbank |
Datras | ADO Profiler | Differenz- und Datenanalyse von Tabellen |
Fuzzy! Informatik | Dime | „Data Quality Investigation and Measurement Environment“ -regelbasierte Messung und Überwachung von Datenqualität und Tool zur Steuerung von Verbesserungen |
Informatica | PowerCenter Profiling Option | Data Profiling Modul von PowerCenter |