In diesem Artikel möchten wir Ihnen einen Beispielfall einer Anfechtung bzw. Schadensersatzforderung in einem Krisenunternehmen beschreiben, in dem Big Data bzw. Künstliche Intelligenz (KI) sinnvoll eingesetzt werden konnte.
Krisenunternehmen verfügen oft über kein gutes bzw. strukturiertes Daten- und Dokumentenmanagement, so auch unserem Beispielunternehmen. Daher war es zu Beginn unserer Arbeit nicht möglich, einfach einen Teil der Dokumente automatisiert zu exportieren.
Das „Early Data Assessment“
Zunächst mussten wir ermitteln, ob eine Prüfung der gesamten Daten erfolgsvorsprechend sein würde. Dafür haben wir ein „Early Data Assessment” und das sogenannte „Data Culling” (Prozess der Suche und Isolierung von Daten basierend auf bestimmten Kriterien, z.B. Schlüsselbegriffen oder Zeiträumen) durchgeführt. Auf Basis von Stichproben ließ sich so schnell erkennen, dass sich der Einsatz von KI tatsächlich lohnen würde. In Abstimmung mit dem Gläubigerausschuss hat der zuständige Insolvenzverwalter daher den Einsatz von Künstlicher Intelligenz entschieden.
Datenextraktion, -analyse und -qualitätssicherung
Im nächsten Schritt wurden die qualitativ eher minderwertigen Daten des Rechnungswesens und der Materialwirtschaft durch Business Management und mithilfe eines KI-Datenqualitätstools in einen nutzbaren Zustand versetzt. Dieser Vorgang dient zum Erreichen der Vollständigkeit, Richtigkeit und Aktualität der Finanz- und Bestandsbuchhaltungs-Daten.
Dabei haben wir sehr große Datenmengen aus dem SAP ERP-System extrahiert. In diesem Rahmen kam ein speziell für Krisenunternehmen entwickeltes IT-Tool zur Datenextraktion, -analyse und -qualitätssicherung zum Einsatz. Spezielle Skripte und Programme haben darüber hinaus dabei geholfen, Daten aus DMS (Dokumenten Management Systems) und E-Mail-Systemen zu extrahieren. Auch gelöschte E-Mails und Dateien mussten zu diesem Zwecke wiederhergestellt werden und geänderte Dokumente identifiziert und die Änderungen nachvollzogen werden. Die ERP-, DMS- und E-Mail-Daten konnten schließlich zu einem Datensatz zusammengestellt werden.
Künstliche Intelligenz fand anschließend ebenso bei folgenden Vorgängen Verwendung:
Clustering: Dokumente werden hier anhand von Ähnlichkeiten neu organisiert, sodass eine saubere Einteilung erfolgt. Ein Mensch würde in diesem Schritt eine Ordnerstruktur erstellen und die Dokumente darin ablegen. Der Computer macht dies mit dem Clustering automatisch.
Topic Models: Bei der Erstellung von Topic Models wird eine inhaltliche Analyse durchgeführt, die Themen aus den Dokumenten systematisch abbildet. Sind beispielsweise im weiteren Verlauf des Projekts Dateien zu einem bestimmten Thema relevant, können diese sehr schnell abgebildet und extrahiert werden.
Das „Reprocessing”
Bevor Algorithmen im Rahmen von Clustering und Topic Models sinnvoll eingesetzt werden können, müssen alle Dokumente zunächst maschinenlesbar gemacht werden. Dabei wird in der Regel „OCR” (Optical Character Recognition)-Software genutzt, die u.a. PDFs und Office-Daten in ein reines TXT-Format umwandelt. Die Qualität der Umwandlung ist dabei extrem wichtig für die Qualität späterer Ergebnisse und Schriftsätze müssen möglichst einwandfrei erkannt werden.
Die TXT-Dokumente werden nun automatisiert nach Sprache getrennt. Das geschieht mithilfe von leistungsfähigen NLP(Natural Language Processing)-Tools.
Tokenization der Dokumente
Bei der „Tokenization” der Dokumente wurden schließlich u.a. Satzzeichen von Worten getrennt. Nach diesem Vorgang liegt ein Text in Form einer Liste von Wörtern und wahlweise Satzzeichen vor, mit der im Folgenden gearbeitet wird.
Lesen Sie nächste Woche mehr zu diesem Thema in Teil 2 des Artikels „Case Study: Big Data in Krisenunternehmen“!