Verbesserung der Datenqualität

 

Lösungen für Datenanreicherung und Datenbereinigung

Die Sicherung und Verbesserung der Datenqualität sind wesentliche Bestandteile der Datenintegration, der Datenverwaltung und der Analytik. Warum? Einfach ausgedrückt, "Müll rein, Müll raus."
Neben normalen Fehlern und Doppelarbeit unterliegen Unternehmensdaten einem ständigen Wandel. So wechseln beispielsweise allein in den USA 240 Unternehmen ihre Adressen und 5.769 Menschen jede Stunde ihren Arbeitsplatz. Ihre Mitarbeiter müssen den Datenquellen für ihre Berichte und Anwendungen vertrauen können.
Laut Gartner werden 2017 "33% der Fortune-100-Unternehmen aufgrund ihrer Unfähigkeit, ihre Unternehmensinformationen effektiv zu nutzen, zu steuern und zu vertrauen, in eine Informationskrise geraten". 36% der Teilnehmer der Gartner-Studie schätzten, dass sie aufgrund von Datenqualitätsproblemen jährlich mehr als 1 Million Dollar verlieren, während 35% nicht in der Lage waren die Kostenauswirkungen abzuschätzen.
Benutzer der Gesamtdatenverwaltungsplattform IRI Voracity oder ihrer Komponentenprodukte wie IRI CoSort können die Datenqualität kontrollieren und Daten in vielen verschiedenen Quellen auf unterschiedliche Weise bereinigen:

Erfahren Sie mehr in diesem Artikel von Bloor Research über die Verbesserung der Datenqualität mit der IRI Voracity-Plattformsoftware.

Fähigkeit

Optionen

Profil & Klassifizieren

Entdecken und analysieren Sie Quellen in Datenbetrachtertools und dem Metadaten-Discovery-Assistenten. Diese Funktionen zusammen mit den Assistenten für die Profilerstellung von Flat-Files, Datenbanken und Dark Data in der IRI-Workbench (Eclipse GUI) ermöglichen es Ihnen, Datenwerte zu finden, die genau (Literal, Muster oder Lookup) mit diesen Werten übereinstimmen, oder Fuzzy-Match (bis zu einer Wahrscheinlichkeitsschwelle). Ausgabeberichte werden im CSV-Format bereitgestellt und extrahierte Dark Data-Werte werden in Flat-Files gepackt. Neue Klassifizierungsfunktionen ermöglichen es Ihnen, Transformationsregeln (und Maskierungsregeln) auf Datenkategorien anzuwenden.

Bulk Filter

Entfernen Sie unerwünschte Zeilen, Spalten und doppelte Datensätze mit gleichen Sortierschlüsseln im Programm CoSort / Voracity SortCL. Identifizieren, entfernen oder isolieren Sie schlechte Werte mit einer speziellen Auswahllogik. Auf dieser Seite finden Sie weitere Informationen.

Validieren

Verwenden Sie die SortCL auf Feldebene "if-then-else-Logik" und "iscompare", um Nullwerte und falsche Datenformate zu isolieren. Verwenden Sie "Outer Joins", um Silo-Quellwerte zu erhalten, die nicht mit Master-(Referenz-)Datensätzen übereinstimmen. Verwenden Sie Datenformatierungsvorlagen und deren Möglichkeiten zur Datumsvalidierung, um z.B. die Richtigkeit von Eingabetagen und -daten zu überprüfen.

Vereinheitlichen

Verwenden Sie den Assistenten zur Datenvereinheitlichung im Konsolidierungsstil (MDM) in IRI Voracity, um Datenähnlichkeiten zu finden und zu bewerten und Redundanzen zu beseitigen. Sortieren Sie die restlichen Stammdatenwerte in Dateien oder Tabellen. Ein weiterer Assistent kann die Master-Werte wieder in Ihre ursprünglichen Quellen übertragen und ein ausstehender Registrierungs-Hub unterstützt ein Reporting-Frontend zum Auffinden von Daten, die in unterschiedlichen Silos gesucht wurden.

Ersetzen

Spezifizieren Sie die Eins-zu-Eins-Ersetzung über Pattern-Matching-Funktionen oder erstellen Sie mehrere Werte in Sets, die für viele zu-Eins-Mappings verwendet werden.

De-Duplizieren

Eliminieren Sie doppelte Zeilen mit gleichen Schlüsseln in SortCL-Aufträgen.

Bereinigen

Spezifizieren Sie benutzerdefinierte, komplexe Include/Comit-Bedingungen in SortCL basierend auf Datenwerten. Auf dieser Seite finden Sie weitere Informationen.

Anreichern

Kombinieren, sortieren, verbinden, aggregieren, suchen und segmentieren Sie Daten aus mehreren Quellen, um die Zeilen- und Spaltendetails in SortCL zu verbessern. Erstellen Sie neue Datenformulare und Layouts durch Konvertierungen, Berechnungen und Ausdrücke. Verbessern Sie Layouts durch Neuzuordnung und Templating (composite formats),siehe IRI NextForm. Erstellen Sie zusätzliche oder neue Testdaten für die Extrapolation mit IRI RowGen.

Erweiterte DQ

Integration auf Feldebene in SortCL für Trillium und Mellissa Datenstandardisierungs-APIs, etc.

Generieren

Verwenden Sie RowGen, um gute und schlechte Daten zu erstellen, einschließlich realistischer Werte und Formate, gültiger Tage und Daten, nationaler ID-Nummern, Stammdatenformate, etc.