Verbesserung der Datenqualität

 

 

Anreicherungs- und Reinigungslösungen

Die Sicherung und Verbesserung der Datenqualität sind wesentliche Bestandteile der Datenintegration, der Datenverwaltung und der Analytik. Warum? Einfach ausgedrückt, "Müll rein, Müll raus."
Neben normalen Fehlern und Doppelarbeit unterliegen Unternehmensdaten einem ständigen Wandel. So wechseln beispielsweise allein in den USA 240 Unternehmen ihre Adressen und 5.769 Menschen jede Stunde ihren Arbeitsplatz. Ihre Mitarbeiter müssen den Datenquellen für ihre Berichte und Anwendungen vertrauen können.
Laut Gartner werden 2017 "33% der Fortune-100-Unternehmen aufgrund ihrer Unfähigkeit, ihre Unternehmensinformationen effektiv zu nutzen, zu steuern und zu vertrauen, in eine Informationskrise geraten". 36% der Teilnehmer der Gartner-Studie schätzten, dass sie aufgrund von Datenqualitätsproblemen jährlich mehr als 1 Million Dollar verlieren, während 35% nicht in der Lage waren die Kostenauswirkungen abzuschätzen.

Verbesserung der Datenqualität

Entdecken Sie, wie Voracity Ihnen helfen kann Ihren Data Lake zu entmutigen!

 

Benutzer der IRI Voracity-Plattform für totales Datenmanagement oder ihre Komponentenprodukte wie IRI CoSort können die Datenqualität steuern und Daten in vielen verschiedenen Quellen auf vielfältige Weise bereinigen:

Fähigkeit

Optionen

Profil & Klassifizieren

Entdecken und analysieren Sie Quellen in Datenbetrachtertools und dem Metadaten-Discovery-Assistenten. Diese Funktionen zusammen mit den Assistenten für die Profilerstellung von Flat-Files, Datenbanken und Dark Data in der IRI-Workbench (Eclipse GUI) ermöglichen es Ihnen, Datenwerte zu finden, die genau (Literal, Muster oder Lookup) mit diesen Werten übereinstimmen, oder Fuzzy-Match (bis zu einer Wahrscheinlichkeitsschwelle). Ausgabeberichte werden im CSV-Format bereitgestellt und extrahierte Dark Data-Werte werden in Flat-Files gepackt. Neue Klassifizierungsfunktionen ermöglichen es Ihnen, Transformationsregeln (und Maskierungsregeln) auf Datenkategorien anzuwenden.

Bulk Filter

Entfernen Sie unerwünschte Zeilen, Spalten und doppelte Datensätze mit gleichen Sortierschlüsseln im Programm CoSort / Voracity SortCL. Identifizieren, entfernen oder isolieren Sie schlechte Werte mit einer speziellen Auswahllogik. Auf dieser Seite finden Sie weitere Informationen.

Validieren

Verwenden Sie die SortCL auf Feldebene "if-then-else-Logik" und "iscompare", um Nullwerte und falsche Datenformate zu isolieren. Verwenden Sie "Outer Joins", um Silo-Quellwerte zu erhalten, die nicht mit Master-(Referenz-)Datensätzen übereinstimmen. Verwenden Sie Datenformatierungsvorlagen und deren Möglichkeiten zur Datumsvalidierung, um z.B. die Richtigkeit von Eingabetagen und -daten zu überprüfen.

Vereinheitlichen

Verwenden Sie den Assistenten zur Datenvereinheitlichung im Konsolidierungsstil (MDM) in IRI Voracity, um Datenähnlichkeiten zu finden und zu bewerten und Redundanzen zu beseitigen. Sortieren Sie die restlichen Stammdatenwerte in Dateien oder Tabellen. Ein weiterer Assistent kann die Master-Werte wieder in Ihre ursprünglichen Quellen übertragen und ein ausstehender Registrierungs-Hub unterstützt ein Reporting-Frontend zum Auffinden von Daten, die in unterschiedlichen Silos gesucht wurden.

Ersetzen

Spezifizieren Sie die Eins-zu-Eins-Ersetzung über Pattern-Matching-Funktionen oder erstellen Sie mehrere Werte in Sets, die für viele zu-Eins-Mappings verwendet werden.

De-Duplizieren

Eliminieren Sie doppelte Zeilen mit gleichen Schlüsseln in SortCL-Aufträgen.

Bereinigen

Spezifizieren Sie benutzerdefinierte, komplexe Include/Comit-Bedingungen in SortCL basierend auf Datenwerten. Auf dieser Seite finden Sie weitere Informationen.

Anreichern

Kombinieren, sortieren, verbinden, aggregieren, suchen und segmentieren Sie Daten aus mehreren Quellen, um die Zeilen- und Spaltendetails in SortCL zu verbessern. Erstellen Sie neue Datenformulare und Layouts durch Konvertierungen, Berechnungen und Ausdrücke. Verbessern Sie Layouts durch Neuzuordnung und Templating (composite formats),siehe IRI NextForm. Erstellen Sie zusätzliche oder neue Testdaten für die Extrapolation mit IRI RowGen.

Erweiterte DQ

Integration auf Feldebene in SortCL für Trillium und Mellissa Datenstandardisierungs-APIs, etc.

Generieren

Verwenden Sie RowGen, um gute und schlechte Daten zu erstellen, einschließlich realistischer Werte und Formate, gültiger Tage und Daten, nationaler ID-Nummern, Stammdatenformate, etc.