Verbesserung der Datenqualität
Lösungen für Datenanreicherung und Datenbereinigung
Erfahren Sie mehr in diesem Artikel von Bloor Research über die Verbesserung der Datenqualität mit der IRI Voracity-Plattformsoftware.
Fähigkeit |
Optionen |
Profil & Klassifizieren |
Entdecken und analysieren Sie Quellen in Datenbetrachtertools und dem Metadaten-Discovery-Assistenten. Diese Funktionen zusammen mit den Assistenten für die Profilerstellung von Flat-Files, Datenbanken und Dark Data in der IRI-Workbench (Eclipse GUI) ermöglichen es Ihnen, Datenwerte zu finden, die genau (Literal, Muster oder Lookup) mit diesen Werten übereinstimmen, oder Fuzzy-Match (bis zu einer Wahrscheinlichkeitsschwelle). Ausgabeberichte werden im CSV-Format bereitgestellt und extrahierte Dark Data-Werte werden in Flat-Files gepackt. Neue Klassifizierungsfunktionen ermöglichen es Ihnen, Transformationsregeln (und Maskierungsregeln) auf Datenkategorien anzuwenden. |
Bulk Filter |
Entfernen Sie unerwünschte Zeilen, Spalten und doppelte Datensätze mit gleichen Sortierschlüsseln im Programm CoSort / Voracity SortCL. Identifizieren, entfernen oder isolieren Sie schlechte Werte mit einer speziellen Auswahllogik. Auf dieser Seite finden Sie weitere Informationen. |
Validieren |
Verwenden Sie die SortCL auf Feldebene "if-then-else-Logik" und "iscompare", um Nullwerte und falsche Datenformate zu isolieren. Verwenden Sie "Outer Joins", um Silo-Quellwerte zu erhalten, die nicht mit Master-(Referenz-)Datensätzen übereinstimmen. Verwenden Sie Datenformatierungsvorlagen und deren Möglichkeiten zur Datumsvalidierung, um z.B. die Richtigkeit von Eingabetagen und -daten zu überprüfen. |
Vereinheitlichen |
Verwenden Sie den Assistenten zur Datenvereinheitlichung im Konsolidierungsstil (MDM) in IRI Voracity, um Datenähnlichkeiten zu finden und zu bewerten und Redundanzen zu beseitigen. Sortieren Sie die restlichen Stammdatenwerte in Dateien oder Tabellen. Ein weiterer Assistent kann die Master-Werte wieder in Ihre ursprünglichen Quellen übertragen und ein ausstehender Registrierungs-Hub unterstützt ein Reporting-Frontend zum Auffinden von Daten, die in unterschiedlichen Silos gesucht wurden. |
Ersetzen |
Spezifizieren Sie die Eins-zu-Eins-Ersetzung über Pattern-Matching-Funktionen oder erstellen Sie mehrere Werte in Sets, die für viele zu-Eins-Mappings verwendet werden. |
De-Duplizieren |
Eliminieren Sie doppelte Zeilen mit gleichen Schlüsseln in SortCL-Aufträgen. |
Bereinigen |
Spezifizieren Sie benutzerdefinierte, komplexe Include/Comit-Bedingungen in SortCL basierend auf Datenwerten. Auf dieser Seite finden Sie weitere Informationen. |
Anreichern |
Kombinieren, sortieren, verbinden, aggregieren, suchen und segmentieren Sie Daten aus mehreren Quellen, um die Zeilen- und Spaltendetails in SortCL zu verbessern. Erstellen Sie neue Datenformulare und Layouts durch Konvertierungen, Berechnungen und Ausdrücke. Verbessern Sie Layouts durch Neuzuordnung und Templating (composite formats),siehe IRI NextForm. Erstellen Sie zusätzliche oder neue Testdaten für die Extrapolation mit IRI RowGen. |
Erweiterte DQ |
Integration auf Feldebene in SortCL für Trillium und Mellissa Datenstandardisierungs-APIs, etc. |
Generieren |
Verwenden Sie RowGen, um gute und schlechte Daten zu erstellen, einschließlich realistischer Werte und Formate, gültiger Tage und Daten, nationaler ID-Nummern, Stammdatenformate, etc. |