Datenentdeckung in Eclipse
Profiling von Datenbank, Flat-File und Dark Data Quellen
IRI Voracity® bietet innerhalb einer einzigen Konsole, die auf Eclipse™ aufgebaut ist, mehrere Tools zur Datenerkennung und Definition von Metadaten für die Suche und Organisation Ihrer Datenquellen auf lokalen und entfernten Systemen:
Datenklassifizierung
Definieren Sie unternehmensweite Datenklassenbibliotheken, durchsuchen Sie automatisch Ihre Quellen und katalogisieren Sie die darin enthaltenen Daten, und wenden Sie dann Transformations- und Schutzregeln an, die Sie Ihren Klassen zugeordnet haben.
Metadatenermittlung
Verbinden Sie sich mit strukturierten und semistrukturierten Dateien und relationalen Datenbanken. Definieren oder redefinieren Sie Spaltennamen, Offsets und Datentypen neu, damit Sie die Metadaten für Ihre Datenquellen in zentralen Datendefinitionsdateien (DDFs) speichern, gemeinsam nutzen und wiederverwenden können, die mit jeder IRI-Softwareanwendung kompatibel sind.
Datenbank-Profiling
Erstellen Sie Statistiken, überprüfen Sie die referentielle Integrität und suchen Sie nach Lookup-, Zeichenketten-, Muster- und Fuzzy-Matching-Werten in jeder mit JDBC verbundenen Datenquelle.
Flat-File Profiling
Erstellen Sie Statistiken und suchen Sie nach Lookup-, Zeichenketten-, Muster- und Fuzzy-Matching-Werten in jedem sequentiellen Dateiformat, das IRI unterstützt.
ER-Diagrammerstellung
Definieren Sie unternehmensweite Datenklassenbibliotheken, durchsuchen Sie automatisch Ihre Quellen und katalogisieren Sie die darin enthaltenen Daten und wenden Sie Transformations- und Schutzregeln an, die Sie Ihren Klassen zugeordnet haben.
Verzeichnisdaten-Klassensuche
Der Assistent für die Suche nach Verzeichnisdatenklassen in der IRI-Workbench (WB) gleicht Daten in strukturierten Dateien innerhalb eines oder mehrerer Verzeichnisse mit konfigurierten Datenklassen ab. Der Suchprozess vergleicht die Übereinstimmungen in den Datenklassen mit den Daten in diesen Dateien, um die beste Übereinstimmung zu ermitteln, falls vorhanden. Die Übereinstimmungen können entweder Muster oder festgelegte Dateisuchvorgänge sein. Wenn nur einige wenige, ausgewählte strukturierte Dateien durchsucht werden müssen, verwenden Sie den Editor der Datenklassenbibliothek, um schnellere Ergebnisse zu erhalten.
Schema-Mustersuche
Erstellen Sie Statistiken und suchen Sie nach Lookup-, Zeichenketten-, Muster- und Fuzzy-Matching-Werten in jedem sequentiellen Dateiformat, das IRI unterstützt. Auf diese Weise können Sie diese Ergebnisse auch mit Datenklassen verknüpfen.
Dark Data Ermittlung
Finden Sie Daten, die mit den darin enthaltenen Mustern oder Werten übereinstimmen, in Nachschlagdateien in den MS Office- und Outlook-Dateien, .pdf- und .rtf-Dokumenten, NoSQL-DB-Sammlungen, HTML-, JSON-, XML- oder anderen Textdateien (Log-Dateien) sowie in Bildern und Gesichtern, die sich auf Ihrem Computer oder im LAN "verstecken". Extrahieren Sie diese dunklen Daten und die zugehörigen Metadaten in Flat-, abfragebereite DDF-Files. Maskieren Sie diese Daten gleichzeitig mit IRI DarkShield.
Schema Datenklassensuche
Finden und nutzen Sie alle Datenschemata, die den Attributen Ihrer Datenklassen oder Datenklassengruppen entsprechen. Scannen Sie automatisch durch jede Spalte im Schema und nicht durch eine Tabelle auf einmal. Verwenden Sie dies in Verbindung mit dem Assistenten für die Maskierung der Datenklasse DB.
Es gibt auch einen Assistenten zur Verzeichnisdatenklassensuche (und die entsprechende Maskierung von Datenklassen-Dateien), um PII in einer oder mehreren Flat-Files zu finden und zu de-identifizieren, die über ein LAN verteilt sind.
Bewertung der Datenqualität
Verwenden Sie Musterdefinitions- und Berechnungsvalidierungsskripts, um die Formate und Werte von Daten, die Sie in Datenklassen oder -gruppen (Katalogen) definieren, für die Zwecke der Ermittlung und Funktionsregelzuweisung (z. B. bei Voracity-Bereinigungs-, Transformations- oder Maskierungsaufträgen) zu lokalisieren und zu überprüfen. Sie können auch die "if-then-else-Logik" auf Feldebene und "iscompare"-Funktionen von SortCL verwenden, um Nullwerte und falsche Datenformate in DB-Tabellen und Flat-Files zu isolieren. Oder verwenden Sie Outer-Joins, um Quellwerte, die nicht mit Master-(Referenz-)Datensätzen übereinstimmen, in Silos zu speichern. Verwenden Sie Datenformatierungsvorlagen und Ihre Datumsvalidierungsfunktionen, um beispielsweise die Richtigkeit von Eingabetagen und -daten zu überprüfen.