Scrubbing / Datenbereinigung

 

Bereinigung und Transformation von Big Data im gleichen Durchgang

Herausforderungen

 

Die Datenbereinigung kann kompliziert, zeitaufwändig und teuer sein. Die Funktionen, die Sie in 3GL, Shell-Skripten oder SQL-Prozeduren schreiben, können komplex und schwer zu pflegen sein. Sie erfüllen möglicherweise nicht alle Ihre Geschäftsregeln oder erledigen die gesamte Arbeit.

 

Benutzerdefinierte Daten-Scrubbing-Techniken laufen oft in separaten Batch-Schritten oder in einer speziellen „Skript-Transformationskomponente“, die Sie mit dem Datenfluss Ihres Tools verbinden und in kleineren Stücken ausführen müssen. Diese Ineffizienz wird bei einem hohen Eingangsdatenvolumen noch verstärkt.

 

Datenqualitäts-Tools hingegen können ebenfalls einen Großteil dieser Arbeit übernehmen. Leider sind sie bei großen Datenmengen nicht besonders effizient und können schwer zu konfigurieren oder zu ändern sein. Sie können auch funktional überladen sein, nicht mit verwandten Datenoperationen kombiniert werden und/oder zu viel kosten.

Lösungen

Das SortCL-Programm in IRI CoSort oder IRI Voracity kann Daten in mehr als 150 Tabellen- und Dateiquellen finden und bereinigen. SortCL verwendet eine einfache 4GL- und Eclipse-GUI, können Sie nicht nur Ihre Datenbereinigungsfunktionen, sondern auch viele andere Transformations-, Migrations- und Maskierungsfunktionen sowie Ihre Zieltabellen und -dateien (einschließlich Berichte) bis ins kleinste Detail definieren.

Zu den integrierten Datenqualitätsoperationen, die Sie mit der IRI-Software durchführen oder mit diesen anderen Aktivitäten kombinieren können, gehören:

· Deduplizierung Zeichenüberprüfung

· Datenhomogenisierung

· Werte finden (scannen) und ersetzen

· Horizontale und bedingte vertikale Auswahl

· Definition und Auswertung der Datenstruktur (Format)

· Erkennung und Markierung von Datenänderungen und Logikproblemen

SortCL unterstützt auch die Definition von benutzerdefinierten Datenformaten durch Vorlagendefinitionen. Dies ermöglicht das Scannen und Verifizieren von Formaten.

Für eine erweiterte Datenbereinigung (basierend auf komplexen Geschäftsregeln) auf Feldebene können Sie Ihre eigenen Funktionen oder die Funktionen in Lieferantenbibliotheken für Datenqualität anschließen. Die CoSort Dokumentation bezieht sich auf Beispiele aus Trillium und der Melissa Data Adressnormbibliothek. Deklarieren Sie eine Reinigungsfunktion für ein beliebiges Feld entweder im Voraktionsplan oder in der Zielphase eines Auftrags (d.h. bis zu zwei DQ-Routinen pro Feld, pro Auftrag).

Das Fazit? Mit CoSort SortCL - und vielleicht speziellen Datenqualitätsbibliotheken die Sie hinzufügen, können Sie Ihre Daten im gleichen I/O-Pass bereinigen, in dem Sie filtern, transformieren, sichern, berichten oder weitergeben.

Wenn Sie PII wie SSNs in Ihren Datensätzen finden und suchen müssen, wird SortCL dies ebenso tun wie das eigenständige IRI FieldShield Datenmaskierungstool. Wenn Sie qualitativ hochwertige Testdaten benötigen, besuchen Sie IRI RowGen. RowGen verwendet SortCL-Metadaten um intelligente Testdaten zu erstellen, die Ihren Geschäftsregeln entsprechen, so dass Sie mit den realistischen, synthetischen aber sicheren Daten testen können: gute, schlechte und Nulldaten.