Scrubbing / Bereinigung

 

Bereinigung und Transformation von Big Data im gleichen Durchgang

Herausforderungen
 
Die Datenbereinigung kann kompliziert, zeitaufwändig und teuer sein. Die Funktionen, die Sie in 3GL, Shell-Skripten oder SQL-Prozeduren schreiben, können komplex und schwer zu pflegen sein. Sie erfüllen möglicherweise nicht alle Ihre Geschäftsregeln oder erledigen die gesamte Arbeit.
 

Benutzerdefinierte Funktionen können auch in separaten Batch-Schritten oder in einer speziellen "Script-Transformationskomponente" ausgeführt werden, die Sie mit dem Datenfluss Ihres Tools verbinden und in kleineren Teilen ausführen müssen. Das ist ein Problem bei wachsenden Datenmengen.

 

Datenqualitätswerkzeuge hingegen können auch viel von dieser Arbeit leisten. Leider sind sie bei hohem Volumen nicht besonders effizient und können schwer zu konfigurieren oder zu modifizieren sein. Sie können auch ein funktionaler Überfluss sein und viel kosten. Manchmal ist die größte Lösung nicht die beste.

Lösungen

Das SortCL-Programm in IRI CoSort oder IRI Voracity kann Daten in mehr als 125 Tabellen- und Dateiquellen finden und bereinigen. SortCL verwendet eine einfache 4GL- und Eclipse-GUI, um Daten, Manipulationen und Ziele bis auf die Feldebene zu definieren.

In SortCL integrierte native Datenqualitätsfunktionen, die Sie ausführen oder mit den Aktivitäten zur Datentransformation, Migration, Schutz und Berichterstellung kombinieren können:

· Deduplizierung Zeichenüberprüfung

· Datenhomogenisierung

· Werte finden (scannen) und ersetzen

· Horizontale und bedingte vertikale Auswahl

· Definition und Auswertung der Datenstruktur (Format)

· Erkennung und Markierung von Datenänderungen und Logikproblemen

SortCL unterstützt auch die Definition von benutzerdefinierten Datenformaten durch Vorlagendefinitionen. Dies ermöglicht das Scannen und Verifizieren von Formaten.

Für eine erweiterte Datenbereinigung (basierend auf komplexen Geschäftsregeln) auf Feldebene können Sie Ihre eigenen Funktionen oder die Funktionen in Lieferantenbibliotheken für Datenqualität anschließen. Die CoSort Dokumentation bezieht sich auf Beispiele aus Trillium und der Melissa Data Adressnormbibliothek. Deklarieren Sie eine Reinigungsfunktion für ein beliebiges Feld entweder im Voraktionsplan oder in der Zielphase eines Auftrags (d.h. bis zu zwei DQ-Routinen pro Feld, pro Auftrag).

Das Fazit? Mit CoSort SortCL - und vielleicht speziellen Datenqualitätsbibliotheken die Sie hinzufügen, können Sie Ihre Daten im gleichen I/O-Pass bereinigen, in dem Sie filtern, transformieren, sichern, berichten oder weitergeben.

Wenn Sie PII wie SSNs in Ihren Datensätzen finden und suchen müssen, wird SortCL dies ebenso tun wie das eigenständige IRI FieldShield Datenmaskierungstool. Wenn Sie qualitativ hochwertige Testdaten benötigen, besuchen Sie IRI RowGen. RowGen verwendet SortCL-Metadaten um intelligente Testdaten zu erstellen, die Ihren Geschäftsregeln entsprechen, so dass Sie mit den realistischen, aber sicheren Daten testen können: gute, schlechte und Nulldaten.