Select / Filtern
Nur Verarbeitung und Ausgabe der Daten, die Sie benötigen
Sie müssen Massendaten filtern oder eine benutzerdefinierte Datenauswahl vornehmen, um das Datenvolumen zu reduzieren oder eine selektive Datenextraktion durchzuführen, und zwar aus einer Vielzahl von Gründen:
Datenarchivierung, -migration, -replikation und -föderation (Data Mesh)
Berichterstellung, Business Intelligence und Analysen, z. B. Kundensegmentierung
Datenbank-Subsetting (und Maskierung) zur Bereitstellung eines realistischen, aber sicheren Testschemas
Beantwortung von Anträgen auf Zugang zu Daten (Data Subject Access Requests, DSARs) zur Einhaltung der DSGVO oder ähnlicher Datenschutzgesetze
Initiativen zur Datendeduplizierung, Datenreduzierung, Datenforensik und Datenqualität
SQL Select-Anweisungen eignen sich hervorragend für „normale“ Datenbanktabellen, können aber bei großen Datenmengen (und je nach Schlüsselbeziehungen) sehr lange dauern. Sie können auch Massenentladungen und Daten-Subsetting-Aufgaben behindern.
Die Datenauswahltechniken außerhalb des RDB-Bereichs variieren auch zwischen den verschiedenen Datenquellen und -silos, so dass unterschiedliche Befehle zur Datenfilterung erforderlich sind. Dies kann in heterogenen Datenintegrationskontexten besonders lästig sein und komplexe ETL- oder Kodierungsarbeiten erfordern.
Lösungen
Das Programm SortCL in IRI CoSort (und IRI Voracity) bietet mehrere horizontale (Datensatz-/Zeilenebene) und vertikale (Feld-/Spaltenebene) Auswahlmöglichkeiten für einen beliebigen Satz von strukturierten Datenquellen. CoSort/SortCL Spin-off-Produkte - darunter IRI FieldShield (zur Datenmaskierung), IRI NextForm (zur Datenmigration und -replikation) und IRI RowGen (zur Testdatengenerierung) - verfügen alle über die gleichen Funktionen zur Zeilen- und Spaltenauswahl (Filterung).
Verwalten Sie die Datensatzgröße, -anzahl und -fluss vor, während und nach der Datentransformation. Eliminieren, reduzieren oder übergeben Sie Datensätze für eine schnelle, SQL-orientierte Datenfilterung während der Ein- und Ausgabe. Die Massendatenreduktion erhöht die Effizienz von SortCL-Transformationen, Berichten, Lasten und anderen nachgelagerten Prozessen.
Verwenden Sie die direkte /QUERY-Syntax in SQL in der Eingabephase eines SortCL-Jobs oder die systemeigene SortCL-Syntax für die Bedingungslogik (z. B. if-then-else-Ausdrücke), um Datensätze in verschiedenen Phasen Ihres Skripts für die Datentransformation, die Berichterstellung und/oder den Schutz einzuschließen, auszulassen und neu zu formatieren. Filtern Sie Datensätze nach Datenklassen oder Spaltennamen oder nach datensatzspezifischen Bedingungen. Sie können z. B. angeben, welche Wertebereiche gültig sind und nur Datensätze innerhalb oder außerhalb dieser Bereiche ausgeben.
Entfernen Sie doppelte Datensätze. Validieren Sie Zeichenformen und führen Sie andere Datenintegritätsprüfungen durch, um fehlerhafte Datensätze zurückzuweisen oder zu isolieren, bevor sie in eine Datenbank geladen werden.
Basieren Sie diese Spezifikationen auf Ihrer Geschäftslogik und speichern Sie sie in Textskripten, die in Eclipse verwaltet und in Git freigegeben werden, damit sie leicht geändert und wiederverwendet werden können.
Verwandte Lösungen
Blog-Artikel