Change Data Capture
Erfassen, Vergleichen, Berichten, Aktualisieren, Auffrischen, Aufbewahren
Herausforderungen
Betriebsdaten unterliegen ständigen Änderungen, Ergänzungen und Löschungen im Vergleich zu historischen Daten. Data Warehouse Maintenance und Unternehmensgruppen müssen Tabellen und Dateien vergleichen sowie Änderungen an Daten erfassen, isolieren und analysieren.
- komplex oder schwerfällig
- fehleranfällig und überlastbar
- beschränkt auf eine einzige Datenbank
- abhängig von Protokolldaten und können geänderte Daten nicht ohne weiteres in aussagekräftigen Berichten verwenden.
Außerdem ist das regelmäßige Lesen und Aktualisieren der gesamten Datenbank bei steigendem Datenaufkommen eine unpraktische Alternative zur Warehouse-Aktualisierung. Mit anderen Worten, die Machbarkeit von datenbankinternen Arbeiten für Deltas nimmt mit zunehmender Tabellengröße ab.
Lösungen
Erfassen und referenzieren Sie MS SQL-, MySQL-, Oracle- und PostgreSQL-Ziele in Echtzeit, wenn neue Zeilen eingefügt, geändert oder gelöscht werden, indem Sie IRI Ripcurrent verwenden, das diese Protokolle auf Änderungen an den Quelldaten überwacht:
ODER Sie berichten über die Deltas (Änderungen) offline in schnelleren, portablen und funktionelleren Sort Control Language (SortCL) Jobs in IRI Voracity oder IRI CoSort. Der Ansatz von SortCL zur Erfassung von Änderungsdaten (Change Data Capture, CDC) ist datenzentriert und nicht protokollbasiert:
- ermöglicht mehrere Source-Change-Analysen (nicht nur aus einer oder einigen wenigen RDBs, sondern aus allen, sowie aus Flat-Files)
- unterstützt die Segmentierung von Einfügungen, Löschungen und Updates
- kann kumulativ oder inkrementell sein (CDC aktualisieren)
- ermöglicht eine sinnvolle BI-(Berichts-)Generierung anhand der Aktualisierungswerte
- schließt Protokollschnüffler, DB-spezifische Auslöser oder andere komplexe Designs aus
Vergleichen Sie riesige Tabellen-, Datei- und andere verbundene Quellen mit konsolidierter Sortier-, Join- und Bedingungslogik, die die Deltas identifiziert, und gleichzeitig:
- Transformation der Daten (Bereinigung, Berechnung, Aggregation, etc.)
- Konvertieren von Datentypen, Feldpositionen und Zielformaten
- Schutz durch Verschlüsselung auf Feldebene, Datenmaskierung, etc.
- Bericht in benutzerdefinierten Detail- und Übersichtslayouts
- Aktualisierung der Data-Warehouse-Tabellen mit Echtzeit-Updates
- Bulk Load vorsortierte Daten durch DB Load Utilities
- Ausgabe in Flat-Dateien für Archivierung, Replikation oder Weitergabe
Unabhängig von den Zielen entfernt dieser Ansatz eine größere Arbeitsbelastung aus dem DBMS (das auf Triggern zur Aktualisierung von CDC-Tabellen basiert). Es ermöglicht auch gleichzeitige Business Intelligence aus den Änderungsdetails.
In einem Szenario mit großer Datenänderung sollten Sie vielleicht mit einer SELECT-Abfrage im kompatiblen IRI FACT (Fast Extract) Tool für Oracle, DB2, etc. beginnen, um die nach einem bestimmten Zeitstempel erzeugten Zeilen in eine Flat-Datei zu übertragen. Auch unqualifizierte Entladungen sind mit FACT sehr schnell und ermöglichen die Analyse der gesamten Transaktionssets im nachfolgenden Schritt.
Gleichzeitig können Sie die Anzahl der neuen, geänderten oder fehlenden Datensätze in Ihren Berichten zählen oder die Laufzeitstatistik von SortCL einsehen (die innere und äußere Übereinstimmungen bei jedem Join zählt). Beschriften, protokollieren und analysieren Sie Änderungen in den Transaktionsdaten, um rote Flaggen zu erkennen und Trends forensisch zu bewerten.