Behandlung von Problemen auf der Wertebene

 

Datenformatkonvertierung, Schlüsselumwandlung, Konstanten, etc.

Herausforderungen
 
Es gibt viele untergeordnete, datenwertbezogene Probleme, mit denen ETL-Architekten konfrontiert sind, wie z.B.:
 
 

Problem

Beispiele oder Details

Anwenden von Formatmasken zur Darstellung oder Neuinterpretation von Werten

ID'ing Geschlecht, 'F' oder '2' oder Datum maskieren: mm/dd/yy zu
dd-mm-yyyy

Homogenisierung inkonsistenter Produktionsschlüssel

Zuweisung eindeutiger numerischer Stellvertreter zur Erkennung und schnelleren Indexierung

Pivoting und Unpivoting

Transponieren von Spalten in Zeilen und umgekehrt ohne Duplikate

Einfügen von Konstanten oder literalen Zeichenketten

Ersetzen oder Hinzufügen von Ersatzwerten zum Schutz oder zur Vor-/Neukennzeichnung von Daten

Setzen oder Beschriften von Werten

Auswerten einer Bedingung, um ein Standardlabel wie'NULL' zu bestimmen.

Validierung von Werten

Bestimmen, ob das Eingangsfeld druckbar ist oder einen bestimmten Datentyp hat.

Neuformulierung von Werten zur Anpassung an Referenzstandards

Vereinheitlichung verschiedener Datenrepräsentationen (z.B. Ländernamen)

Langsam wechselnde Slowly Changing Dimensions in Quelltabellen (SCD)

Verbreitung neuer Werte (z.B. Preisänderung) in Lagertabellen

Lösungen

 

Die ETL-/Datenmanagement-Plattform IRI Voracity und das IRI CoSort-Tool, das Voracity antreibt, lösen alle oben genannten Probleme der Datenverarbeitung und darüber hinaus:

  Schlüssel und andere Datenumwandlungen
    Datentyp- und Formatkonvertierungen
    Einfache und erweiterte Berichtserstellung
  PII-Maskierung und benutzerdefinierte Synthese von Testdaten

mit einem einzigen 4GL und einem Datenmanipulationsprogramm namens SortCL, das auch in der Eclipse-GUI namens IRI Workbench unterstützt wird.

Mit SortCL können Sie:

    Daten und andere Datenformate mit neuen zusammengesetzten Werten und wiederverwendbaren Datentypen neu zuordnen
    Neuzuweisung von Quellschlüsselnamen zur Einhaltung neuer Ontologien
    Pivot (denormalisieren) für effiziente Abfragen und unpivot (normalisieren) vor dem Laden von Daten in das Lager
    Verwenden Sie inline'data' Anweisungen, um Zeichenketten an beliebiger Stelle hinzuzufügen und mit benutzerdefinierten Wiederholungszahlen
    Verwenden Sie bedingte Daten oder Feldlogik, um qualifizierende Werte zu kennzeichnen wie z.B. Einfügungen vs. Löschungen vs. Updates, etc.
    Verwenden Sie die bereitgestellten Datenvalidierungsfunktionen oder Bibliotheken von Drittanbietern, um Datenmerkmale oder -qualität zu bewerten
    Verwenden Sie die integrierte Perl Compatible Regular Expression (PCRE)-Logik, um Datenmuster abzugleichen und wieder zuzuordnen
    Bearbeitung und Bericht über mehrere Arten von sich langsam ändernden Abmessungen und anderen geänderten Daten

IRI-Software wie CoSort und RowGen (Testdatengenerierung) helfen Ihnen eindeutige Initial- oder Ersatzschlüssel zu generieren, mit Funktionen wie:

    1. SEQUENCER, ein speziell benanntes Indexfeld mit benutzerdefinierten Start- und Inkrementwerten.
    2. Zufallsdatengenerierung, um Zufallszahlen oder Zeichenketten zu erstellen die auch sortiert und entdoppelt werden können.
    3. ROWID, ein Feld mit einem beliebigen Namen, das aber als dieses Attribut angegeben wurde mit Merkmalen außerhalb von SEQUENCER.
    4. UUID (und GUID), eine Transformations-/Generierungsfunktion auf Feldebene, die in jedem Teil eines Jobs verwendet werden kann.