Behandlung von Wert bezogenen Problemen

 

Formatmaskierung, Ersatzschlüssel, Konstanten, etc.

Herausforderungen
 
Es gibt viele untergeordnete, datenwertbezogene Probleme, mit denen ETL-Architekten konfrontiert sind, wie z.B.:
 
 

Problem

Beispiele oder Details

Anwenden von Formatmasken zur Darstellung oder Neuinterpretation von Werten

ID'ing Geschlecht, 'F' oder '2' oder Datum maskieren: mm/dd/yy zu
dd-mm-yyyy

Homogenisierung inkonsistenter Produktionsschlüssel

Zuweisung eindeutiger numerischer Stellvertreter zur Erkennung und schnelleren Indexierung

Pivoting und Unpivoting

Transponieren von Spalten in Zeilen und umgekehrt ohne Duplikate

Einfügen von Konstanten oder literalen Zeichenketten

Ersetzen oder Hinzufügen von Ersatzwerten zum Schutz oder zur Vor-/Neukennzeichnung von Daten

Setzen oder Beschriften von Werten

Auswerten einer Bedingung, um ein Standardlabel wie'NULL' zu bestimmen.

Validierung von Werten

Bestimmen, ob das Eingangsfeld druckbar ist oder einen bestimmten Datentyp hat.

Neuformulierung von Werten zur Anpassung an Referenzstandards

Vereinheitlichung verschiedener Datenrepräsentationen (z.B. Ländernamen)

Langsam wechselnde Slowly Changing Dimensions in Quelltabellen (SCD)

Verbreitung neuer Werte (z.B. Preisänderung) in Lagertabellen

Lösungen

 

Die Datenmanagement-Plattform IRI Voracity und das Paket IRI CoSort befassen sich beide mit allen oben genannten Fragen der Datenverarbeitung:

    Andere Datentransformationen
    Datentyp- und Formatkonvertierungen
    Einfache und erweiterte Berichtserstellung
    Datenschutz auf Feldebene

mit einem einzigen 4GL und einem Programm namens SortCL, das auch in der Eclipse-GUI namens IRI Workbench unterstützt wird.

 

Mit SortCL können Sie:

    Daten und andere Datenformate maskieren mit neuen zusammengesetzten Werten und neue, wiederverwendbare Datentypen erstellen
    Neuzuweisung von Quellschlüsselnamen zur Einhaltung neuer Ontologien
    Pivot (denormalisieren) für effiziente Abfragen und unpivot (normalisieren) vor dem Laden von Daten in das Lager
    Verwenden Sie inline'data' Anweisungen, um Zeichenketten an beliebiger Stelle hinzuzufügen und mit benutzerdefinierten Wiederholungszahlen
    Verwenden Sie bedingte Daten oder Feldlogik, um qualifizierende Werte zu kennzeichnen wie z.B. Einfügungen vs. Löschungen vs. Updates, etc.
    Verwenden Sie die bereitgestellten Datenvalidierungsfunktionen oder Bibliotheken von Drittanbietern, um Datenmerkmale oder -qualität zu bewerten
    Verwenden Sie die integrierte Perl Compatible Regular Expression (PCRE)-Logik, um Datenmuster abzugleichen und wieder zuzuordnen
    Bearbeitung und Bericht über mehrere Arten von sich langsam ändernden Abmessungen und anderen geänderten Daten

 

IRI-Software wie CoSort und RowGen (Testdatengenerierung) helfen Ihnen eindeutige Initial- oder Ersatzschlüssel zu generieren, mit Funktionen wie:

    1. SEQUENCER, ein speziell benanntes Indexfeld mit benutzerdefinierten Start- und Inkrementwerten.
    2. Zufallsdatengenerierung, um Zufallszahlen oder Zeichenketten zu erstellen die auch sortiert und entdoppelt werden können.
    3. ROWID, ein Feld mit einem beliebigen Namen, das aber als dieses Attribut angegeben wurde mit Merkmalen außerhalb von SEQUENCER.
    4. UUID (und GUID), eine Transformations-/Generierungsfunktion auf Feldebene, die in jedem Teil eines Jobs verwendet werden kann.