Behandlung von Wert bezogenen Problemen

Formatmaskierung, Ersatzschlüssel, Konstanten, etc.

Herausforderungen

Es gibt viele untergeordnete, datenwertbezogene Probleme, mit denen ETL-Architekten konfrontiert sind, wie z.B.:

*Problem*	*Beispiele oder Details*
Anwenden von Formatmasken zur Darstellung oder Neuinterpretation von Werten	ID'ing Geschlecht, 'F' oder '2' oder Datum maskieren: mm/dd/yy zu dd-mm-yyyy
Homogenisierung inkonsistenter Produktionsschlüssel	Zuweisung eindeutiger numerischer Stellvertreter zur Erkennung und schnelleren Indexierung
Pivoting und Unpivoting	Transponieren von Spalten in Zeilen und umgekehrt ohne Duplikate
Einfügen von Konstanten oder literalen Zeichenketten	Ersetzen oder Hinzufügen von Ersatzwerten zum Schutz oder zur Vor-/Neukennzeichnung von Daten
Setzen oder Beschriften von Werten	Auswerten einer Bedingung, um ein Standardlabel wie'NULL' zu bestimmen.
Validierung von Werten	Bestimmen, ob das Eingangsfeld druckbar ist oder einen bestimmten Datentyp hat.
Neuformulierung von Werten zur Anpassung an Referenzstandards	Vereinheitlichung verschiedener Datenrepräsentationen (z.B. Ländernamen)
Langsam wechselnde Slowly Changing Dimensions in Quelltabellen (SCD)	Verbreitung neuer Werte (z.B. Preisänderung) in Lagertabellen

Lösungen

Die Datenmanagement-Plattform IRI Voracity und das Paket IRI CoSort befassen sich beide mit allen oben genannten Fragen der Datenverarbeitung:

    Andere Datentransformationen
    Datentyp- und Formatkonvertierungen
    Einfache und erweiterte Berichtserstellung
    Datenschutz auf Feldebene

mit einem einzigen 4GL und einem Programm namens SortCL, das auch in der Eclipse-GUI namens IRI Workbench unterstützt wird.

Mit SortCL können Sie:

    Daten und andere Datenformate maskieren mit neuen zusammengesetzten Werten und neue, wiederverwendbare Datentypen erstellen
    Neuzuweisung von Quellschlüsselnamen zur Einhaltung neuer Ontologien
    Pivot (denormalisieren) für effiziente Abfragen und unpivot (normalisieren) vor dem Laden von Daten in das Lager
    Verwenden Sie inline'data' Anweisungen, um Zeichenketten an beliebiger Stelle hinzuzufügen und mit benutzerdefinierten Wiederholungszahlen
    Verwenden Sie bedingte Daten oder Feldlogik, um qualifizierende Werte zu kennzeichnen wie z.B. Einfügungen vs. Löschungen vs. Updates, etc.
    Verwenden Sie die bereitgestellten Datenvalidierungsfunktionen oder Bibliotheken von Drittanbietern, um Datenmerkmale oder -qualität zu bewerten
    Verwenden Sie die integrierte Perl Compatible Regular Expression (PCRE)-Logik, um Datenmuster abzugleichen und wieder zuzuordnen
    Bearbeitung und Bericht über mehrere Arten von sich langsam ändernden Abmessungen und anderen geänderten Daten

IRI-Software wie CoSort und RowGen (Testdatengenerierung) helfen Ihnen eindeutige Initial- oder Ersatzschlüssel zu generieren, mit Funktionen wie:

    1. SEQUENCER, ein speziell benanntes Indexfeld mit benutzerdefinierten Start- und Inkrementwerten.
    2. Zufallsdatengenerierung, um Zufallszahlen oder Zeichenketten zu erstellen die auch sortiert und entdoppelt werden können.
    3. ROWID, ein Feld mit einem beliebigen Namen, das aber als dieses Attribut angegeben wurde mit Merkmalen außerhalb von SEQUENCER.
    4. UUID (und GUID), eine Transformations-/Generierungsfunktion auf Feldebene, die in jedem Teil eines Jobs verwendet werden kann.

Cookie	Dauer	Beschreibung
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Dauer	Beschreibung
_gcl_au	3 months	Provided by Google Tag Manager to experiment advertisement efficiency of websites using their services.
CONSENT	16 years 3 months 4 days 12 hours 23 minutes	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.

Cookie	Dauer	Beschreibung
IDE	1 year 24 days	Google DoubleClick IDE cookies are used to store information about how the user uses the website to present them with relevant ads and according to the user profile.
test_cookie	15 minutes	The test_cookie is set by doubleclick.net and is used to determine if the user's browser supports cookies.
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.