SortCL-Funktionalität

 

Kombinieren Sie Datentransformation, Migration, Maskierung und Reporting

Was kann SortCL tun?

 

Das Programm Sort Control Language (SortCL) im IRI CoSort Produkt oder in der IRI Voracity Plattform akzeptiert mehrere Inputs, einschließlich:

  • sequentielle (mit Trennzeichen oder festen Positionen), COBOL-Index- und semistrukturierte (Flat JSON/XML) Dateien
  • Pipes
  • relationale (und einige NoSQL) Datenbanktabellen (Sammlungen) über ODBC
  • URLs für statische und Streaming-Quellen, einschließlich S3/GCP/AzureBlob, HTTP/S, FTP/S, HDFS, MongoDB, Kafka und MQTT
  • Benutzerverfahren

in mehreren Formaten, verarbeitet sie auf vielfältige Weise und produziert ein oder mehrere Ziele in mehreren Formaten - sowie kundenspezifische Berichte - auf einmal. Siehe die folgende Tabelle und dieses Diagramm im Kontext von CoSort, oder die Datenintegration, Migration, Governance und analytischen Teile dieses Diagramms im weiteren Kontext von Voracity.

 

Insbesondere kann SortCL in einem Jobskript und I/O-Pass Datentransformation, Konvertierung, Schutz, Reporting und verwandte Prozesse schnell durchführen und kombinieren:

 

Funktion

Aktionen

Filter

Auf Byte-, Feld- und Datensatzebene sowie zum Entfernen und Speichern von Duplikaten

Segment

Bedingte (include/omit) Auswahl mit if-then-else, else-if Logik

Sort

Mehrere Schlüssel, Richtungen, Abfolgen

Merge

Zwei oder mehr vorsortierte Dateien

Join (Match)

Zwei oder mehr unsortierte Quellen unter vielen Bedingungen für ETL, Dateivergleiche und Change Data Capture (Delta-Reporting) ops

Aggregate

Paralleles Hoch- und Herunterrollen der Summe, der Min-, Max-, Durchschnitts- und Zählwerte; Akkumulieren (laufend); Rang; Vor- und Nachlauf ("Sliding Value Windows")

Check

Überprüfen Sie, ob die Quelldaten vorsortiert sind, bevor Sie sortieren oder zusammenfügen

Re-Map

Ändern der Größe, Neupositionierung und Neuausrichtung von Feldern

Convert

Datentypen ändern (z.B. EBCDIC<>ASCII, Packed<>Numeric)

Re-format

Konvertieren Sie zwischen Dateiformaten (z.B. Text <>XML<>VS<>RS<>ISAM<>Vision<>LDIF<>CSV<>JSON)

Pivot / Unpivot

Entnormung und Normalisierung von dimensionalen Layouts

Cleanse

De-Duplizieren, Validieren, Homogenisieren, Filtern, Finden/Ersetzen und Re-Strukturieren

Enrich

Integration und Segmentierung von Daten zur Verbesserung der Zeilen- und Spaltendetails; Erstellung neuer Datenformulare und Layouts durch Konvertierungen, Berechnungen und Ausdrücke sowie Composite (Vorlagen).

Migrate DBs

durch Remapping und Replikation von Spalten und Tabellen

Berechnungen

Mathematik- und Triggolfunktionen über Detail- und Summenzeilen hinweg sowie interne und externe Statistikfunktionen

Sub-string

Bit-Level-Manipulationen und Perl-kompatible reguläre Ausdruckslogik für Pattern-Matching, etc.

Validieren

Überprüfen Sie, ob die Zeichen- und Feldattribute den Spezifikationen entsprechen (z.B. "iscompares", Gap-Analyse)

Sequenz

Für benutzerdefinierte Indizierungs-, Berichts- und Datenbank-Ladeoperationen sowie die Eingabe von UUID/GUID-Werten

Set Lookup

Diskrete Feldersetzungen, Pseudonymisierung, etc. unter Verwendung von "Set"-Dimensionen für Dateifelder

Fuzzy Lookup

Für Slowly Changing Dimension (SCD) Reporting und Datenqualität

Federieren

Erhalten Sie diskrete (Lookup-)Werte und virtualisieren Sie die Ergebnisse in Berichten und Replikaten

Maskierung (Schutz)

Erhalten Sie diskrete (Lookup-)Werte und virtualisieren Sie Verschlüsselungs- und Maskendaten auf Feldebene und überprüfen Sie Datensicherheitsmaßnahmen; auch Anonymisierung, De-Identifizierung, Filterung und Pseudonymisierung führen zu Ergebnissen in Berichten und Replikaten

Maskierung (Format)

Maskierung von numerischem und Datumslayout zum Ersetzen und Anpassen neuer Werteformate

Lookup

Diskrete oder zufällige Ziehungen aus Set-Dateien zur Verwendung bei ETL-Lookup-Transformationen, Pseudonymisierung und Testdatengenerierung

Synthetisierung

Erstellen von zufällig erzeugten oder ausgewählten (sicheren) Testdatendateien (siehe RowGen)

Reporting

Kundenspezifisch formatierte, segmentierte Detail- und Übersichtsziele

Replizieren

Kopieren, Bearbeiten und Verschieben von Daten aus einer oder mehreren Quellen in ein oder mehrere Ziele

Benutzerdefiniert

Komplexe Benutzerfunktionen auf Feldebene (z.B. DQ-Bibliotheken von Drittanbietern)

Neben der Datenbereitstellung, -manipulation und -migration können Sie mit SortCL auch über geänderte Daten (Einfügen, Aktualisieren, Löschen), Slowly Changing Dimension und Trendlinienschnitte berichten.

 Zusätzliche SortCL-Funktionen werden unterstützt: Metadaten- und Stammdatenmanagement, Clickstream-Analyse (Data Webhousing), Echtzeit- und Near-Echtzeitverarbeitung, Kundendatenintegration und -segmentierung, Data Wrangling (Datenaufbereitung für BI und Analytik) und Data Governance-Ziele.