SortCL-Funktionalität
Kombinieren Sie Datentransformation, Migration, Maskierung und Reporting
Was kann SortCL tun?
Das Programm Sort Control Language (SortCL) im IRI CoSort Produkt oder in der IRI Voracity Plattform akzeptiert mehrere Inputs, einschließlich:
- sequentielle (mit Trennzeichen oder festen Positionen), COBOL-Index- und semistrukturierte (Flat JSON/XML) Dateien
- Pipes
- relationale (und einige NoSQL) Datenbanktabellen (Sammlungen) über ODBC
- URLs für statische und Streaming-Quellen, einschließlich S3/GCP/AzureBlob, HTTP/S, FTP/S, HDFS, MongoDB, Kafka und MQTT
- Benutzerverfahren
in mehreren Formaten, verarbeitet sie auf vielfältige Weise und produziert ein oder mehrere Ziele in mehreren Formaten - sowie kundenspezifische Berichte - auf einmal. Siehe die folgende Tabelle und dieses Diagramm im Kontext von CoSort, oder die Datenintegration, Migration, Governance und analytischen Teile dieses Diagramms im weiteren Kontext von Voracity.
Insbesondere kann SortCL in einem Jobskript und I/O-Pass Datentransformation, Konvertierung, Schutz, Reporting und verwandte Prozesse schnell durchführen und kombinieren:
Funktion |
Aktionen |
Auf Byte-, Feld- und Datensatzebene sowie zum Entfernen und Speichern von Duplikaten |
|
Bedingte (include/omit) Auswahl mit if-then-else, else-if Logik |
|
Mehrere Schlüssel, Richtungen, Abfolgen |
|
Zwei oder mehr vorsortierte Dateien |
|
Zwei oder mehr unsortierte Quellen unter vielen Bedingungen für ETL, Dateivergleiche und Change Data Capture (Delta-Reporting) ops |
|
Paralleles Hoch- und Herunterrollen der Summe, der Min-, Max-, Durchschnitts- und Zählwerte; Akkumulieren (laufend); Rang; Vor- und Nachlauf ("Sliding Value Windows") |
|
Check |
Überprüfen Sie, ob die Quelldaten vorsortiert sind, bevor Sie sortieren oder zusammenfügen |
Ändern der Größe, Neupositionierung und Neuausrichtung von Feldern |
|
Datentypen ändern (z.B. EBCDIC<>ASCII, Packed<>Numeric) |
|
Konvertieren Sie zwischen Dateiformaten (z.B. Text <>XML<>VS<>RS<>ISAM<>Vision<>LDIF<>CSV<>JSON) |
|
Entnormung und Normalisierung von dimensionalen Layouts |
|
De-Duplizieren, Validieren, Homogenisieren, Filtern, Finden/Ersetzen und Re-Strukturieren |
|
Integration und Segmentierung von Daten zur Verbesserung der Zeilen- und Spaltendetails; Erstellung neuer Datenformulare und Layouts durch Konvertierungen, Berechnungen und Ausdrücke sowie Composite (Vorlagen). |
|
durch Remapping und Replikation von Spalten und Tabellen |
|
Mathematik- und Triggolfunktionen über Detail- und Summenzeilen hinweg sowie interne und externe Statistikfunktionen |
|
Bit-Level-Manipulationen und Perl-kompatible reguläre Ausdruckslogik für Pattern-Matching, etc. |
|
Überprüfen Sie, ob die Zeichen- und Feldattribute den Spezifikationen entsprechen (z.B. "iscompares", Gap-Analyse) |
|
Sequenz |
Für benutzerdefinierte Indizierungs-, Berichts- und Datenbank-Ladeoperationen sowie die Eingabe von UUID/GUID-Werten |
Diskrete Feldersetzungen, Pseudonymisierung, etc. unter Verwendung von "Set"-Dimensionen für Dateifelder |
|
Für Slowly Changing Dimension (SCD) Reporting und Datenqualität |
|
Erhalten Sie diskrete (Lookup-)Werte und virtualisieren Sie die Ergebnisse in Berichten und Replikaten |
|
Maskierung (Schutz) |
Erhalten Sie diskrete (Lookup-)Werte und virtualisieren Sie Verschlüsselungs- und Maskendaten auf Feldebene und überprüfen Sie Datensicherheitsmaßnahmen; auch Anonymisierung, De-Identifizierung, Filterung und Pseudonymisierung führen zu Ergebnissen in Berichten und Replikaten |
Maskierung (Format) |
Maskierung von numerischem und Datumslayout zum Ersetzen und Anpassen neuer Werteformate |
Lookup |
Diskrete oder zufällige Ziehungen aus Set-Dateien zur Verwendung bei ETL-Lookup-Transformationen, Pseudonymisierung und Testdatengenerierung |
Erstellen von zufällig erzeugten oder ausgewählten (sicheren) Testdatendateien (siehe RowGen) |
|
Kundenspezifisch formatierte, segmentierte Detail- und Übersichtsziele |
|
Kopieren, Bearbeiten und Verschieben von Daten aus einer oder mehreren Quellen in ein oder mehrere Ziele |
|
Komplexe Benutzerfunktionen auf Feldebene (z.B. DQ-Bibliotheken von Drittanbietern) |
Neben der Datenbereitstellung, -manipulation und -migration können Sie mit SortCL auch über geänderte Daten (Einfügen, Aktualisieren, Löschen), Slowly Changing Dimension und Trendlinienschnitte berichten.
Zusätzliche SortCL-Funktionen werden unterstützt: Metadaten- und Stammdatenmanagement, Clickstream-Analyse (Data Webhousing), Echtzeit- und Near-Echtzeitverarbeitung, Kundendatenintegration und -segmentierung, Data Wrangling (Datenaufbereitung für BI und Analytik) und Data Governance-Ziele.