Substring-Manipulation
Musterabgleich von Ausdrücken und Zeichenkettenfunktionen
Ausdruckslogik auf Zeichenkettenebene wird verwendet, um Daten nach bestimmten Mustern oder Regeln zu durchsuchen, zu bearbeiten und auszuwerten. Diese Funktionalität wird häufig mit Texteditoren, SQL- und Shell-Befehlen in Verbindung gebracht, ist aber selten in umfangreiche Datenverarbeitungsvorgänge integriert.
Mit anderen Worten: String-Parsing, Musterabgleich und andere Datenmanipulationen auf niedriger Ebene müssen in der Regel in separaten Tools und E/A-Schritten erfolgen, was den Codierungs- und Verarbeitungsaufwand erhöht.
Einigen Tools für ETL, Datenqualität und Berichterstellung fehlt auch die Art von Teilstring-Funktionalität, die für spezielle Anwendungsfälle wie die Manipulation von Datumswerten oder die Ersetzung empfindlicher Zeichen erforderlich ist.
Lösungen
Das SortCL-Programm in IRI CoSort und IRI Voracity unterstützt die Perl Compatible Regular Expression (PCRE)-Logik für den Musterabgleich sowie das Suchen und Ersetzen und andere Manipulationen auf Zeichenketten- und Teilzeichenkettenebene. SortCL unterstützt auch das Auffüllen und Ausrichten von Feldern, die Zeichenprüfung und das Neuzuordnen von Feldern.
Diese Funktionen sind auch im Zusammenhang mit der Datenermittlung, der Stammdatenverwaltung und der Verbesserung der Datenqualität nützlich.
Noch wichtiger ist, dass diese komplizierte Datentransformation im gleichen Jobskript und I/O-Pass mit allen anderen gleichzeitigen Funktionen, die SortCL ausführt, stattfinden kann, wie z.B.:
Datentransformation (Sortierung, Verknüpfung, Aggregation, Filter, Remap, etc.)
Datenmigration (von Datentypen und Dateiformaten)
Datenschutz (Verschlüsselung auf Feldebene, De-ID, Maskierung, etc.)
Reporting (Batch, Delta, Detail und Zusammenfassung BI)
Bitte verwenden Sie das unten stehende Formular, um uns Ihre Anwendungsfälle für Teilstring-Operationen oder andere komplexe Datenmanipulationen mitzuteilen.
Verwandte Lösungen