Flat-File - Riesige Dateien schneller transformieren
Intelligente Datenarchitekten halten es einfach
Wenn Sie Daten in festen oder begrenzten Dateiformaten speichern oder verwenden, wissen Sie vielleicht schon, dass IRI CoSort weiterhin das schnellste Datentransformationswerkzeug für Flat-Files Dateien in Unix-, Linux- und Windows-Dateisystemen ist. 1992 baute IRI ein beliebtes 4GL für CoSort namens SortCL, um mehrere Datentransformationen durchzuführen und Berichte zu erstellen, die alle im selben Jobskript und I/O durch große Dateien geleitet werden.
SortCL ist weiterhin für CoSort Paketbenutzer verfügbar und ist auch die Standard-Datenbearbeitungsmaschine für Flat-Files (und andere Datenquellen) im vollen IRI Voracity ETL-Paket.
Voracity ist eine umfassende Datenmanagement-Plattform, die auf Eclipse basiert und von CoSort oder Hadoop betrieben wird und Datenermittlung, Integration, Migration, Verwaltung und Analytik konsolidiert. Datenbewegungen, Manipulationen und Verwaltungsaktivitäten in Flat-Files werden in dieser visuellen Design- und Bereitstellungsumgebung am besten unterstützt.
Mehr über Flat-File ETL in CoSort oder Voracity
Wenn Sie SortCL-basierte Transformationen in den CoSort-Assistenten - oder vollständige ETL-Workflows in den Voracity-Assistenten oder -Diagrammen - ausführen, können Sie die automatisch erstellten Metadaten der Datendefinitionsdatei (.DDF) für Ihre Quellen wiederverwenden. Diese Dateien enthalten Feldnamen und Attribute, die als symbolische Referenzen in den zugrundeliegenden SortCL-Skripten dienen, die die Quelle-Ziel-Zuordnungen und die benutzerdefinierten Berichtslayouts festlegen.
Die SortCL Job-Skripte oder XML-Workflows (die diese Skripte enthalten), die den ETL durchführen, können über die Befehlszeile, über Batch-Skripte (Shell-Skripte) oder aus der IRI Workbench heraus ausgeführt werden ... entweder ad hoc oder nach festgelegten Zeitplänen. Voracity-Anwender können auch eine Vorschau der Mapping-Ergebnisse sehen, bevor der gesamte Workflow ausgeführt wird.
Unabhängig davon, ob Sie ETL-Jobs mit CoSort (.scl) oder Voracity (.flow) definieren, profitieren Sie von der Aufgabenkonsolidierung und den bewährten Techniken zur Optimierung von Dateisystem-I/O, Speicher und Multicore. Entfernen Sie den Overhead der hochvolumigen Transformation von DB- und BI-Schichten und schließen Sie den Bedarf an mehr Hardware, In-Memory-DBs und sogar Hadoop aus.
Was Sie tun können
- Eingabe einer oder mehrerer großer sequentieller Quellen
- Mehrere Transformationen ausführen (filtern, sortieren, verbinden usw.)
- Dateien vergleichen, um Änderungen und BI zu erfassen
- Felder neu zuordnen, neu formatieren und ausrichten
- Segmentierte, angepasste Berichte erstellen
- Konvertieren von Datentypen und Dateiformaten
- Maskieren oder Demaskieren von PII auf Feldebene
- Generieren von Testdaten in einem oder mehreren Dateiformaten
- Gleichzeitige Ausgabe an mehrere Ziele, einschließlich benutzerdefinierter formatierter Berichte
Dieses Diagramm veranschaulicht die Möglichkeiten von SortCL im Produkt CoSort für die Umwandlung, die Konvertierung, den Schutz und die Berichterstellung von Flat-Files - alles in einem einzigen Durchgang.
Dieses Diagramm veranschaulicht die Möglichkeiten von SortCL in der Voracity-Plattform. Hier stehen dieselben Single-Pass-Fähigkeiten zur Verfügung, allerdings in einer vollständigen Datenmanagement-Umgebung (Kuration).
In Voracity können Sie Flat-File-Daten mit Daten in relationalen Datenbanken, dunklen (Dokumenten-)Daten, Legacy- und "modernen" Big Data-Plattformen (Hadoop, NoSQL, Cloud und SaaS) zusammenführen. Außerdem können Sie damit sensible Dateidaten auf der Feldebene maskieren, während Sie sie für BI- und Analysetools bearbeiten und zusammenführen.
Flat-File: Verwandte Lösungen