Flat-File - Riesige Dateien schneller transformieren


Intelligente Datenarchitekten halten es einfach

Flat-, oder sequentielle Dateien sind ein praktisches und gängiges Format für den Datenaustausch. Da sie wenig bis gar keinen Speicher- oder Zugriffsaufwand mit sich bringen, sind sie auch eines der schnellsten Quellformate für Datenzugriff, Manipulation, Laden und Reporting. Das ist ein Grund, warum es das Produkt IRI FACT (Fast Extract) gibt - um Flat-Files aus großen Datenbanktabellen zu erzeugen.

 

Wenn Sie Daten in festen oder begrenzten Dateiformaten speichern oder verwenden, wissen Sie vielleicht schon, dass IRI CoSort weiterhin das schnellste Datentransformationswerkzeug für Flat-Files Dateien in Unix-, Linux- und Windows-Dateisystemen ist. 1992 baute IRI ein beliebtes 4GL für CoSort namens SortCL, um mehrere Datentransformationen durchzuführen und Berichte zu erstellen, die alle im selben Jobskript und I/O durch große Dateien geleitet werden.

 

SortCL ist weiterhin für CoSort Paketbenutzer verfügbar und ist auch die Standard-Datenbearbeitungsmaschine für Flat-Files (und andere Datenquellen) im vollen IRI Voracity ETL-Paket.

Voracity ist eine umfassende Datenmanagement-Plattform, die auf Eclipse basiert und von CoSort oder Hadoop betrieben wird und Datenermittlung, Integration, Migration, Verwaltung und Analytik konsolidiert. Datenbewegungen, Manipulationen und Verwaltungsaktivitäten in Flat-Files werden in dieser visuellen Design- und Bereitstellungsumgebung am besten unterstützt.

Mehr über Flat-File ETL in CoSort oder Voracity

Beginnen Sie mit dem Flat-File-Profiler in der kostenlosen IRI Workbench GUI für ETL, die auf Eclipse™ basiert. Die Assistenten für die Profilerstellung und die Definition von Metadaten erstellen Statistiken, suchen nach Werten, die Mustern oder Zeichenketten entsprechen, und erstellen Metadaten für die Verwendung in Ihren Transformations-, Berichts-, Maskierungs- und anderen Aufträgen.

Wenn Sie SortCL-basierte Transformationen in den CoSort-Assistenten - oder vollständige ETL-Workflows in den Voracity-Assistenten oder -Diagrammen - ausführen, können Sie die automatisch erstellten Metadaten der Datendefinitionsdatei (.DDF) für Ihre Quellen wiederverwenden. Diese Dateien enthalten Feldnamen und Attribute, die als symbolische Referenzen in den zugrundeliegenden SortCL-Skripten dienen, die die Quelle-Ziel-Zuordnungen und die benutzerdefinierten Berichtslayouts festlegen.

Die SortCL Job-Skripte oder XML-Workflows (die diese Skripte enthalten), die den ETL durchführen, können über die Befehlszeile, über Batch-Skripte (Shell-Skripte) oder aus der IRI Workbench heraus ausgeführt werden ... entweder ad hoc oder nach festgelegten Zeitplänen. Voracity-Anwender können auch eine Vorschau der Mapping-Ergebnisse sehen, bevor der gesamte Workflow ausgeführt wird.

Unabhängig davon, ob Sie ETL-Jobs mit CoSort (.scl) oder Voracity (.flow) definieren, profitieren Sie von der Aufgabenkonsolidierung und den bewährten Techniken zur Optimierung von Dateisystem-I/O, Speicher und Multicore. Entfernen Sie den Overhead der hochvolumigen Transformation von DB- und BI-Schichten und schließen Sie den Bedarf an mehr Hardware, In-Memory-DBs und sogar Hadoop aus.
Neben der hervorragenden Laufzeitleistung beschleunigen einfache 4GL-Metadaten die Erstellung und Änderung von Aufträgen und sind viel einfacher zu erlernen und zu programmieren als 3GL, PL/SQL, Shell-Skripts und ETL-Tools.

Was Sie tun können

 In einem Auftragsskript (und E/A-Durchlauf), können Sie:
  • Eingabe einer oder mehrerer großer sequentieller Quellen
  • Mehrere Transformationen ausführen (filtern, sortieren, verbinden usw.)
  • Dateien vergleichen, um Änderungen und BI zu erfassen
  • Felder neu zuordnen, neu formatieren und ausrichten
  • Segmentierte, angepasste Berichte erstellen
  • Konvertieren von Datentypen und Dateiformaten
  • Maskieren oder Demaskieren von PII auf Feldebene
  • Generieren von Testdaten in einem oder mehreren Dateiformaten
  • Gleichzeitige Ausgabe an mehrere Ziele, einschließlich benutzerdefinierter formatierter Berichte

Dieses Diagramm veranschaulicht die Möglichkeiten von SortCL im Produkt CoSort für die Umwandlung, die Konvertierung, den Schutz und die Berichterstellung von Flat-Files - alles in einem einzigen Durchgang.


Dieses Diagramm veranschaulicht die Möglichkeiten von SortCL in der Voracity-Plattform. Hier stehen dieselben Single-Pass-Fähigkeiten zur Verfügung, allerdings in einer vollständigen Datenmanagement-Umgebung (Kuration).


In Voracity können Sie Flat-File-Daten mit Daten in relationalen Datenbanken, dunklen (Dokumenten-)Daten, Legacy- und "modernen" Big Data-Plattformen (Hadoop, NoSQL, Cloud und SaaS) zusammenführen. Außerdem können Sie damit sensible Dateidaten auf der Feldebene maskieren, während Sie sie für BI- und Analysetools bearbeiten und zusammenführen.