Big Data Wrangling


Schnelle Datenaufbereitung für BI & Analytik

In einer Welt großer Datenmengen kommt es auf die Zeit bis zur Einsicht, Datenqualität und -sicherheit an.

 

Je größer die Quelldaten, desto größer sind die Probleme, sie für die heutigen Business Intelligence (BI) und Analysetools vorzubereiten:

Volumen

In Bezug auf die Performance können BI- und Analysewerkzeuge keine großen Datensätze verarbeiten. Wenn sie überhaupt funktionieren, dauert es lange bis die Ergebnisse angezeigt werden.

Vielfalt

Die Vielzahl der heute verfügbaren strukturierten, semistrukturierten und unstrukturierten Datenquellen übersteigt die Lese- und Verarbeitungsmöglichkeiten der meisten BI-Tools.

Geschwindigkeit

BI-Tools können in der Regel nicht ohne Vorverarbeitung mit Echtzeit- oder vermittelten Daten umgehen. Und wenn möglich, schafft die Speisung einzelner Displays und nicht einer geregelten Umgebung Redundanz und Unsicherheit.

Wahrheitsgehalt

Müll rein, Müll raus. Die meisten BI-Tools und Datenaufbereitungstools der neueren Generation haben nicht die Kapazität, zu bestimmen ob die Daten sauber sind, oder sie zu bereinigen oder zu standardisieren, wenn sie es nicht sind. Damit Informationen vertrauenswürdig und gemeinsam genutzt werden können, ist eine inhärente Datenqualität erforderlich.

Datenschutz

Möglicherweise haben Sie keine effektive Strategie um sensible Daten zu maskieren, die für Berichte bestimmt sind. Möglicherweise benötigen Sie einen bequemeren Weg, um gefährdete Daten im Voraus zu schützen und sie später möglicherweise offenzulegen.

Komplexität

Das Design und die Modifikation von Berichts- und Dashboard-Layouts sind bereits kompliziert. Die Integration von Daten aus unterschiedlichen Quellen für jeden neuen Bericht ist eine weitere Herausforderung für Daten- und ETL-Architekten, DBAs und Geschäftsanwender. Datensilos stellen auch Herausforderungen an die Datenqualität, Sicherheit, Speicherung und Synchronisation.

Gibt es eine Möglichkeit all diese Probleme auf einmal zu lösen.... all diese Daten zu integrieren, zu bereinigen und zu maskieren, damit Ihr Analyse- oder Datenvisualisierungstool sie nutzen kann?

 

Ja, diese Bereitstellung von wiederverwendbaren Daten für die Nutzung und Anzeige von BI und Analysewerkzeugen wird als Data Blending, Datenaufbereitung, Data Franchising, Data Munging oder Datenwrangling bezeichnet. Dies ist ein so wichtiger Prozess, dass kürzlich mehrere VC-gestützte Tools auf den Markt gebracht wurden, nur um diese Herausforderung zu bewältigen.

 

 

 

 

Was Sie jedoch nicht wissen, ist, dass das Datentransformations- und Staging-Softwarepaket IRI CoSort - jetzt auch innerhalb der IRI Voracity ETL-Plattform - seit 2003 schneller als jeder andere Daten erfasst und weitergegeben hat. Im Jahr 2018 wurde Voracity vom Gründer der Data Warehouse Branche Dr. Barry Devlin zur produktionsalanytischen Plattform erklärt.

 

 

Datenintegration, Bereinigung und Maskierung laufen alle gleichzeitig in einem konsolidierten SortCL-Programm (der standardmäßigen CoSort und Voracity-Engine). Verwenden Sie es, um schnell und zuverlässig unterschiedliche Datenquellen für die Verwendung und Wiederverwendung durch Ihre BI- oder Analyseplattform zu verwalten. Wählen Sie aus mehreren Optionen für die Datenaufbereitung in der kostenlosen Eclipse™ GUI für Voracity und verarbeiten Sie diese Daten in Windows-, Unix- oder Hadoop-Dateisystemen, ohne weitere Hardware zu kaufen oder eine Datenbank zu belasten.

Datenaufbereitung (Wrangling)

Bei der Datenaufbereitung oder dem Franchising werden unterschiedliche Datenquellen erfasst, gefiltert, de-normalisiert, sortiert, aggregiert, geschützt und neu formatiert. Mit diesem Ansatz kann Ihr BI-Tool nur die Daten importieren, die es benötigt, und zwar in das Tabellen- oder Flatfile-Format (z.B. CSV, XML), das es benötigt.

Datenvisualisierungen - und damit Antworten auf Ihre Geschäftsfragen - werden schneller, wenn Sie Voracity oder CoSort verwenden:

    Filtern, Scrubben, Sortieren, Zusammenführen, Aggregieren und anderweitiges Transformieren großer Daten in einem einzigen Auftragsskript und I/O-Pass.

    Erstellen Sie die Teilmengen, die Dashboard, Streudiagramm, Scorecard oder andere Analysetools benötigen und verarbeiten können.

Die zentralisierte Datenaufbereitung vermeidet auch die Reproduktion oder Synchronisation von Daten, wenn ein anderer Bericht benötigt wird.

Datenschutz (Maskierung)

Deidentifizieren Sie mit PII gefütterte BI- und Analyseapplikationen mit integrierten Anonymisierungsfunktionen auf Feldebene wie:

    Kodierung
    Verschlüsselung (formaterhaltend oder nicht)
    Ausdrücke
    Hashing
    Maskierung (Verschleierung)
    Randomisierung
    redaktionelle Bearbeitung
    Manipulation von Teilstrings

Wenden Sie die gewünschte Funktion an - unter Verwendung von Datenklassen und Regeln - basierend auf Aussehen, Reversibilität und Autorisierung.

Wussten Sie auch?

 

Die kostenlose grafische IDE für das Jobdesign über alle IRI-Softwareprodukte hinweg heißt IRI Workbench. Die auf Eclipse™ basierende IRI Workbench unterstützt:

  • automatische Datenprofilierung, Klassifizierung, ERD und Metadatenerstellung
  • Erzeugung von Jobskripten (oder Flow) mit mehreren Modifikationsverfahren
  • Batch-, Remote- und HDFS-Exe Kürzungen
  • Daten, Metadaten und Auftragsversionskontrolle
  • Stammdatenverwaltung

Fazit

Wenn Sie ein Analyse- oder BI-Tool wie BIRT, Business Objects, Cognos, DWDigest, Excel, iDashboards, Knime, MicroStrategy, OBIEE, Power BI, QlikView, R, Splunk, Spotfire oder Tableau zur Integration von Daten verwenden, sollten Sie in Erwägung ziehen diese Last einer Engine und einem Framework zu übertragen, die dafürs ausgelegt sind.

Die schnellste, kostengünstigste und robusteste Umgebung für die Datenaufbereitung ist IRI Voracity. Voracity, das auf Eclipse™ basiert und von CoSort oder Hadoop-Engines unterstützt wird, kann Daten für mehrere BI- und Analyseziele gleichzeitig erkennen (profilieren), integrieren, migrieren, verwalten und vorbereiten.

Wenn Ihre Daten bereits in einem anderen ETL- oder BI-Tool definiert sind, konvertiert der Erwin (AnalytiX DS) Mapping Manager und Meta Integration Model Bridge (MIMB) Ihre Quellmetadaten automatisch in SortCL Data Definition Files (DDF). Wenn Sie diese Metadaten jedoch nicht haben, ist es einfach, sie in der IRI Workbench zu erstellen und zu verwalten, während Sie die Quellen den Zielen zuordnen. Die Verarbeitung und das Reporting aus semi- und unstrukturierten Datenquellen ist ebenfalls möglich.