Semi- und Unstrukturierte Daten


Vorbereitung, Verarbeitung, Schutz und Präsentation

Semi-strukturierte Daten

 

Die Daten kommen in unterschiedlicher Form aus verschiedenen Quellen, einschließlich einer Explosion der maschinell erzeugten Daten. Semi-strukturierte Datenformate mit flexiblen Schemata, wie JSON und XML, sind heute Standardformate für das Versenden und Speichern von Daten. Herkömmliche DBs und DWs, die auf einem festen Schema aufbauen, können diese jedoch nicht ohne weiteres speichern oder verarbeiten. Daher müssen sie in ihrer Rohform gespeichert und mitgeführt werden (was die Performance beeinträchtigt) oder sie müssen vor dem Laden transformiert werden (Verlust von Informationen bei gleichzeitiger Erhöhung der Komplexität).

 

Die IRI-Software ist darauf ausgelegt, semi-strukturierte Daten ohne diese Kompromisse zu verarbeiten. Die CoSort Datenmanipulations-Engine in der großen Datenmanagement-Plattform IRI Voracity verarbeitet nun semi-strukturierte Formate nativ, so dass Sie diese Daten verarbeiten können, ohne ihr Format zu konvertieren oder ein neues externes Schema zu erstellen.

 

In diesem direkten Modus können Voracity-Benutzer die "unvergleichliche parallele Leistung" der CoSort-Maschinenverarbeitung nutzen, ohne dabei an Funktionalität oder Flexibilität einzubüßen. Aus diesem Grund kann die IRI-Software neben großen strukturierten Daten auch bestimmte Klassen von statischen und streaming semi-strukturierten Daten verarbeiten, zum Beispiel:

  • ASN.1 call detail record (CDR) Dateien
  • IDMS, IMS und andere legay Quellen
  • MF-ISAM und Vision index Dateien
  • MongoDB (BSON), Cassandra, JSON und XML
  • NoSQL, Hive und cloud / SaaS Quellen (bspw. AWS S3)
  • IoT und Nachrichten Queues via MQTT, Kafka, MQseries, etc.

Unstrukturierte Daten

Sie können jetzt auch in der IRI Workbench-GUI Daten aus unstrukturierten Textdateiquellen suchen, extrahieren und strukturieren - und dann alles mit den Flat-File-Ergebnissen in dieser Umgebung machen. Das bedeutet, dass Sie mit Voracity auch so etwas wie ein textbasiertes ETL-Tool erhalten.  Zusätzlich ist es möglich, PII in unstrukturierten Datendateien zu finden und zu maskieren und sie an Ort und Stelle oder in neuen Zielen mit den gleichen Dateinamen zu maskieren.

Mit dem Assistenten für die Erkennung von Dark Data in der IRI Workbench, der IRI Voracity Datenmanagement-Plattform oder dem IRI DarkShield Datenmaskierungsprodukt können Benutzer gleichzeitig Strings auf der Basis von Mustern, expliziten oder Nachschlagetabellenwerten, maschinell gelernten NLP-Modellen, Pfadfiltern oder definierten Bounding-Box-Bereichen finden, maskieren/ersetzen/löschen und extrahieren (und dann weiter verarbeiten), und zwar über: E-Mail-Repositorys; NoSQL-DBs wie Cassandra und MongoDB; .pdf, .rtf und MS Office (.doc/x, .ppt/x, .xls/x) Dokumente; .txt, .xml, .html, .hl7 / x12, JSON, XML und andere unstrukturierte Text- und Logdateien -- sowie Bilddateien und Gesichter -- alles auf einmal.

Und von der gleichen Eclipse-GUI aus können IRI-Software-Benutzer mit den Flat-File-Extrakten und ihren Metadaten arbeiten:

Die Quintessenz
 Der gesamte Fundus an Big Data - ob im Stapelbetrieb oder in Echtzeit-Feeds analysiert - ist für Unternehmen und Regierungsdienstleister von großem Interesse. Die IRI-Software - und insbesondere die Voracity Plattform für totales Datenmanagement - ist der schnellste, einfachste und kostengünstigste Weg, um strukturierte, halbstrukturierte und unstrukturierte Datenquellen.... in Ihre bestehende IT-Infrastruktur einzubinden und vorzubereiten (Verarbeitung, Schutz und Bereitstellung).