Datenaggregation

 

Aggregatfunktionen für die Aggregatdatenanalyse

Herausforderungen

 

"Die Verwendung von vorsortierten Zusammenfassungen (Aggregaten) ist das effektivste Werkzeug, das der Data-Warehouse-Designer zur Leistungskontrolle einsetzt."  "Das Data Warehouse Toolkit" - Dr. Ralph Kimball

 

Das Hauptproblem bei der Verarbeitung von Aggregatdaten ist die Geschwindigkeit bei großen Datenmengen. Die SQL-Aggregation „Gruppieren nach“ in Datenbanken für Sternschemata und ETL-Vorgänge werden mit zunehmendem Datenvolumen langsamer.

 

Ein weiteres Problem bei der Durchführung von Aggregatdatenanalysen ist, dass die meisten COTS-Produkte, einschließlich ETL-Tools, keine fortschrittlichen Datenaggregationstechniken wie laufende Summen oder die Kombination von Aggregatfunktionen mit Querberechnungen oder benutzerdefinierter Berichtsformatierung unterstützen.

Lösungen 

Das SortCL-Programm im IRI CoSort Paket und der IRI Voracity Plattform (ETL +) berechnet riesige Faktentabellen, Drill-Down und Roll-Up-Aggregate mit außergewöhnlicher Einfachheit und Effizienz. SortCL kombiniert die parallele Zusammenfassung mit hochvolumigen Sortier-, Joint- und Report-Vorgängen im selben Jobskript und I/O-Pass.

Verwenden Sie SortCL um schnell Ausgabewerte zu erzeugen, die aus akkumulierten Detaildatensätzen abgeleitet werden - auf mehreren Halteebenen (einschließlich des endgültigen Aggregats). Die zugehörigen Funktionen sind:

    Verdichtung (Summen)
    Mittelwertbildung
    Maximal
    Minimum
    Zählen
    Multiplikation
    Rangliste
    Sequenzierung
    Standardabweichung

Hier ist ein Beispiel für einen Datenaggregations-Job in der grafischen IDE IRI Workbench für Voracity ETL-Operationen, der das Skript des CoSort SortCL-Jobs und sein Transform-Mapping-Diagramm zeigt:

Improving Insight with IRI Voracity and Cubeware Cockpit - IRI

Hier ist mehr von dem, was Sie tun können:

  1. Anzeige von Endwerten am Ende einer Datei, d. h. Roll-up-Aggregationen, und Nutzung von SortCL überall dort, wo umfangreiche, gleichzeitige Sortier- und Gruppierarbeiten erforderlich sind.
  2. Gruppieren Sie Daten auf der Grundlage von booleschen Unterbrechungsbedingungen zwischen und innerhalb von Datensätzen für EIS-Zusammenfassungen oder Drilldown-Analysen für viele Arten von numerischen Daten. Dies ist eine großartige Funktion für die Erstellung von Detail- und Zusammenfassungsberichten sowie für die Aggregation von Faktendatensätzen.
  3. Reflektieren Sie Transaktionsaggregate auf der Basis verschiedener Feldkombinationen (z. B. Gesamtumsatz nach SKU, Mitarbeiter und Standort), indem Sie einzelne Umsatzberichte ausgliedern.
  4. Formatieren Sie Summensätze auf jeder Ebene unterschiedlich. Schreiben Sie jede Ebene in eine separate Zieltabelle oder -datei und führen Sie die Unterebenen in einem strukturierten Bericht für die Analyse der aggregierten Daten zusammen.

Zu den weiteren Optionen gehören laufende (akkumulierende) Aggregate, fensterbasierte Aggregate im Stil von Sybase und Aggregate über kreuzweise berechnete Werte. Verwenden Sie diese Funktionen für Ad-hoc-Präsentationen und komplexe Trendanalysen, mit (oder ohne) alle anderen Transformationen und Formatierungsoptionen.