Zum Hauptinhalt springen
Suche
0

Multi-Temporalität in Data Vault 2.0 - Teil 1

Unter Januar 25, 2022#!28Mi., 05 Feb. 2025 11:43:46 +0100+01:004628#28Mi., 05 Feb. 2025 11:43:46 +0100+01:00-11Europa/Berlin2828Europa/Berlin202528 05am28am-28Mi., 05 Feb. 2025 11:43:46 +0100+01:0011Europa/Berlin2828Europa/Berlin2025282025Mi., 05 Feb. 2025 11:43:46 +01004311432amMittwoch=965#!28Mi., 05 Feb. 2025 11:43:46 +0100+01:00Europa/Berlin2#Februar 5, 2025#!28Mi., 05 Feb. 2025 11:43:46 +0100+01:004628#/28Mi., 05 Feb. 2025 11:43:46 +0100+01:00-11Europa/Berlin2828Europa/Berlin202528#!28Mi., 05 Feb. 2025 11:43:46 +0100+01:00Europa/Berlin2#
Scalefree - Blog - Data Vault - Multi-Temporalität in Data Vault 2.0 - Teil 1

Multi-Temporalität in Data Vault 2.0

Der folgende Artikel gibt einen Überblick über das theoretische Verständnis der Multi-Temporalität in einer data warehouse.

Multitemporalität in Data Vault 2.0

Vielleicht haben Sie schon einmal von bi-temporalen Daten gehört. Aber in der Regel gibt es mehr als nur zwei Zeitlinien in Ihren Daten, die Ihre Arbeit erschweren. In der Regel finden Sie in Ihren Datensätzen mehrere Zeitstempel und Daten aus verschiedenen Perspektiven, die mehrere Möglichkeiten bieten, wie Sie Ihre Daten aus einer zeitlichen Perspektive betrachten können. Aber Sie sollten auch in der Lage sein, mit diesem Ungetüm von Zeitmaschine umzugehen. Wussten Sie, dass Data Vault 2.0 in der Lage ist, multitemporale Daten zu verarbeiten? Welchen Einfluss hat dies auf Ihre Arbeit und wie können Sie sich dies zunutze machen? Nehmen Sie an diesem Webinar teil und erfahren Sie, wie Data Vault 2.0 Ihnen helfen kann, die Multi-temporalität zu meistern.

Webinar-Aufzeichnung ansehen

Was ist "Multi-Temporalität" in einem Data Warehouse?

Bevor wir uns mit der Multitemporalität befassen, sollten wir zunächst den Begriff der Bi-Temporalität definieren, denn es ist ein weit verbreiteter Irrglaube, dass Data Vault 2.0 nur bi-temporal ist (was falsch ist):

"Bitemporale Modellierung ist ein spezieller Fall der Modellierung von Informationen in temporalen Datenbanken, die für den Umgang mit historischen Daten entlang zweier unterschiedlicher Zeitlinien entwickelt wurde. Dadurch ist es möglich, die Informationen so zurückzuspulen, wie sie tatsächlich waren, in Kombination mit den Daten, wie sie zu einem bestimmten Zeitpunkt aufgezeichnet wurden. (Nach Angaben von Wikipedia)

Die Zweizeitigkeit bezieht sich nur auf zwei Zeitlinien, die allgemein als "Systemzeit" (die technische Zeitlinie) und "Gültige Zeit" (die geschäftliche Zeitlinie) bezeichnet werden. Data Vault Satellites, Point-in-Time-Tabellen (PIT) und Bridge-Tabellen sind in der Lage, mehrere aktive Zeitleisten in ein und demselben Datensatz anzusprechen. Lassen Sie uns nur einige von ihnen kategorisieren:

  • Quellengesteuerte Zeiten
    • Erstellte Zeit
    • Aktualisierte Zeit
    • Gelöschte Zeit
  • Systemzeiten
    • CDC-Zeit
    • Ereigniszeit der Nachricht
  • Geschäftszeiten
    • alle Zeiten, die angeben, wann etwas in der "realen Welt" geschehen ist oder geschehen wird, wie z. B. ein Kauf- oder Verkaufszeitstempel.
  • Zeitspannen
    • kann technisch, kann geschäftlich orientiert sein
    • Datum und Uhrzeit des Vertragsbeginns und -endes
    • Technische Gültig-von und Gültig-bis-Daten/Zeitstempel
  • Enterprise Data Warehouse (EDW ignorieren)
    • Zeitstempel des Ladedatums (wird beim Einfügen in der ersten Schicht des EDW gesetzt)
    • Zeitstempel, wenn ein Datensatz in die Tabelle geschrieben wird

Alle diese Daten und Zeitstempel können in nur einem Datensatz in einer Satellitentabelle gefunden werden. Auf diese Weise können wir die Daten aus verschiedenen Zeitperspektiven betrachten. Daher berücksichtigt das Data Vault-Modell die Multitemporalität und nicht nur die Bi-Temporalität.

Der Zeitstempel des Ladedatums mit Multi-Temporalität

Eine Voraussetzung für die Multitemporalität der Daten ist, dass der Zeitstempel des Ladedatums für das Laden der Daten in die Satelliten verwendet wird, wenn die Deltaprüfung durchgeführt wird. Nur der Zeitstempel des Ladedatums kann uns eine konsistente, lückenlose und überschneidungsfreie Zeit liefern, die unter unserer Kontrolle steht. Dies ermöglicht uns eine uneingeschränkte Sicht auf die Multi-Timelines in Satellites.

Alle anderen Zeitstempel sind nicht qualifiziert. Erstens würden sie die Anzahl der möglichen Perspektiven auf die Daten auf eine einzige Instanz beschränken. Außerdem können sie Lücken oder Überschneidungen aufweisen, NULL sein und werden nicht von den Enterprise Data Warehouse-Teams kontrolliert.

Kurz gesagt: Wir werden den Zeitstempel des Ladedatums nie loswerden, der während des Einfügens in der ersten Schicht der Enterprise Data Warehouse-Architektur festgelegt und so weit wie möglich durch alle Schichten geschoben wird (denken Sie an Aggregate im Business Vault über mehrere Zeitstempel des Ladedatums).

3 Unterschiedliche Sichtweisen auf Daten

Der Kern Data Vault wird in Raw Data Vault (RDV) und Business Vault (BV) unterschieden. Der Grund dafür ist, dass die weichen Geschäftsregeln von den harten Geschäftsregeln getrennt werden sollen, da die weichen Geschäftsregeln den Inhalt der Daten verändern können. Das Ergebnis ist, dass die Anzahl der möglichen Perspektiven auf die Rohdaten reduziert wird, wenn weiche Geschäftsregeln früh in der Ladearchitektur angewendet werden. Die gleichen Regeln müssen auch auf Zeitleisten angewendet werden. Zeitleistengesteuerte Geschäftsperspektiven auf Rohdaten finden am frühesten im Business Vault statt. 

Es gibt im Wesentlichen drei verschiedene Perspektiven in Bezug auf Zeitpläne im data warehouse: eine data warehouse-Perspektive, eine Unternehmensperspektive und eine Perspektive der Informationsbereitstellung. 

Die Perspektive data warehouse bezieht sich auf den Zeitstempel des Ladedatums, um eine konsistente inkrementelle Integration der Daten in die Raw Data Vault und Business Vault zu erreichen.  

Die geschäftliche Perspektive bezieht sich auf alle Daten und Zeitstempel, die vom Quellsystem geliefert werden. Auch die technischen Felder werden genauso gezählt wie das Erstellungs-, Aktualisierungs- oder Löschdatum/der Zeitstempel aus dem Quellsystem. Alles, was Teil der Nutzlast ist, wird behandelt als beschreibenden Daten beim Laden von Raw Data Vault.
Mit verschiedenen Abfragen können nun alle möglichen Ansichten der Rohdaten erstellt werden, z. B. Aggregate auf der Grundlage des jüngsten Datensatzes pro Business Key und gruppiert nach einem Verkaufsdatum.

Die Perspektive der Informationsbereitstellung stützt sich auf eine Momentaufnahme, um alle Daten so "einzufrieren", wie sie zu einem bestimmten Zeitpunkt aktiv waren. Die Interpretation dessen, was "aktiv" bedeutet, kann jedoch unterschiedlich sein.

Um dies zu berücksichtigen, können mehrere Perspektiven erstellt werden. Das ist auch der Grund, warum wir von einer einzigen Version der Fakten im Raw Data Vault und mehreren Versionen der Wahrheit im Business Vault sprechen (verschiedene Perspektiven auf die Rohdaten = verschiedene Wahrheiten aus verschiedenen Blickwinkeln).

Dies könnte beispielsweise ein stündlicher, täglicher, wöchentlicher, monatlicher oder jährlicher Schnappschuss oder Zeitabschnitt sein. Die Data Vault-Entitäten, die hier verwendet werden, sind die PIT- und Bridge-Tabellen. Das aktuelle Delta von Stammdaten wie z.B. Kundendaten in einem Satellite kann auf der Grundlage eines täglichen Snapshots in einer PIT-Tabelle "eingefroren" werden. Auch Transaktionsdaten, die in einer Non-Historized Link kann an einen stündlichen Schnappschuss in einer Brückentisch.

Wie das genau aussieht, wird im nächsten Teil der multitemporalen Newsletter-Serie gezeigt. Um Ihr Verständnis für diese Datenperspektiven zu verbessern, können Sie sich auch unsere Multitemporal Data Vault Klasse. 

Eine Antwort hinterlassen

Menü schließen