Verständnis der Statusverfolgung von Satelliten in Data Vault
Die Integration von Change Data Capture (CDC)-Daten in multiaktive Satelliten und Statusverfolgungssatelliten ist ein differenziertes Thema. In einer früheren Sitzung lag der Schwerpunkt in erster Linie auf multiaktiven Satelliten, während die Statusverfolgungssatelliten zu wenig beleuchtet wurden. In diesem Artikel wird ihr Nutzen, insbesondere im Zusammenhang mit CDC-Daten, näher beleuchtet.
Ein Statusverfolgungssatellit in Data Vault dient einem bestimmten Zweck: Er verfolgt das Erscheinen, die Aktualisierung und das Verschwinden von Geschäftsobjekten im Quellsystem. Wenn jedoch CDC-Daten verfügbar sind, wird diese Verfolgung von Natur aus einfacher, da CDC bereits explizite Informationen über das Anlegen (C), Aktualisieren (U) und Löschen (D) liefert. Daher ist die Erstellung eines separaten Statusverfolgungssatelliten möglicherweise nicht erforderlich.
Im Gegensatz dazu kann bei Vollextrakten (Nicht-CDC-Daten) ein Satellit zur Statusverfolgung von unschätzbarem Wert sein. Er ermöglicht die Ableitung von Erstellungs-, Aktualisierungs- und Löschvorgängen durch den Vergleich aufeinanderfolgender Extrakte, wobei das erste Auftreten (Erstellung), Unterschiede zwischen Datensätzen (Aktualisierung) und das Entfernen von Datensätzen (Löschung) identifiziert werden. Dies kann erreicht werden, indem man einen Mechanismus zur Deltaprüfung unterhält und einen robusten Satelliten zur Speicherung dieser Ereignisse erstellt.
In diesem Artikel:
Umgang mit multiaktiven Daten in Statusverfolgungssatelliten
Multiaktive Daten entstehen, wenn derselbe Geschäftsschlüssel im Quellsystem mehrfach vorkommt und sich durch ein anderes Attribut (z. B. die Kunden-ID) unterscheidet. In diesen Fällen müssen die Statusverfolgungssatelliten die zusätzlichen Attribute berücksichtigen und sicherstellen, dass einzelne Datensätze nicht fälschlicherweise als gelöscht markiert werden, wenn sich nur eine Instanz der mehrfach aktiven Daten ändert.
Nehmen wir zum Beispiel ein Szenario, in dem ein Kunde im Quellsystem zweimal mit unterschiedlichen technischen IDs, aber demselben Geschäftsschlüssel erscheint. Ein Löschvorgang für eine ID sollte den Kunden nicht vollständig aus dem Quellsystem entfernen. In diesem Fall sollte ein Satellit zur Statusverfolgung einen zusammengesetzten Schlüssel pflegen, der den betriebswirtschaftlichen Schlüssel und das Attribut "mehrfach aktiv" kombiniert.
Auf diese Weise wird sichergestellt, dass Änderungen in der richtigen Granularität verfolgt werden und die Integrität mehrfach aktiver Datensätze gewahrt bleibt. Außerdem kann das Hinzufügen der CDC-Informationen (CUD-Spalten) direkt zum Hauptsatelliten die Verfolgung vereinfachen, ohne dass ein separater Statusverfolgungssatellit erforderlich ist.
Data Vault und Delta Lake: Komplementäre Ansätze
Die zweite Frage, die sich stellt, ist, ob Data Vault einen Mehrwert bringt, wenn Delta Lake bereits verwendet wird. Um diese Frage zu beantworten, ist es wichtig, die Unterschiede zwischen den beiden Verfahren zu verstehen. Delta Lake ist eine Technologie, während Data Vault eine Methodik ist. Delta Lake bietet zwar ein robustes Framework für die Verarbeitung von Daten in ihrer nativen Form (z. B. JSON, XML) und die Verwaltung von Deltas, schreibt aber nicht vor, wie Daten für Geschäftszwecke zu modellieren oder zu verarbeiten sind.
Data Vault hingegen zeichnet sich durch seine strukturierte, agile Methodik für die Modellierung von Daten aus. Es bietet eine klare Architektur, einschließlich Hubs, Links und Satelliten, die die Daten für Analysen und Berichte effektiv organisieren. Hier ergänzt Data Vault Delta Lake durch die Anwendung eines methodischen Ansatzes auf die im See gespeicherten Daten.
In der Praxis kann Delta Lake als persistenter Bereitstellungsbereich (Landezone) in einer Data Vault-Architektur dienen. Die Metadaten- und Delta-Tracking-Funktionen von Delta Lake verbessern die Effizienz des Ladens und Verarbeitens von Daten, während Data Vault sicherstellt, dass die Daten so modelliert und strukturiert sind, dass sie den Geschäftsanforderungen entsprechen. Diese Synergie ermöglicht es Unternehmen, die Stärken beider Technologien zu nutzen und ein leistungsstarkes Datenökosystem zu schaffen.
Kombination von CDC-Daten mit Data Vault und Delta Lake
Durch die Integration von CDC-Daten, Delta Lake und Data Vault können Unternehmen eine optimierte Datenarchitektur erreichen. CDC-Daten werden direkt in die Speicherebenen von Delta Lake (Bronze, Silver, Gold) eingespeist, die wiederum die Hubs, Links und Satelliten von Data Vault auffüllen. Diese Integration rationalisiert die Datenaufnahme, -umwandlung und -abfrage und sorgt gleichzeitig für Flexibilität und Skalierbarkeit.
So können CDC-Daten beispielsweise direkt in Statusverfolgungssatelliten eingefügt oder der Einfachheit halber in einen Hauptsatelliten aufgenommen werden. Gleichzeitig unterstützen die Metadatenfunktionen von Delta Lake effiziente Abfragen und Analysen, so dass sich die Data Vault-Schicht auf die Anwendung von Geschäftslogik und die Gewinnung aussagekräftiger Erkenntnisse konzentrieren kann.
Durch die Kombination dieser Tools und Methoden können Datenteams robuste, flexible Datenplattformen aufbauen, die moderne Analyse- und Entscheidungsfindungsanforderungen unterstützen.
Das Video ansehen
Treffen mit dem Sprecher
Marc Winkelmann
Managing Consultant
Marc arbeitet im Bereich Business Intelligence und Enterprise Data Warehousing (EDW) mit Schwerpunkt auf Data Vault 2.0-Implementierung und Coaching. Seit 2016 ist er in der Beratung und Implementierung von Data Vault 2.0-Lösungen bei Branchenführern in den Bereichen Fertigung, Energieversorgung und Facility Management tätig. Im Jahr 2020 wurde er zum Data Vault 2.0-Ausbilder für Scalefree ernannt.