Zum Hauptinhalt springen

Das Video ansehen

Beherrschung der CDC-Daten in Data Vault 2.0

Change Data Capture (CDC) ist ein leistungsstarker Mechanismus zur Verfolgung von Änderungen in Quellsystemen. Wenn sich jedoch der Primärschlüssel in Ihrem Quellsystem von dem in Ihrem Data Vault-Hub verwendeten Geschäftsschlüssel unterscheidet, können Sie beim Laden von Daten in multi-aktive Satelliten auf Probleme stoßen. Dieser Artikel befasst sich mit verschiedenen Strategien für die Handhabung von CDC-Daten in solchen Szenarien und bietet praktische Lösungen, die ein genaues und effizientes Laden von Daten gewährleisten.



Die Herausforderung verstehen

In vielen Quellsystemen ist der Primärschlüssel ein technischer Bezeichner, der dem Unternehmen unbekannt ist. Stattdessen stellt der Geschäftsschlüssel den aussagekräftigen Bezeichner für ein Geschäftsobjekt dar. In einem typischen Szenario ist die Beziehung zwischen dem Primärschlüssel und dem Geschäftsschlüssel eins-zu-eins. In einigen Fällen können jedoch mehrere Datensätze für denselben Geschäftsschlüssel zum selben Datum aktiv sein, was zu einer Mehrfachaktivität führt.

Diese Situation tritt ein, wenn der Primärschlüssel zu einem bestimmten Zeitpunkt eindeutig ist, der Geschäftsschlüssel jedoch nicht. So können Sie beispielsweise mehrere Kunden-IDs in Ihrem Quellsystem (Primärschlüssel) haben, die sich auf denselben Kunden (Geschäftsschlüssel) beziehen.


Lösung 1: Überprüfen der Multi-Aktivität

Bevor Sie sich in komplexe Lösungen stürzen, sollten Sie unbedingt überprüfen, ob die Daten wirklich mehrfach aktiv sind. In einigen Fällen kann das Auftreten von Mehrfachaktivität darauf zurückzuführen sein, dass Datensätze mit demselben Geschäftsschlüssel gelöscht und neu erstellt wurden, was zu unterschiedlichen Primärschlüsseln führt.

Um dies zu überprüfen, analysieren Sie die CDC-Daten und andere technische Spalten im Quellsystem, um die Reihenfolge der Ereignisse zu bestimmen. Wenn eine Abfolge von Lösch- und Erstellungsvorgängen festgestellt wird, handelt es sich möglicherweise nicht um eine echte Mehrfachaktivität.


Lösung 2: Erstellen eines Multi-Active-Satelliten mit Delta-Prüfung

Wenn die Daten wirklich multi-aktiv sind, ist der einfachste Ansatz die Erstellung eines multi-aktiven Satelliten. Führen Sie Delta-Prüfungen für die Kombination des Geschäftsschlüssels und des multiaktiven Attributs (z. B. Kunden-ID) durch. Dadurch wird sichergestellt, dass nur Änderungen innerhalb bestimmter multiaktiver Gruppen in den Satelliten geladen werden.

Dieser Ansatz erfordert jedoch eine spezielle Point-in-Time-Tabelle (PIT), da die CDC-Daten Änderungen in der feinsten Granularität (Zeilenebene) liefern. Sie müssen sowohl den Zeitstempel des Ladedatums als auch das Multi-Aktiv-Attribut berücksichtigen, wenn Sie den Satelliten abfragen, um das aktuellste Delta zu erhalten.


Eine andere Möglichkeit besteht darin, Ihre Data Vault-Struktur umzugestalten, indem Sie den Satelliten auf die Verknüpfung setzen. Bei diesem Ansatz wird das Mehrfachaktivitätsattribut zu einem abhängigen untergeordneten Schlüssel in der Verknüpfung, und es wird ein Standardsatellit auf dieser Verknüpfung erstellt. Dies vereinfacht die Handhabung der Mehrfachaktivität innerhalb der Verknüpfung selbst.

Es ist jedoch wichtig zu beachten, dass der Satellit in diesem Fall die Beziehung zwischen dem Kunden und anderen Komponenten beschreibt und nicht direkt das Geschäftsobjekt Hub. Prüfen Sie, ob diese Modellierungsänderung mit Ihren nachgelagerten Abfrageanforderungen übereinstimmt.


Lösung 4: Verwendung des Primärschlüssels als technischer Knotenpunkt

Als letzten Ausweg können Sie den Primärschlüssel aus dem Quellsystem als technischen Hub verwenden. Dazu wird ein Hub für die Primärschlüsselwerte (z. B. Kunden-IDs) erstellt und mit dem echten Kunden-Hub über einen "same-as"-Link verknüpft. Dies ist zwar nicht die bevorzugte Methode, kann aber in Situationen, in denen andere Lösungen nicht praktikabel sind, als Workaround dienen.


Zusätzliche Überlegungen

  • CDC-Daten vs. vollständige Extrakte: Bei vollständigen Datenextrakten, auch wenn sich nur ein Teil der multiaktiven Komponente ändert, ist es am besten, den gesamten Datenblock mit dem neuesten Zeitstempel des Ladedatums einzufügen. Dies vereinfacht die nachgelagerten Prozesse und macht eine spezielle PIT-Tabelle überflüssig.
  • Nicht-History-Links: Wenn die CDC-Daten Transaktionsereignisse darstellen und als solche analysiert werden, sollten Sie in Erwägung ziehen, sie in Nicht-History-Links anstelle von Satelliten zu laden. Dieser Ansatz steht im Einklang mit der transaktionalen Natur der Daten und erleichtert Aggregationen und Trendanalysen.

Schlussfolgerung

Die Handhabung von CDC-Daten in Data Vault 2.0 bei der Arbeit mit multiaktiven Satelliten erfordert eine sorgfältige Bewertung Ihres spezifischen Anwendungsfalls und der Datenmerkmale. Die in diesem Artikel vorgestellten Lösungen bieten verschiedene Ansätze zur Bewältigung dieser Herausforderung, die jeweils ihre eigenen Vorteile und Kompromisse haben. Wenn Sie diese Strategien verstehen und die am besten geeignete auswählen, können Sie das genaue und effiziente Laden von Daten in Ihrer Data Vault-Umgebung sicherstellen.

Treffen mit dem Sprecher

Profilfoto von Marc Winkelmann

Marc Winkelmann

Marc arbeitet im Bereich Business Intelligence und Enterprise Data Warehousing (EDW) mit Schwerpunkt auf Data Vault 2.0-Implementierung und Coaching. Seit 2016 ist er in der Beratung und Implementierung von Data Vault 2.0-Lösungen bei Branchenführern in den Bereichen Fertigung, Energieversorgung und Facility Management tätig. Im Jahr 2020 wurde er zum Data Vault 2.0-Ausbilder für Scalefree ernannt.

Updates und Support erhalten

Bitte senden Sie Anfragen und Funktionswünsche an [email protected]

Für Anfragen zu Data Vault-Schulungen und Schulungen vor Ort wenden Sie sich bitte an [email protected] oder registrieren Sie sich unter www.scalefree.com.

Um die Erstellung von Visual Data Vault-Zeichnungen in Microsoft Visio zu unterstützen, wurde eine Schablone implementiert, die zum Zeichnen von Data Vault-Modellen verwendet werden kann. Die Schablone ist erhältlich bei www.visualdatavault.com.

Scalefree

Eine Antwort hinterlassen