Identifizierung von nicht-historisierten Verbindungen

Das Video ansehen

Identifizierung von nicht historisierten Verbindungen in Data Vault

Bei der Datenverwaltung, insbesondere bei der Data Vault 2.0-Methode, kann das Verständnis für den Umgang mit nicht-historisierten Verbindungen für die Aufrechterhaltung genauer, nachvollziehbarer Aufzeichnungen von entscheidender Bedeutung sein. In der heutigen Data Vault FridayIn diesem Kapitel werden wir das Konzept der nicht-historisierten Links behandeln, die Arbeitseinheit bei der Datenspeicherung untersuchen und diskutieren, welche Elemente in Link-Hashes enthalten sein sollten.

In diesem Artikel:

Hintergrund: Zum Verständnis der GL-Tabelle
Definition der Arbeitseinheit in Data Vault
Testen der Struktur der Arbeitseinheit
Welche Werte sollten in der Link-Hash-Datei gehasht werden?
In der Praxis: Einrichten von nicht-historisierten Links
Wie Sie Ihre Fragen einreichen
Abschließende Überlegungen
Treffen mit dem Sprecher

Hintergrund: Zum Verständnis der GL-Tabelle

Stellen Sie sich vor, wir arbeiten mit einer Hauptbuchtabelle (GL) zur Speicherung von Finanztransaktionen, die über eine Milliarde Zeilen umfasst. Jeder Datensatz in dieser Tabelle stellt eine Transaktion dar und enthält Attribute wie:

TransactionID: Ein eindeutiger Bezeichner für jede Transaktion.
KontoSegment: Ein Geschäftsschlüssel, der das betreffende Konto identifiziert.
Buchhaltungsbeleg (AccountingDocument): Ein weiterer betriebswirtschaftlicher Schlüssel, der dem mit der Transaktion verbundenen Dokument zugeordnet ist.
Buchhaltungsperiode: Ein Referenzschlüssel, der den Zeitraum der Transaktion angibt.
DebitAmount und CreditAmount: Die Geldbeträge für jede Transaktion.
TransactionTimestamp: Das genaue Datum und die Uhrzeit der Transaktion.

Während die TransaktionsID allein jede Transaktion eindeutig identifiziert, ist eine Kombination aus KontoSegment, BuchhaltungDokument, AbrechnungsPeriode und TransactionTimestamp bietet auch einen eindeutigen Bezeichner für jeden Eintrag. Dieser Aufbau wirft die Frage auf, wie diese Datensätze in einem Data Vault-Modell am besten organisiert, gehasht und verwaltet werden können, insbesondere im Hinblick auf die Definition einer Arbeitseinheit und die Entscheidung, welche Werte in einen Link-Hash aufgenommen werden sollen.

Definition der Arbeitseinheit in Data Vault

Die Arbeitseinheit ist ein Konzept, das in Data Vault verwendet wird, um zu bestimmen, welche betriebswirtschaftlichen Schlüssel in einem einzigen Datensatz gruppiert werden müssen. In diesem Zusammenhang konzentrieren wir uns darauf, wie diese betriebswirtschaftlichen Schlüssel -KontoSegment, BuchhaltungDokument, AbrechnungsPeriode und TransactionTimestamp-sollten im Rahmen einer nicht-historisierten Verbindung strukturiert und verwaltet werden.

Laut Michael Olschimke, dem Geschäftsführer von Scalefree, ist die Unit of Work vor allem dann relevant, wenn es sich um beziehungsbasierte Standardlinks handelt. In unserem Beispiel besteht keine Notwendigkeit, die Verknüpfung zwischen diesen Geschäftsschlüsseln aufzuteilen, da die Verknüpfung die ursprüngliche Granularität jeder Transaktion aus den Quelldaten erfassen kann. Indem wir also alle vier Attribute in derselben Verknüpfung belassen, vermeiden wir eine Unterbrechung der Unit of Work und gewährleisten eine kohärente Datenstruktur.

Testen der Struktur der Arbeitseinheit

Eine Möglichkeit zur Überprüfung der korrekten Anwendung der Arbeitseinheit besteht darin, zu prüfen, ob das Datenmodell es ermöglicht, die ursprüngliche Datenquelle ohne Verlust von Datensätzen oder Attributen zu rekonstruieren. Wenn wir feststellen, dass wir die Daten genau rekonstruieren können, indem wir die nicht-historisierte Verknüpfung und möglicherweise später eine Satellitentabelle verwenden, dann halten wir uns wahrscheinlich korrekt an die Arbeitseinheit.

Da die Attribute in unserem Fall jede Transaktion eindeutig identifizieren, können wir davon ausgehen, dass die Unit of Work erhalten bleibt, was eine stabile und konsistente Struktur des Datenmodells ermöglicht.

Welche Werte sollten in der Link-Hash-Datei gehasht werden?

Die nächste Frage betrifft die Werte, die wir in den Link-Hash aufnehmen sollten. Im Allgemeinen wird der Hash-Schlüssel in einer Verknüpfungstabelle von den Geschäftsschlüsseln der referenzierten Knotenpunkte abgeleitet. In diesem Fall ist die primäre Frage, ob nur der Hashwert der KontoSegment, BuchhaltungDokument und AbrechnungsPeriodeoder ob wir auch die TransaktionsID.

Olschimke schlägt hier einen praktischen Ansatz vor: Während wir technisch damit auskommen könnten, entweder die TransaktionsID allein oder in Kombination mit den anderen drei Elementen, ist es oft besser, alle relevanten Attribute in den Hash aufzunehmen. Dies schließt die TransaktionsID zusammen mit KontoSegment, BuchhaltungDokument und AbrechnungsPeriode.

Hier ist der Grund dafür:

Konsistenz mit Automatisierungswerkzeugen: Viele Data Vault-Automatisierungstools beziehen automatisch alle Hub-Referenzen und ihre Geschäftsschlüssel in die Hash-Berechnung ein. Dieser Ansatz entspricht den Standard-Automatisierungspraktiken und erleichtert die spätere Arbeit mit Automatisierungstools.
Minimierung potenzieller Probleme: Die Einbeziehung aller Attribute in die Hash-Berechnung verringert das Risiko von Datenverlusten oder versehentlicher Datenduplikation. Es wird sichergestellt, dass unsere Hashes jeden einzelnen Datensatz genau repräsentieren.
Vernachlässigbarer Einfluss auf die Leistung: Durch das Hinzufügen eines zusätzlichen Attributs zur Hash-Berechnung kann sich die Länge der Zeichenkette zwar geringfügig erhöhen, die Auswirkungen auf die Leistung sind jedoch minimal. Bei der Verarbeitung großer Datenmengen führt diese kleine Änderung in der Regel nicht zu einer signifikanten Verlangsamung.

In der Praxis: Einrichten von nicht-historisierten Links

In Data Vault sind nicht-historisierte Links ein leistungsfähiges Werkzeug zur Verwaltung großer Datenmengen, ohne dass jeder Datensatz versioniert werden muss. Indem wir alle vier Attribute in die Hash-Berechnung einbeziehen, schaffen wir eine stabile Linkstruktur, die die ursprüngliche Granularität der Quelldaten widerspiegelt. Dieser Ansatz ermöglicht es uns, präzise Datensätze zu verwalten und abzurufen, ohne Angst vor unbeabsichtigtem Datenverlust.

Für Praktiker kann die Einrichtung dieser nicht-historisierten Verknüpfungen einfach sein, wenn sie Automatisierungstools verwenden, die den größten Teil der Arbeit übernehmen. Im Allgemeinen wird empfohlen, die Konventionen der Automatisierungstools zu befolgen, insbesondere bei größeren Datensätzen, da dies Diskrepanzen minimiert und langfristig eine reibungslosere Datenverarbeitung ermöglicht.

Wie Sie Ihre Fragen einreichen

Wenn Sie mit Data Vault arbeiten und eine ähnliche Frage wie diese haben, bieten Ihnen die Data Vault-Freitagssitzungen die Möglichkeit, Einblicke von Experten zu erhalten. Um eine Frage einzureichen, können Sie das Formular verwendenHier können Sie zur Verdeutlichung Diagramme, Whiteboard-Bilder oder andere Hilfsmittel anhängen. Wenn Sie schnellere Antworten wünschen, können Sie Ihre Fragen auch über die Website Data Innovators Exchangewo die Berater aktiv reagieren und Data Vault-Themen diskutieren.

Für diejenigen, die an einer tiefer gehenden Schulung interessiert sind, bietet Scalefree außerdem monatlich stattfindende Webinare an, darunter Sitzungen zu WhereScape und dbt. Diese bieten wertvolle Ressourcen für alle, die ihr Data Vault-Fachwissen vertiefen möchten.

Abschließende Überlegungen

Die Identifizierung nicht-historisierter Verknüpfungen und die Entscheidung für einen konsistenten Hashing-Ansatz können die Datenintegrität und Modellzuverlässigkeit erheblich beeinflussen. Durch die Einhaltung der Data Vault-Prinzipien und den effektiven Einsatz von Automatisierungswerkzeugen können Sie große Datenmengen verwalten, ohne die Genauigkeit oder Konsistenz zu beeinträchtigen.

Mit dem richtigen Ansatz sind Sie in der Lage, ein belastbares, skalierbares Datenmodell zu erstellen, das den Anforderungen Ihres Unternehmens entspricht und flexibel für zukünftige Änderungen bleibt. Wenn Sie tiefer in Data Vault eintauchen wollen, bleiben Sie dran für mehr Data Vault Friday Einblicke und zögern Sie nicht, sich an der Gemeinschaft zu beteiligen, um kontinuierliche Unterstützung und Fachwissen zu erhalten.

Treffen mit dem Sprecher

Michael Olschimke

Michael hat mehr als 15 Jahre Erfahrung in der Informationstechnologie. In den letzten acht Jahren hat er sich auf Business Intelligence Themen wie OLAP, Dimensional Modelling und Data Mining spezialisiert. Fordern Sie ihn mit Ihren Fragen heraus!

Identifizierung von nicht-historisierten Links

Das Video ansehen