Das Video ansehen
Warum Hubs in Data Vault unverzichtbar sind
Die Data Vault-Modellierung ist eine leistungsstarke Methode zum Aufbau robuster und skalierbarer data warehouses. Eine ihrer Kernkomponenten, der Hub, wirft bei Praktikern und Interessenvertretern häufig Fragen auf. Warum brauchen wir Hubs? Können wir das Modell nicht einfach vereinfachen, indem wir die Geschäftsschlüssel direkt in die Satelliten stecken? In diesem Artikel befassen wir uns mit den Gründen für die Existenz von Hubs und untersuchen Szenarien, in denen eine Abweichung von der Standardpraxis akzeptabel sein könnte.
In diesem Artikel:
Die Rolle der Knotenpunkte in Data Vault
Hubs spielen eine zentrale Rolle in Data Vault, da sie eine eindeutige Liste von Geschäftsschlüsseln speichern. Diese Schlüssel dienen als eindeutige Identifikatoren für reale Entitäten, wie z. B. Kunden, Produkte oder Mitarbeiter. Hubs bieten mehrere entscheidende Vorteile:
-
- Datenintegration: Hubs dienen als Anker für die Integration von Daten aus unterschiedlichen Quellsystemen. Durch die Konsolidierung verschiedener Darstellungen derselben Entität in einem einzigen Hub gewährleisten Sie Konsistenz und Genauigkeit in Ihrem data warehouse.
- Skalierbarkeit: Hubs ermöglichen eine nahtlose Skalierbarkeit. Wenn neue Datenquellen eingeführt werden, können Sie die Geschäftsschlüssel einfach zu dem vorhandenen Hub hinzufügen, ohne dass ein größeres Refactoring des Modells erforderlich ist. Dies vereinfacht das Onboarding neuer Daten und verringert das Risiko der Einführung von Inkonsistenzen.
- Nachvollziehbarkeit: Hubs sorgen für einen klaren Verlauf und einen Prüfpfad für Ihre Daten. Der Zeitstempel des Ladevorgangs in einem Hub fungiert als "Erstsichtungsdatum", so dass sich die Entwicklung Ihrer Daten im Laufe der Zeit leicht nachvollziehen lässt.
- Granularität: Am wichtigsten ist vielleicht, dass Hubs die Granularität mehrerer nachgelagerter Objekte definieren, einschließlich Information Marts und Dimensionen. Diese Granularität ist entscheidend für genaue Berichte und Analysen und macht Hubs für viele Anwendungsfälle unverzichtbar.
Warum nicht Business Keys in Satelliten unterbringen?
Während Hubs im Allgemeinen als Best Practice gelten, gibt es seltene Fälle, in denen die Speicherung von Unternehmensschlüsseln in Satelliten gerechtfertigt sein kann. Ein solches Szenario liegt vor, wenn ein Geschäftsschlüssel eine Entität repräsentiert, für die es derzeit keine beschreibenden Daten gibt und die nicht aktiv abgefragt wird.
Nehmen wir zum Beispiel einen Mitarbeiterdatensatz, der die Fahrzeugidentifikationsnummer (VIN) des Firmenwagens des Mitarbeiters enthält. Wenn es keine zusätzlichen Informationen über das Auto gibt und keine unmittelbare Notwendigkeit besteht, es abzufragen, könnte es akzeptabel sein, die VIN als beschreibendes Attribut innerhalb des Mitarbeiter-Satelliten zu behandeln.
Sollte sich jedoch in Zukunft die Notwendigkeit ergeben, Daten im Zusammenhang mit Firmenwagen abzufragen oder zu analysieren, kann eine Refactoring-Strategie namens "Hub It Out" angewendet werden. Dabei werden eindeutige Fahrgestellnummern aus dem Mitarbeiter-Satelliten in einen neuen Hub extrahiert, Verknüpfungen zwischen dem Mitarbeiter- und dem Fahrzeug-Hub hergestellt und möglicherweise Satelliten mit beschreibenden Daten über die Fahrzeuge hinzugefügt.
Wichtige Überlegungen
Auch wenn das obige Szenario eine gültige Ausnahme darstellt, ist es wichtig, daran zu denken, dass die Speicherung von Geschäftsschlüsseln in Satelliten die Ausnahme sein sollte, nicht die Regel. Hubs bieten zahlreiche Vorteile in Bezug auf Datenintegration, Skalierbarkeit, Überprüfbarkeit und Granularität, was sie für die meisten Data Vault-Implementierungen unverzichtbar macht.
Bevor Sie von der Standardpraxis abweichen, sollten Sie sorgfältig abwägen, ob die potenziellen Vorteile der Speicherung von Geschäftsschlüsseln in Satelliten die möglichen Nachteile wie höhere Speicherkosten, Redundanz und ein weniger elegantes Datenmodell überwiegen.
Schlussfolgerung
Zusammenfassend lässt sich sagen, dass Hubs grundlegende Bausteine in der Data Vault-Modellierung sind und eine Reihe von Vorteilen bieten, die zur Gesamtintegrität, Skalierbarkeit und Benutzerfreundlichkeit Ihres data warehouse beitragen. Auch wenn es seltene Fälle gibt, in denen die Speicherung von Geschäftsschlüsseln in Satelliten gerechtfertigt sein kann, ist es wichtig, die Vor- und Nachteile sorgfältig abzuwägen, bevor man sich für diesen Ansatz entscheidet. Wenn Sie sich an die bewährten Data Vault-Verfahren halten und die spezifischen Anforderungen Ihres Anwendungsfalls verstehen, können Sie sicherstellen, dass Ihr data warehouse für Leistung, Wartungsfreundlichkeit und langfristigen Erfolg optimiert ist.
Treffen mit dem Sprecher
Julian Brunner
Julian Brunner arbeitet als Senior Consultant bei Scalefree und hat Wirtschaftsinformatik und Betriebswirtschaft studiert. Seine Schwerpunkte liegen in den Bereichen Business Intelligence, Data Warehousing und Data Vault 2.0. Als zertifizierter Data Vault 2.0 Practitioner hat er 5 Jahre Erfahrung mit Business Intelligence Lösungen und Data Warehouse Entwicklung mit den Data Vault 2.0 Standards. Er hat erfolgreich Kunden aus dem Banken- und Beratungssektor beraten.
Updates und Support erhalten
Bitte senden Sie Anfragen und Funktionswünsche an [email protected].
Für Anfragen zu Data Vault-Schulungen und Schulungen vor Ort wenden Sie sich bitte an [email protected] oder registrieren Sie sich unter www.scalefree.com.
Um die Erstellung von Visual Data Vault-Zeichnungen in Microsoft Visio zu unterstützen, wurde eine Schablone implementiert, die zum Zeichnen von Data Vault-Modellen verwendet werden kann. Die Schablone ist erhältlich bei www.visualdatavault.com.