Data Vault 2.0 ist ein Konzept für data warehousing, das von Dan Linstedt entwickelt wurde. Es bringt viele neue Funktionen, die jedem, der sich mit Business Intelligence beschäftigt, den Einstieg in ein neues Zeitalter von data warehousing erleichtern. Data Vault 2.0 ist ein Big-Data-Konzept, das relationales data warehousing mit unstrukturiertem data warehousing in Echtzeit integriert. Es ist ein erweiterbares Datenmodell, bei dem neue Datenquellen einfach hinzugefügt werden können. Als unsere Gründer das Buch schrieben, benötigten sie einen visuellen Ansatz, um die Konzepte von Data Vault in dem Buch zu modellieren. Zu diesem Zweck entwickelten sie die grafische Modellierungssprache, die sich auf die logischen Aspekte von Data Vault konzentriert. Die Microsoft Visio-Schablonen und ein ausführliches White Paper sind verfügbar unter www.visualdatavault.com als kostenloser Download zur Verfügung.
In diesem Jahr haben wir bereits über die Modellierung von Naben und Links in Data Vault 2.0. Nun möchten wir Ihnen die dritte Standardeinheit, den Satelliten, vorstellen.
SATELLITEN IM VISUELLEN DATENTRESOR
Satelliten fügen hinzu beschreibenden Daten zu Knotenpunkten und Verbindungen. Die beschreibenden Daten werden in Attributen gespeichert, die dem Satelliten hinzugefügt werden. Die einzelnen Attribute werden dem Satelliten nach und nach hinzugefügt. Ein Satellit kann mit jedem Hub oder Link verbunden werden. Es ist jedoch nur möglich, den Satelliten an einen Elternteil anzuhängen.
Die Verbindung zwischen dem Satelliten und dem Hub könnte durch die Aussage "(Satellit) Medizinische Details hängt ab von (Nabe) Medizin."
Es ist auch möglich, mehrere Satelliten zu einem Elternteil hinzuzufügen.
Es gibt keine Begrenzung für die Anzahl der Satelliten, die ein Hub oder Link haben kann. Abbildung 2 zeigt auch, dass die Satelliten in einem Übersichtsdiagramm nicht die zugehörigen Attribute anzeigen müssen. Es wird empfohlen, die Rohdaten erstens nach Quellsystem und zweitens nach Änderungsrate aufzuteilen. Die Aufteilung nach Quellsystemen folgt dem datengesteuerten Ansatz, wodurch die Umgestaltung beim Hinzufügen neuer Quellsysteme entfällt und die Automatisierung des Raw Vault nahezu 100% möglich wird.
Sobald die Daten nach Quellsystemen aufgeteilt sind, empfiehlt es sich, die Daten auch nach der Änderungsrate aufzuteilen. Nehmen wir einen Satelliten, der Informationen über einen Patienten enthält. Eine Reihe von Attributen ändert sich nicht sehr oft (oder nie), z. B. der Name oder die Blutgruppe. Einige Attribute können sich häufiger ändern, z. B. die Gesamtzahl der Krankenhausbesuche.
Auch wenn die Satelliten nach dem Quellsystem angeordnet sind, ist ein Attribut Datensatzquelle erforderlich. Das Attribut "Datensatzquelle" kann verwendet werden, um die Datenquelle geografisch oder nach Anwendung zu identifizieren. Bei der Quelle kann es sich beispielsweise um ein SAP-Quellsystem handeln, das über mehr als einen physischen Rechner verteilt ist. Je nach den Anforderungen des data warehouse wird der einzelne physische Rechner im Attribut Datensatzquelle verfolgt.
Zusätzlich zu den Attributen, die beschreibende Daten in einem Satelliten speichern, sind die folgenden Metadaten erforderlich:
- Datum laden
- Quelle aufzeichnen
- Elternteil Hash-Schlüssel
- (Datum des Ladeschlusses)
Die folgenden Attribute sind für Data Vault-Satelliten optional:
- Datum des Auszugs
- Hash-Differenz
Das Hash-Differenz-Attribut ähnelt dem Hash-Schlüssel in einer Data Vault-Verbindung. Es handelt sich um einen Hash-Wert aller beschreibenden Daten eines Satelliteneintrags. Mit Hilfe dieses Hash-Wertes können Sie schnell und effizient Zeilenwerte vergleichen. Die Hash-Differenz hilft Ihnen, Unterschiede in beschreibenden Attributen schnell zu erkennen und neue Satelliteneinträge nur dann hinzuzufügen, wenn eine Änderung am Satelliten vorgenommen wurde. Wir haben im April dieses Jahres einen Newsletter über Hash-Schlüssel (und auch Hash-Differenzen) geschrieben, den Sie hier lesen können hier.
Wie Sie Updates und Support erhalten
Bitte senden Sie Anfragen und Funktionswünsche an [email protected].
Für Anfragen zu Data Vault-Schulungen und Schulungen vor Ort wenden Sie sich bitte an [email protected] oder registrieren Sie sich unter www.scalefree.com.
Zur Unterstützung bei der Erstellung von Visual Data Vault-Zeichnungen in Microsoft Visio wurde eine Schablone entwickelt, mit der Data Vault-Modelle gezeichnet werden können. Die Schablone ist erhältlich bei www.visualdatavault.com.