Zum Hauptinhalt springen
Suche
0

Data Vault 2.0 Definition

Data Vault 2.0 ist ein hybrider Ansatz für EDW-Lösungen der von Dan Linstedt, Mitbegründer und Gesellschafter von Scalefree, in den 1990er Jahren entwickelt wurde.

Als hybride Architektur umfasst sie die besten Aspekte der dritten Normalform und eines Sternschemas. Diese Kombination führt zu einem historisch nachvollziehbaren, detailorientierten, eindeutig verknüpften Satz von normalisierten Tabellen. Alle diese Tabellen dienen der Unterstützung eines oder mehrerer funktionaler Geschäftsbereiche.

Außerdem handelt es sich um einen offenen Standard, der auf drei Säulen beruht:

  • Methodik
  • Architektur 
  • Modellierung
Kontakt

Was ist Data Vault 2.0?

Darüber hinaus werden die Implementierungsmuster als Untersäule der Methodik betrachtet, die auf die Steigerung der Agilität ausgerichtet ist. 

Das Modell Data Vault 2.0 ist daher ausdrücklich auf die Bedürfnisse der heutigen enterprise data warehouses. Erreicht wird dies durch besonders hohe Skalierbarkeit, Flexibilität und Konsistenz. Data Vault 2.0 katapultiert die ursprünglichen Data Vault-Modellierungskonzepte in eine moderne Umgebung.

Obwohl der Ansatz modernisiert wurde, deckt Data Vault 2.0 auch Themen wie Implementierung, Methodik und Architektur ab.

Warum Data Vault 2.0?

Flexibilität

Um einen flexibleren Ansatz zu ermöglichen, kann Data Vault 2.0 mit mehreren Quellsystemen und sich häufig ändernden Beziehungen umgehen, indem der Wartungsaufwand minimiert wird.

Das bedeutet, dass eine Änderung in einem Quellsystem, die neue Attribute erzeugt, einfach durch Hinzufügen eines weiteren Satelliten zum Data Vault-Modell umgesetzt werden kann. Einfach ausgedrückt: Neue und sich ändernde Beziehungen schließen einfach eine Verbindung und erstellen eine andere.

Diese Beispiele zeigen die hohe Flexibilität von Data Vault 2.0.

Skalierbarkeit

Wenn ein Unternehmen wächst, steigen auch die Anforderungen an die Daten.

In einer traditionellen Umgebung würde dies lange Implementierungsprozesse, hohe Kosten und eine umfangreiche Liste von dienstübergreifenden Auswirkungen erfordern.

Mit Data Vault 2.0 können neue Funktionalitäten einfach und schnell hinzugefügt werden, ohne dass dies Auswirkungen auf die nachgelagerten Systeme hat.

Konsistenz

Daten werden immer häufiger für wichtige Geschäftsentscheidungen verwendet.

Um sicherzustellen, dass diesen Daten vertraut werden kann, ist Datenkonsistenz entscheidend.

Zu diesem Zweck ist in Data Vault 2.0 die Datenkonsistenz in das Data Vault-Modell eingebettet. Auf diese Weise ist es möglich, Daten auf konsistente Weise zu erfassen, selbst wenn die Quelldaten oder ihre Lieferung inkonsistent sind.

Und das alles bei gleichzeitiger Möglichkeit, Daten mit Hilfe von Hashwerten parallel zu laden.
Dies ermöglicht einen schnelleren Datenzugriff und verbessert gleichzeitig die Zufriedenheit der Geschäftsanwender.

Aus diesem Grund ebnet die hohe Konsistenz von Data Vault den Weg für den Einsatz von Automatisierungstools zur automatischen Modellierung Ihres Data Vault 2.0-Modells.

Reproduzierbarkeit

Die Methodik von Data Vault folgt dem CMMI-Prinzip.

CMMI ist ein Schulungs- und Bewertungsprogramm zur Prozessverbesserung, das fünf verschiedene Reifegrade eines Unternehmens umfasst.

So kann es sich auf die kontinuierliche Verbesserung der Prozesse auf der Grundlage quantitativer und präskriptiver Analysen konzentrieren.

Das ist auch der Grund, warum Data Vault 2.0 darauf abzielt, den genauen Reifegrad für die Implementierung strukturierter Entwicklungsprozesse zu ermitteln.

Dieser einfache, aber detaillierte Prozess ermöglicht eine leichte Wiederholbarkeit, wenn es darum geht, eine neue Änderung an einem bereits geplanten Prozess vorzunehmen.

Agilität

Eine der Säulen von Data Vault 2.0 ist die Methodik, die mehrere Prinzipien agiler Arbeitsprozesse beinhaltet.

Daher haben Data Vault-Projekte einen kurzen, umfangskontrollierten Release-Zyklus. Normalerweise besteht dieser Zyklus aus einem Produktionsrelease alle zwei bis drei Wochen. Dies ermöglicht es dem Entwicklungsteam, eng mit den Anforderungen des Unternehmens zusammenzuarbeiten, um eine bessere Lösung zu schaffen.

Anpassungsfähigkeit

Ein modernes Geschäftsumfeld ist häufig von häufigen Veränderungen geprägt.

Dabei kann es sich entweder um kleine Änderungen handeln, die sich kaum oder gar nicht auf die Datenstruktur auswirken, oder um große Änderungen, die erhebliche Auswirkungen auf die zugrunde liegende Datenstruktur haben.

Ein guter möglicher Anwendungsfall wäre die Übernahme eines anderen Unternehmens.

Dadurch würde die Notwendigkeit entstehen, komplexe neue Datenquellen zu integrieren, was eine der Hauptstärken von Data Vault ist. Die neuen Quellen würden als Erweiterung des bestehenden Data Vault 2.0-Modells modelliert werden, ohne dass sich das bestehende Modell ändert.

Dadurch wird der Wartungsaufwand auf ein Minimum reduziert.

Prüfbarkeit

Die Arbeit mit Daten erfordert oft detaillierte Informationen über die Herkunft der verarbeiteten Daten. Mit Data Vault 2.0 gibt es verschiedene Methoden, die helfen, den Überblick über Ihre Daten zu behalten.

So sind beispielsweise für jede Zeile, die im Data Warehouse ankommt, ein Ladezeitstempel und eine detaillierte Datensatzquelle erforderlich. Das Data Vault-Modell verfolgt auch alle Änderungen an Ihren Daten, indem es das Ladedatum als Teil des Primärschlüssels des Satelliten verwendet. Durch diese Faktoren wird die Überprüfbarkeit von Data Vault verbessert.

Flexibilität, Skalierbarkeit, Konsistenz, Reproduzierbarkeit, Agilität, Anpassungsfähigkeit und Prüfbarkeit
Die Abbildung zeigt die Beziehungen zwischen den Komponenten der Data Vault 2.0 Methodik

1. Methodik

Der Data Vault 2.0-Standard bietet eine Best Practice für die Projektdurchführung, die so genannte "Data Vault 2.0-Methodik". Sie ist von zentralen Software-Engineering-Standards wie Scrum, Six Sigma usw. abgeleitet und passt diese Standards für den Einsatz im Data Warehousing an.

Sie besteht aus:

  • Software Development Life Cycle (SDLC)
  • Projektmanagementtechniken aus dem PMI Project Management Body of Knowledge (PMBOK)
  • Project Management Professional (PMP)
  • Capability Maturity Model Integration (CMMI)
  • Total Quality Management (TQM)
  • Six Sigma Regeln und Grundsätze

2. Architektur

Die Abbildung zeigt eine Standard-Data-Vault-2.0-Architektur, beginnend mit den Quellsystemen, über die Enterprise-BI-Lösungen, einschließlich der Staging-Schicht (und des Data Lake), die Enterprise-Data-Warehouse-Schicht (mit Data Vault 2.0) und die Informationsbereitstellung.

1 - Staging Layer

Der Staging Layer wird beim Laden von Batch-Daten in das Data Warehouse verwendet.
Sein Hauptzweck besteht darin, die Quelldaten schnell zu extrahieren, so dass die Arbeitslast auf den operativen Systemen verringert werden kann. Beachten Sie, dass der Staging-Bereich die Daten im Gegensatz zu den traditionellen Architekturen nicht aufbewahrt.

2 - Enterprise Data Warehouse Layer

Die unveränderten Daten werden in den Raw Data Vault geladen, der die Data-Warehouse-Schicht des Unternehmens darstellt. Der Zweck des Data Warehouses besteht darin, alle historischen, zeitlich variablen Daten zu speichern. Alle Daten werden in der Granularität gespeichert, die von den Quellsystemen bereitgestellt wird. Die Daten sind nicht flüchtig und jede Änderung im Quellsystem wird von der Data-Vault-Struktur verfolgt.

Nachdem die Daten in das Data Vault-Modell geladen wurden, komplett mit Hubs, Links und Satellites, werden die business rules im Business Vault angewendet. Dieser Prozess findet auf den Daten im raw data vault statt.
Sobald die Geschäftslogik angewendet wurde, werden sowohl der raw data vault als auch der business vault zusammengeführt und in das Geschäftsmodell für die Informationsbereitstellung in den Information Marts umstrukturiert.

Darüber hinaus kann die Data-Warehouse-Schicht des Unternehmens durch optionale Vaults - einen Metrics Vault und einen Operational Vault - erweitert werden. Der Metrics Vault dient der Erfassung und Aufzeichnung von Laufzeitinformationen. Der Operational Vault speichert Daten, die von operativen Systemen in das Data Warehouse eingespeist werden. Alle optionalen Vaults, der Metrics Vault, der Business Vault und der Operational Vault, sind Teil des Data Vault und in die Data Warehouse-Schicht integriert.

3 - Information Delivery Layer

Im Gegensatz zu herkömmlichen Data Warehouses wird auf die Data Warehouse-Schicht der Data Vault 2.0-Architektur nicht direkt von den Endnutzern zugegriffen. Der Grund dafür ist, dass das Ziel des Enterprise Data Warehouse darin besteht, den Endnutzern wertvolle Informationen zur Verfügung zu stellen. Beachten Sie, dass wir für diese Schicht den Begriff "Informationen" anstelle von "Daten" verwenden.

Ferner ist zu beachten, dass die Informationen im Information Mart themenorientiert sind und in aggregierter Form, flach oder breit, für das Reporting aufbereitet, hochgradig indexiert, redundant und qualitätsbereinigt sein können. 

Es folgt häufig dem Sternschema und bildet die Grundlage sowohl für relationale Reports als auch für multidimensionale OLAP-Würfel. Weitere Beispiele für Information Marts sind der Error Mart und der Meta Mart. Sie sind der zentrale Ort für Fehler im Data Warehouse bzw. für die Metadaten. 

Aufgrund der Plattformunabhängigkeit von Data Vault 2.0 kann NoSQL für jede Data-Warehouse-Schicht verwendet werden, einschließlich der Staging-Schicht, der Enterprise-Data-Warehouse-Schicht und der Information Delivery. Daher kann eine NoSQL-Datenbank als Staging-Area verwendet werden, die Daten in die relationale Data Vault-Schicht laden kann.

4 - hard Business Rules

Jede Regel, die den Inhalt einzelner Felder oder die Granularität nicht verändert. Stattdessen ändert sie nur die Struktur der eingehenden Daten.

5 - Soft Business Rules

Jede Regel, die den Inhalt der Daten verändert, z. B. die Umwandlung von Daten in Informationen.

6 - Information Marts

Jede Struktur, auf die der Endnutzer Zugriff hat und die zur Erstellung von Reports verwendet werden kann.

7 - Raw Data Vault

Die als Hubs, Links und Satellites modellierten Rohdaten sowie der Inhalt dieser Artefakte, die von der Quelle bereitgestellt werden.

8 - Business Vault

Daten, die durch die Business Rules geändert wurden und in DV-Tabellen modelliert sind; spärlich erstellt.

9 - Echtzeitbeladung

Echtzeitdaten werden als ein Strom von Transaktionsdaten geladen.

Was ist ein Business Vault?

Es werden viele Begriffe verwendet, die oft für Verwirrung sorgen. Um also eine richtige Definition zu geben:

Business Vault = Business Data Vault
und
Raw Vault = Raw Data Vault
und
Raw Data Vault + Business Vault = Data Vault

Im Raw Vault sind also die rohen, ungefilterten Daten aus den Quellsystemen, die auf der Grundlage von Geschäftsschlüsseln in Hubs, Links und Satellites geladen wurden.

Der Business Vault ist eine Erweiterung des Raw Vaults, der ausgewählte Business Rules, Denormalisierungen, Berechnungen und andere Funktionen zur Unterstützung von Abfragen anwendet.

Dies geschieht, um den Endnutzern Zugang und Berichterstattung zu erleichtern.

Ein Business Vault wird in DV-Tabellen modelliert, wie z.B. Hubs, Links und Satellites, aber er ist keine vollständige Kopie aller Objekte im Raw Vault. Er enthält nur Strukturen, die einen gewissen Geschäftswert haben.

Die Daten werden so umgewandelt, dass Regeln oder Funktionen angewandt werden, die für die meisten Geschäftsanwender nützlich sind, anstatt sie wiederholt in mehrere Marts anzuwenden. Dazu gehören Dinge wie Datenbereinigung, Datenqualität, Buchhaltungsregeln oder wiederholbare Berechnungen.

In Data Vault 2.0 enthält der Business Vault auch einige spezielle Entitäten, die bei der Erstellung effizienterer Abfragen des Raw Vault helfen. Diese sind Point-in-Time- und Bridge-Tables.

Kontakt
Menü schließen