In der Branche gibt es zwei konkurrierende Ansätze für die Datenanalyse, und die meisten Fachleute tendieren zumindest zu dem einen oder dem anderen als dem bevorzugten Werkzeug der Wahl: data warehousing vs. Datensee. Dieser Artikel beleuchtet die Unterschiede zwischen beiden Ansätzen und zeigt, wie Data Vault 2.0 eine Best-of-Breed-Lösung bietet, die die Vorteile beider Ansätze in ein einheitliches Konzept integriert.
Über Data Warehousing
Data Warehousing ist die traditionelle Unternehmenslösung zur Bereitstellung zuverlässiger Informationen für Entscheidungsträger auf jeder Ebene des Unternehmens. Data Warehouse-Lösungen (aber auch Data Lakes) basieren auf einem Datenmodell, das traditionell entweder auf der Grundlage des Informationsbedarfs in einem Bottom-up-Ansatz oder in einem Top-down-Ansatz auf der Grundlage eines integrierten Unternehmensinformationsmodells definiert wird.
In jedem Fall basiert das traditionelle data warehouse auf einem Konzept namens "schema-on-write", bei dem das Datenmodell beim Laden der Daten in das data warehouse erstellt wird. Dies führt häufig zu einer nicht agilen Datenverarbeitung, da dieses Datenmodell häufig geändert werden muss, um mit Änderungen im Unternehmen Schritt zu halten.
Über Data Lakes
Datenspeicherbasieren dagegen auf dem "Schema-on-read"-Konzept. Anstatt das Unternehmen zu modellieren oder den eingehenden Datensatz in ein Zielinformationsmodell einzupassen, werden die Daten in erster Linie so gespeichert, wie sie geliefert werden, ohne dass eine Modellierung vorgenommen wird.
Während das herkömmliche data warehousing oft zu einer übermäßigen Modellierung und nicht agilen Datenanalyse führt, bewirkt der Data Lake-Ansatz oft das direkte Gegenteil: zu unkontrollierten Daten und inkonsistenten Informationsergebnissen.
Die Besten der Rasse
Beide Ansätze liegen an den extremen Enden der Datenanalytik und im Laufe der Jahre mit gemischten Ergebnissen genutzt. Mit dem Aufkommen des Data Vault 2.0-Konzepts steht den Fachleuten der Branche eine dritte Option für den Aufbau von Datenanalyseplattformen zur Verfügung.
Data Vault 2.0 ist ein Best-of-Breed zwischen traditionellem data warehousing und Data Lakes: Es gibt zum Beispiel ein Datenmodell zur Verwaltung der Daten und der Geschäftslogik wie in traditionellem data warehousing, aber es folgt einem Schema-on-write-Ansatz wie in Data Lakes.
Die Data Vault 2.0-Architektur besteht aus mehreren Schichten:
Die erste Schicht ist der Staging-Bereich: Er dient der Extraktion der Daten aus den Quellsystemen. Die nächste Schicht ist die Raw Data Vault. Diese Schicht ist funktional immer noch wie die Staging-Schicht ausgerichtet, integriert und versioniert aber die Daten. Um dies zu erreichen, wird das Modell der eingehenden Quelldaten in kleinere Komponenten zerlegt: Geschäftsschlüssel (gespeichert in Hubs), Beziehungen zwischen Geschäftsschlüsseln (gespeichert in Links) und beschreibende Daten (von Satelliten aufgezeichnet).
Der Business Vault ist die nächste Ebenenur spärlich modelliert: nur dort, wo Geschäftslogik erforderlich ist, um nützliche Informationen zu liefern, wird eine Business Vault-Entität eingerichtet. Der Business Vault überbrückt die Lücke zwischen dem Zielinformationsmodell (wie in der nächsten Schicht) und den tatsächlichen Rohdaten. Häufig entsprechen die Rohdaten nicht den Erwartungen des Unternehmens hinsichtlich Datenqualität zu erfüllenVollständigkeit oder Inhalt und muss daher angepasst werden. Die Geschäftslogik wird verwendet, um die Lücke zu schließen.
Die letzte Schicht ist die Informationsmarkt Schicht, in der das Informationsmodell erstellt wird, um die endgültigen Informationen im gewünschten Format zu liefern, z. B. ein dimensionales Sternschema. Dieses Modell wird von den Geschäftsanwendern entweder direkt in Ad-hoc-Abfragen oder mit Hilfe von Business-Intelligence-Tools wie Dashboarding- oder Berichtssoftware verwendet.
Die ersten Schichten bis zum Raw Data Vault sind noch funktional orientiert, da das Modell noch entweder direkt aus dem Quellsystem abgeleitet wird (wie im Staging-Bereich) oder durch Zerlegung des eingehenden Datenmodells in kleinere, normalisierte Komponenten, wie im Raw Data Vault. Das Zielschema wird erst auf der letzten Schicht, der Information-Mart-Schicht, angewendet. Hier wird das gewünschte Informationsmodell angewandt. Da der Information Mart häufig mit SQL-Views virtualisiert wird, wird das Zielschema erst während der Abfragezeit angewendet. Abfragen gegen die View-Schichten werden mit den SQL-Anweisungen innerhalb der View-Schicht zusammengeführt und gegen die materialisierten Tabellen im Raw Data Vault, also die eigentlichen Daten, ausgeführt. Daher wird in Data Vault 2.0 das Schema-on-read-Konzept verwendet.
Data Vault 2.0 bewahrt auch die Beweglichkeit: Das Konzept hat in vielen Projekten gezeigt, dass es leicht zu erweitern ist, wenn entweder die Quellsystemstrukturen ändernändern sich die Geschäftsregeln oder müssen die Informationsmodelle angepasst werden. Darüber hinaus ist es einfach, dem data warehouse neue Datenquellen, zusätzliche Geschäftslogik und zusätzliche Informationsartefakte hinzuzufügen.
Darüber hinaus wird das Data Vault 2.0-Modell typischerweise in einen Data Lake integriert: Das obige Diagramm zeigt die Verwendung eines Data Lake für Staging-Zwecke, was die empfohlene "Hybride Architektur" für neue Projekte bei Scalefree. Der Data Lake kann aber auch zur Erfassung halbstrukturierter oder unstrukturierter Daten für das Unternehmen data warehouse oder zur Bereitstellung unstrukturierter Information Marts verwendet werden.
Vor diesem Hintergrund hat sich das Data Vault 2.0-Konzept als ein Best-of-Breed-Ansatz zwischen dem traditionellen data warehouse und dem Data Lake etabliert. Unternehmen aller Größenordnungen nutzen es zum Aufbau von Datenanalyseplattformen, um ihren Entscheidungsträgern nützliche Informationen zur Verfügung zu stellen.
-von Michael Olschimke (Scalefree)
Updates und Support erhalten
Bitte senden Sie Anfragen und Funktionswünsche an [email protected].
Für Anfragen zu Data Vault-Schulungen und Schulungen vor Ort wenden Sie sich bitte an [email protected] oder registrieren Sie sich unter www.scalefree.com.
Um die Erstellung von Visual Data Vault-Zeichnungen in Microsoft Visio zu unterstützen, wurde eine Schablone implementiert, die zum Zeichnen von Data Vault-Modellen verwendet werden kann. Die Schablone ist erhältlich bei www.visualdatavault.com.