Zum Hauptinhalt springen
Suche
0
Scalefree - Wissen - Webinare - Data Vault Friday - Delta Lake vs. Data Vault

Welchen Mehrwert bietet Data Vault, wenn wir den Deltasee haben?

In der Welt der modernen Datenverwaltung finden sich Unternehmen oft in einem Labyrinth von Tools, Architekturen und Methoden wieder, um ihre ständig wachsenden Datenanforderungen zu erfüllen. Zu den beliebtesten Ansätzen gehören Delta Lake und Data Vault. Obwohl beide ihre Stärken haben, ist es wichtig zu verstehen, wie sie sich gegenseitig ergänzen und warum Data Vault auch bei der Nutzung von Delta Lake eine entscheidende Rolle spielen kann.



Den Deltasee verstehen

Delta Lake ist eine Open-Source-Speicherschicht, die Zuverlässigkeit in Data Lakes bringt. Sie baut auf Parquet-Dateien auf und bietet ACID-Transaktionen, Schemaerzwingung und die Möglichkeit, inkrementelle Datenänderungen zu verarbeiten. Es ist eine robuste Grundlage für moderne data warehouses und Data Lakes, insbesondere bei Verwendung von Tools wie Databricks.
Delta Lake konzentriert sich jedoch in erster Linie auf die Verwaltung der Datenspeicherung und -änderung. Es überbrückt nicht von Natur aus die Lücke zwischen den Rohdaten und den geschäftsfähigen Berichten und Dashboards, die die Benutzer benötigen.

Eingabe Data Vault: Überbrückung der Lücke

Data Vault ist ein Modellierungsansatz, der darauf abzielt, die Diskrepanz zwischen Rohdaten und Benutzeranforderungen zu beseitigen. Während Delta Lake die Datenspeicherung effizient handhabt, konzentriert sich Data Vault auf das *Warum* und *Wie* der Umwandlung dieser Daten in umsetzbare Erkenntnisse. Und genau hier zeichnet sich Data Vault aus:

  • Datenmodellierung: Data Vault organisiert die Daten in Hubs, Links und Satellites und gewährleistet so eine flexible und skalierbare Struktur. Hubs erfassen Geschäftsschlüssel, Links behandeln Beziehungen, und Satelliten speichern beschreibende Daten.
  • Datenintegration: Sie hilft, unterschiedliche Datenquellen in ein einheitliches Modell zu integrieren, das den Geschäftskontext widerspiegelt.
  • Verfolgung von Änderungen: Während Delta Lake Änderungen auf Datei- oder Datensatzebene verfolgt, optimiert Data Vault dies durch eine effizientere Erfassung von Deltas, insbesondere bei der Aufteilung von Daten in spezielle Satelliten.
  • Zielorientiertes Design: Data Vault konzentriert sich auf die Erstellung von geschäftsfähigen Datenmodellen wie Sternschemata, flache Tabellen oder Dashboards, anstatt selbst ein Verbrauchsmodell zu sein.

Leistungsherausforderungen und Lösungen

Eine häufige Kritik an Data Vault auf Delta Lake bezieht sich auf die Abfrageleistung, insbesondere aufgrund der spaltenweisen Speicherung von Parquet-Dateien. Joins können langsam sein, aber das ist eher eine Eigenschaft des Speichers als der Modellierungstechnik. Hier sind einige Strategien zur Lösung dieses Problems:

  • Denormalisierung: Durch die Verflachung der Daten in breite Tabellen werden Joins überflüssig, was zu einer schnelleren Abfrageleistung führt.
  • Materialisierte Ansichten: Die Erstellung materialisierter Parquet-Ansichten für den Endbenutzer gewährleistet eine hohe Leistung, ohne vorgelagerte Prozesse zu beeinträchtigen.
  • Optimierte Speicherung: Verwenden Sie Technologien wie Eisberg- oder Delta-Tabellen für Hubs und Links und erwägen Sie die Darstellung von Satelliten als Ansichten, um den Speicher-Overhead zu minimieren.
  • Inkrementelle Last: Entwerfen Sie Systeme, die nur inkrementelle Einfügungen verarbeiten, um die Komplexität von Aktualisierungen und Löschungen zu verringern.

Warum Geschäftsanwender Data Vault lieben (auch wenn sie es nicht wissen)

Das ultimative Ziel einer jeden Datenarchitektur ist es, den Geschäftsanwendern zu dienen. Berichte, Dashboards und Analysen sind die Endprodukte, die ihnen wichtig sind. Data Vault zeichnet sich hier aus, indem es die Erstellung robuster Informationsmodelle ermöglicht, die mit den Benutzeranforderungen übereinstimmen:

  • Flexibel: Geschäftsregeln können auf dem Data Vault-Modell implementiert werden, um das gewünschte Zielmodell abzuleiten.
  • Skalierbarkeit: Große Datenströme können in überschaubare Teile zerlegt werden, so dass das System leichter zu pflegen ist.
  • Beweglichkeit: Änderungen der Geschäftsanforderungen können berücksichtigt werden, ohne dass das gesamte Modell überarbeitet werden muss.

Delta Lake und Data Vault: Gemeinsam besser

Betrachten Sie Delta Lake und Data Vault nicht als konkurrierende Ansätze, sondern als komplementäre Lösungen. Delta Lake bietet die Grundlage für eine zuverlässige Datenspeicherung und Änderungsverfolgung, während Data Vault diese Rohdaten in aussagekräftige, geschäftsfähige Formate umwandelt.
Delta Lake kann zum Beispiel als Staging- oder Landing-Zone dienen, in der Rohdaten aufgenommen und gespeichert werden. Data Vault übernimmt dann die Modellierung dieser Daten in Hubs, Links und Satellites und bereitet sie für die geschäftliche Nutzung vor. Diese Kombination gewährleistet sowohl eine robuste Datenverwaltung als auch die Flexibilität, verschiedene analytische Anforderungen zu erfüllen.

Abschließende Überlegungen

Data Vault ist eine leistungsstarke Methodik zur Überbrückung der Lücke zwischen Rohdaten und verwertbaren Erkenntnissen. Selbst in Umgebungen, die Delta Lake nutzen, bietet Data Vault einen Mehrwert, indem es einen skalierbaren, benutzerorientierten Ansatz für die Datenmodellierung bietet. Durch die Kombination der Stärken dieser beiden Technologien können Unternehmen sowohl Zuverlässigkeit als auch Agilität in ihren Datenarchitekturen erreichen.
Wie bei jedem Tool oder jeder Methodik kommt es darauf an, die Implementierung auf Ihre spezifischen Bedürfnisse zuzuschneiden und sicherzustellen, dass sowohl Leistung als auch Benutzerfreundlichkeit optimiert werden. Unabhängig davon, ob Sie mit Databricks, Parquet oder anderen Tools arbeiten, bietet Data Vault die Flexibilität und Struktur, um das zu liefern, worauf es ankommt: Geschäftswert.

Das Video ansehen

Treffen mit dem Sprecher

Profilbild von Michael Olschimke

Michael Olschimke

Michael hat mehr als 15 Jahre Erfahrung in der Informationstechnologie. In den letzten acht Jahren hat er sich auf Business Intelligence Themen wie OLAP, Dimensional Modelling und Data Mining spezialisiert. Fordern Sie ihn mit Ihren Fragen heraus!

Eine Antwort hinterlassen

Menü schließen