Das Video ansehen
Einzelner Punkt der Fakten in 1TP19Hausarchitektur
Willkommen zu einer weiteren Ausgabe von DataVault Freitag! Heute befassen wir uns mit einem häufig diskutierten Thema im Datenmanagement: der Bestimmung der "Quelle der Wahrheit" in einer Data Lakehouse-Architektur. Insbesondere werden wir die Frage beantworten, ob sich diese Quelle der Wahrheit in folgenden Bereichen befindet Datensee Dateien oder in den Tabellen des Raw Vault und Business Vault. Außerdem werden wir uns mit der Frage beschäftigen, was zu tun ist, wenn ein Fehler im Ingestion-Framework ein erneutes Ingestion von Datenquellen erfordert. Gehen wir diesen Fragen auf den Grund, um ein besseres Verständnis der Datenreihenfolge, der Data Governance und der Strategien für ein zuverlässiges und flexibles Datenökosystem zu erlangen.
In diesem Artikel:
- Das Verständnis des "Single Point of Facts"
- 1TP19Hausarchitektur und Punkte der Wahrheit
- Was ist, wenn es einen Fehler im Ingestion Framework gibt?
- Data Lake vs. Rohes Gewölbe: Was ist einfacher zu rekonstruieren?
- Bewährte Praktiken für die Verwaltung von Sachverhalten
- Schlussfolgerung
- Treffen mit dem Sprecher
Das Verständnis des "Single Point of Facts"
In der traditionellen data warehousing ist die Idee einer "einzigen Version der Wahrheit" bekannt. Dieses Konzept impliziert, dass es eine Version der Daten gibt, die im gesamten Unternehmen als endgültige Quelle gilt. So gilt beispielsweise eine einzige Definition von "Kunde" oder "Produkt" für das gesamte Unternehmen.
In der Data Vault-Architektur gehen wir jedoch von einer "einzigen Version der Wahrheit" zu einem "einzigen Punkt der Fakten" über. Der Schwerpunkt verlagert sich von universellen Definitionen auf eine unveränderte, überprüfbare Aufzeichnung von Ereignissen. Data Vault ist darauf ausgelegt, historische Daten genau und zuverlässig zu erfassen. Es bietet mehrere Perspektiven auf die Daten (Versionen der Wahrheit), indem es die Rohdaten von jeglicher Geschäftslogik oder Umwandlung isoliert. Diese Flexibilität ermöglicht es Unternehmen, je nach Kontext unterschiedliche Geschäftsregeln anzuwenden und gleichzeitig einen konsistenten zugrunde liegenden Datensatz beizubehalten.
In diesem Zusammenhang wird der Raw Vault als die grundlegende Schicht betrachtet, die die Fakten direkt aus den Quellsystemen erfasst. Der Business Vault hingegen führt zusätzliche Geschäftsregeln, Metriken und aggregierte Daten für Berichtszwecke ein. Im Wesentlichen verbleibt der "Single Point of Facts" jedoch im Raw Vault, da er einen unveränderten und überprüfbaren Datensatz darstellt.
1TP19Hausarchitektur und Punkte der Wahrheit
In der Data Lakehouse-Architektur werden die Daten sowohl in einem Data Lake als auch in Data Vault-Tabellen gespeichert. Dies wirft die Frage auf: Welche Quelle ist die ultimative Wahrheit? Der Data Lake mit seinen Rohdateien oder die Raw Vault-Tabellen?
Die Antwort hängt von den architektonischen Anforderungen und dem erforderlichen Grad an Rückverfolgbarkeit und Prüfbarkeit ab. Im Idealfall sollten sich beide Systeme gegenseitig spiegeln und als Anhaltspunkte dienen:
- Data Lake: Der Data Lake dient als Repository für Rohdatendateien und speichert häufig Snapshots oder vollständige Datenladungen von Quellsystemen. Dies macht es einfacher, die Originaldaten unverändert zu erhalten.
- Raw Vault: Im Raw Vault werden die Daten in ein strukturiertes Schema geladen, das die gleichen ursprünglichen Details enthält, aber in einer Form, die systematischer abgefragt und analysiert werden kann. Wie der Data Lake speichert der Raw Vault unveränderte Fakten, bewahrt aber auch Informationen über die Herkunft der Daten, so dass es möglich ist, Lieferungen zu reproduzieren und Datenumwandlungen zu verfolgen.
Da beide Ebenen dieselben zugrunde liegenden Daten enthalten sollten, stellen sie gemeinsam den Punkt der Wahrheit dar. Je nach Szenario kann entweder der Data Lake oder Raw Vault als Wahrheitsquelle dienen. Dieses duale System sorgt für eine robuste Architektur, da die Daten über mehrere Ebenen hinweg validiert werden können.
Was ist, wenn es einen Fehler im Ingestion Framework gibt?
Eine Schlüsselfrage, die sich stellt, ist die: Was passiert, wenn es einen Fehler im Ingestion Framework gibt? Fehler wie z. B. die falsche Belegung von Geschäftsschlüsseln oder andere fehlerhafte Umwandlungen können eine vollständige Neuanalyse der Datenquellen erforderlich machen.
Wenn es um Fehler bei der Dateneingabe geht, bieten sowohl ein Data Lake als auch ein Raw Vault Flexibilität und Schutzmaßnahmen. Hier erfahren Sie, wie Sie diese Probleme angehen können:
- Identifizieren und isolieren Sie das Problem: Stellen Sie fest, wo das Problem im Aufnahmeprozess aufgetreten ist, und dokumentieren Sie den Umfang des Fehlers, insbesondere wenn er Geschäftsschlüssel oder andere wichtige Aspekte der Datenintegrität betrifft.
- Verlassen Sie sich auf den Data Lake für Originaldateien: Da der Datensee die ursprünglichen, unveränderten Datendateien enthält, können Sie die betroffenen Daten von hier aus in den Raw Vault zurückladen. Dadurch wird sichergestellt, dass beschädigte oder ungenau transformierte Daten ohne Verlust ersetzt werden können.
- Verarbeiten Sie den Raw Vault erneut: Laden Sie den Raw Vault neu, nachdem die korrekten Daten aus dem Data Lake verfügbar sind. Stellen Sie sicher, dass neue Ingestion-Prozesse gründlich getestet werden, um eine Wiederholung des Fehlers zu vermeiden.
- Automatisieren Sie Audits und Abgleiche: Implementieren Sie automatisierte Abgleichsprüfungen zwischen dem Data Lake und dem Raw Vault. Automatisierte Skripte können Diskrepanzen aufzeigen und so frühzeitig vor Problemen warnen, bevor diese die Produktions- oder Berichtsebene erreichen.
Da sowohl der Data Lake als auch Raw Vault als Faktenpunkte genutzt werden, bleibt die Architektur robust und überprüfbar. Diese Redundanz ermöglicht eine erneute Analyse ohne erhebliche Ausfallzeiten und stellt sicher, dass die Datenkette während des gesamten Lebenszyklus nachvollziehbar bleibt.
Data Lake vs. Rohes Gewölbe: Was ist einfacher zu rekonstruieren?
Wenn es darum geht, Lieferungen zu rekonstruieren, bietet der Data Lake oft eine einfache Lösung. Da der Data Lake Rohdateien mit minimaler Umwandlung speichern kann, ist die Datenrekonstruktion eine einfache Angelegenheit des Zugriffs auf die Originaldateien. Im Gegensatz dazu erfordert die Rekonstruktion aus dem Raw Vault zusätzlichen Aufwand, da die Daten über Hubs, Links und Satelliten hinweg genau zusammengeführt werden müssen, wobei der ursprüngliche Zustand erhalten bleibt.
Beide Ebenen sollten jedoch überprüfbar sein, mit Protokollierungsmechanismen, die eine nachvollziehbare Historie der Änderungen ermöglichen. Mit einer klaren Datenabfolge können Unternehmen Compliance- und Audit-Anforderungen erfüllen und gleichzeitig eine genaue Berichterstattung unterstützen.
Bewährte Praktiken für die Verwaltung von Sachverhalten
Es ist zwar verlockend, einen einzigen Datenpunkt zu benennen, aber der zweischichtige Ansatz mit einem Data Lake und Raw Vault bietet einen stabileren Rahmen. Im Folgenden finden Sie einige Best Practices für die Verwaltung von Faktenpunkten in einer Data-Lake-House-Architektur:
- Bewahren Sie die Konsistenz zwischen den Ebenen: Stellen Sie sicher, dass Data Lake-Dateien und Raw Vault-Tabellen exakt übereinstimmen. Automatisieren Sie Abgleichprüfungen zwischen diesen Ebenen, um die Datenintegrität zu überprüfen.
- Implementierung überprüfbarer Ingestion-Prozesse: Dokumentieren Sie alle Transformationen vom Data Lake zum Raw Vault mit Protokollierungs- und Fehlerprüfungsmechanismen. Dies erleichtert die Rückverfolgung von Problemen, falls diese auftreten.
- Bewahren Sie die Originaldaten im Data Lake auf: Bewahren Sie immer eine Kopie der Originaldateien im Data Lake auf. Diese Dateien stellen eine zuverlässige Quelle der Wahrheit dar, auf die verwiesen werden kann oder die bei Problemen in den Raw Vault zurückgeladen werden kann.
- Nutzen Sie Metadaten für die Automatisierung: Metadaten können sowohl die Aufnahme als auch den Abgleich rationalisieren. Verwenden Sie Metadaten, um Geschäftsschlüssel, Beziehungen und beschreibende Daten im Raw Vault zu definieren und gleichzeitig die Überprüfungsprozesse zu automatisieren.
Mit diesen Verfahren kann die Data-Lake-House-Architektur robust, überprüfbar und widerstandsfähig gegenüber Änderungen oder Fehlern gemacht werden. Indem Sie sowohl den Data Lake als auch Raw Vault als Fakten behandeln, stellen Sie sicher, dass Ihr Datenökosystem flexibel und vertrauenswürdig bleibt und bereit ist, sich entwickelnde Geschäftsanforderungen zu erfüllen.
Schlussfolgerung
Die Frage nach dem "Single Point of Facts" in der Data Lakehouse-Architektur lässt sich nicht ohne weiteres beantworten. Sowohl der Data Lake als auch der Raw Vault fungieren als Faktenpunkte und bieten jeweils einzigartige Vorteile in Bezug auf die Prüfbarkeit und Rekonstruktion. Indem Sie beide nutzen, schaffen Sie ein äußerst widerstandsfähiges System, das Datenproblemen standhält und gleichzeitig eine umfassende, konsistente Sicht auf Ihre Daten bietet.
Zusammenfassend lässt sich sagen, dass der Raw Vault zwar traditionell als "Single Point of Facts" dient, die Verwendung des Data Lakes und des Raw Vault als Wahrheitsquellen jedoch eine flexible Architektur schafft, die eine erneute Prüfung ermöglicht, Risiken mindert und eine genaue Berichterstattung unterstützt. Mit diesem dualen Ansatz wird Ihre Data Lakehouse-Architektur zu einer zuverlässigen Grundlage für moderne Datenanforderungen.
Treffen mit dem Sprecher
Michael Olschimke
Michael hat mehr als 15 Jahre Erfahrung in der Informationstechnologie. In den letzten acht Jahren hat er sich auf Business Intelligence Themen wie OLAP, Dimensional Modelling und Data Mining spezialisiert. Fordern Sie ihn mit Ihren Fragen heraus!