Das Video ansehen
Verstehen von Data Vault-Mischmodellen: Integration von Nicht-Data Vault-Entitäten in das Business Vault
Die Data Vault-Architektur ist eine in data warehousing weit verbreitete Methodik, die ein äußerst anpassungsfähiges Modell für die Verwaltung komplexer Datenumgebungen bietet. Sie organisiert die Daten hauptsächlich in drei Kernkomponenten: Hubs, Links und Satellites. Diese Elemente unterstützen Geschäftsschlüssel, Beziehungen und beschreibende Daten, um eine umfassende Datenstruktur innerhalb der Raw Data Vault-Schicht zu schaffen. Wie bei vielen Methoden führen reale Daten jedoch oft Elemente ein, die außerhalb der strengen Grenzen dieser Struktur liegen, was Fragen zur Flexibilität aufwirft.
Dieser Artikel befasst sich mit dem Konzept eines "gemischten Modells" in Data Vault, bei dem Nicht-Data Vault-Entitäten neben Raw-Data Vault-Komponenten bestehen, und damit, wie sie in eine Business Vault-Struktur integriert werden können. Während sich die reinsten Data Vault-Modelle auf Auditierbarkeit und Abstammung konzentrieren und eine nahtlose Automatisierung ermöglichen, können gemischte Modelle manchmal praktisch sein, wenn sie mit Bedacht gehandhabt werden. Ist es also zulässig, Nicht-Data Vault-Entitäten mit Raw Data Vault in einem Business Vault zu mischen? Lassen Sie uns in dieses Thema eintauchen.
In diesem Artikel:
- Was ist ein gemischtes Modell Data Vault?
- Können Sie Nicht-Data Vault-Entitäten mit Rohdaten in die Unternehmensdatenbank integrieren?
- Strategien für langfristigen Erfolg mit einem gemischten Modell
- Praktisches Beispiel für ein gemischtes Modell in Aktion
- Schlussfolgerung: Ausgleich zwischen Flexibilität und Data Vault-Integrität
- Über den Vortragenden
Was ist ein gemischtes Modell Data Vault?
Ein "gemischtes Modell" in Data Vault bezieht sich auf ein Szenario, in dem traditionelle Data Vault-Strukturen (Hubs, Links und Satelliten) neben anderen nicht-Data Vault-konformen Tabellen oder Einheiten verwendet werden. Während sich die meisten Daten in der strukturierten Raw Data Vault befinden, gibt es andere Datenkomponenten innerhalb derselben Datenbank, die nicht der Data Vault-Architektur entsprechen. Dies wirft Fragen zur Integration dieser unterschiedlichen Datentypen in den Business Vault auf.
Der Business Vault ist als eine verfeinerte, operative Version des Raw Data Vault konzipiert. Er erweitert die Rohdaten mit Geschäftslogik und Transformationen, um verwertbare Erkenntnisse zu gewinnen. In Szenarien, in denen ein gemischtes Modell erforderlich ist, besteht das Ziel häufig darin, vorhandene Nicht-Data Vault-Tabellen zu nutzen, um Geschäftseinblicke zu gewinnen, während das ursprüngliche Datenmodell möglichst wenig beeinträchtigt wird.
Können Sie Nicht-Data Vault-Entitäten mit Rohdaten in die Unternehmensdatenbank integrieren?
Gemäß den Data Vault-Grundsätzen besteht der ideale Ansatz darin, alle Daten als Hubs, Links und Satellites zu strukturieren, um Konsistenz, Überprüfbarkeit und Abstammung zu gewährleisten. Manchmal kann jedoch auch ein gemischter Modellansatz erforderlich sein. So kann es beispielsweise vorkommen, dass Sie eine Datenbank haben, die in Raw Data Vault gespeicherte Daten mit Tabellen oder Entitäten kombiniert, die nicht den Data Vault-Strukturen folgen. Ist dies also zulässig?
Die kurze Antwort lautet: Ja, Sie können technisch gesehen nicht-Data Vault-Entitäten in Business Vault integrieren, aber es gibt einige Einschränkungen. Hier ein genauerer Blick auf die Auswirkungen:
- Nur temporäre Lösungen
Die Vermischung von Nicht-Data Vault-Daten mit Raw-Data Vault-Entitäten wird im Allgemeinen als vorübergehende Lösung betrachtet. Sie kann helfen, Daten, die noch nicht in das Data Vault-Modell passen, schnell zu überbrücken und eine schnelle Integration zu ermöglichen. Mit der Zeit kann dieser Ansatz jedoch zu komplexen Abfragen führen und die Konsistenz, die Data Vault bietet, verringern. - Auswirkungen auf Automatisierung und Wartungsfreundlichkeit
Die Einführung von Nicht-Standard-Tabellen erschwert die Automatisierung innerhalb des Business Vault. Das Data Vault-Design nutzt Automatisierungstools wie dbt, Wherescape und Vaultspeed, um nur einige zu nennen. Diese Tools erleichtern einen rationalisierten Arbeitsablauf in Data Vault-Implementierungen, indem sie eine automatisierte Abfolge, Prüfung und Datentransformation ermöglichen. Bei der Einführung von Nicht-Data Vault-Entitäten werden die Automatisierungsfunktionen behindert, da benutzerdefinierte Skripte oder Abfragen erforderlich sind, die von den Standard-Data Vault-Mustern abweichen. - Gefährdung der Nachvollziehbarkeit und Abstammung
Einer der größten Vorteile von Data Vault ist die Konzentration auf die Datenreihenfolge und die Nachvollziehbarkeit. In einem gemischten Modell können diese Aspekte beeinträchtigt werden. Ohne die Einhaltung der Struktur von Hubs, Links und Satelliten wird es schwierig, die Datenhistorie und Versionskontrolle zu verfolgen und alle Änderungen umfassend zu erfassen. Für Unternehmen, die aus rechtlichen oder qualitativen Gründen auf diese Funktionen angewiesen sind, kann die Beeinträchtigung der Historie ein ernsthafter Nachteil sein. - User Mart als Alternative
Ein alternativer Ansatz besteht darin, einen "User Mart" für Ad-hoc- oder analytische Abfragen zu erstellen, die Daten aus Raw Data Vault mit Nicht-Data Vault-Tabellen kombinieren. Dieser User Mart ermöglicht es Benutzern, sowohl Raw Data Vault als auch externe Entitäten abzufragen, ohne die Kernstruktur von Business Vault zu unterbrechen. Dieser Ansatz ist besonders nützlich, wenn Benutzer spezifische Berichts- oder Analyseanforderungen haben, die keine vollständige Data Vault-Transformation erfordern. - Pragmatischer Ansatz: Virtuelle Knotenpunkte und Links
Eine praktische Lösung in Data Vault-Projekten besteht darin, "virtuelle" Hubs, Links und Satelliten für nicht standardisierte Tabellen zu erstellen, die als Platzhalter innerhalb der Raw Data Vault-Struktur dienen. Dieser Ansatz ermöglicht eine schnelle Integration unter Beibehaltung eines gewissen Maßes an Standardisierung. Wenn es beispielsweise eine Referenztabelle mit Ländernamen und -codes gibt, können Sie einen virtuellen Hub für das Land erstellen und beschreibende Details als virtuellen Satellit abbilden. Auf diese Weise wird keine vollständige Abstammung erreicht, aber es kann als Brücke dienen, bis eine richtige Data Vault-Struktur implementiert werden kann. - Referenztabellen und nicht-kritische Daten
In Szenarien, in denen Daten wie Referenztabellen (z. B. Ländercodes, Postleitzahlen) keine vollständige Abstammung oder Versionsverfolgung erfordern, kann eine flache und breite Referenztabelle verwendet werden. Wenn ein Referenzhub und ein Satellit nicht notwendig sind, reicht es oft aus, die Daten mit einem Primärschlüssel und beschreibenden Spalten einfach zu halten. Dieser Ansatz eignet sich gut für unwesentliche Daten, bei denen sich die Beibehaltung der Data Vault-ähnlichen Strenge möglicherweise nicht lohnt.
Strategien für langfristigen Erfolg mit einem gemischten Modell
Wenn Sie sich für ein gemischtes Modell entscheiden, ist es wichtig, einen zukünftigen Übergang zu einem vollständig Data Vault-konformen Design zu planen. Hier sind einige Tipps:
- Priorisierung der Refaktorierung von Nicht-Data Vault-Entitäten
Erstellen Sie einen klaren Fahrplan für die schrittweise Umwandlung von Nicht-Data Vault-Tabellen in Hubs, Links und Satellites. Dieser schrittweise Ansatz ermöglicht es Ihnen, innerhalb bestehender Beschränkungen zu arbeiten und gleichzeitig ein robusteres und konformeres Business Vault zu planen. - Minimierung der technischen Verschuldung
Verfolgen Sie Instanzen von Nicht-Data Vault-Elementen in Ihrem Datenökosystem und behandeln Sie sie als "technische Schulden", die langfristig verwaltet und behoben werden müssen. Dadurch werden Sie auf Bereiche aufmerksam, in denen die Auditierbarkeit oder Automatisierung beeinträchtigt sein könnte. - Metadatengestützte Automatisierung verwenden
Nutzen Sie so weit wie möglich metadatengesteuerte Automatisierungstools, um künftige Integrationen und Übergänge zu vereinfachen. Diese Tools ermöglichen eine automatisierte Datenverarbeitung in der gesamten Data Vault-Pipeline und erleichtern das Hinzufügen und Umwandeln neuer Datenquellen in konforme Data Vault-Strukturen. - Implementierung einer strengen Governance für nutzergenerierte Daten
In Fällen, in denen Benutzer ihre eigenen Datenmodelle in den User Mart oder Business Vault einbringen, sollten Sie Governance-Richtlinien festlegen, um die Datennutzung zu standardisieren und ein gewisses Maß an Übereinstimmung mit den Data Vault-Mustern zu gewährleisten. Diese Richtlinien können die Risiken in Bezug auf die Datenqualität mindern und sicherstellen, dass Nicht-Data Vault-Daten verwaltbar bleiben.
Praktisches Beispiel für ein gemischtes Modell in Aktion
Stellen Sie sich ein Finanzdienstleistungsunternehmen vor, das ein Raw Data Vault mit Transaktionsdaten unterhält, aber auch ein separates Schema für Kundenreferenztabellen, wie z. B. demografische Kundendaten und Standortdetails, besitzt. Anstatt diese Tabellen direkt in den Business Vault zu integrieren, könnte das Unternehmen virtuelle Hubs und Links erstellen, die Kunden-IDs und Standorte mit Transaktionen verknüpfen. Auf diese Weise kann das Unternehmen innerhalb des Raw Data Vault-Rahmens weiterarbeiten und gleichzeitig eine Neuformatierung der Referenztabellen in Übereinstimmung mit den Data Vault-Standards planen.
Ein weiteres Beispiel könnte ein großes Einzelhandelsunternehmen sein, in dem benutzergenerierte Datenmodelle im User Mart häufig zur Unterstützung von Marketinganalysen verwendet werden. Hier könnte das Unternehmen ein temporäres gemischtes Modell implementieren, das schnelle Analysen ermöglicht und gleichzeitig eine schrittweise Migration zu Data Vault-Strukturen vorsieht.
Schlussfolgerung: Ausgleich zwischen Flexibilität und Data Vault-Integrität
Auch wenn ein gemischtes Modell innerhalb der Data Vault-Architektur nicht ideal ist, kann es als vorübergehende, pragmatische Lösung dienen, wenn ein unmittelbarer Bedarf an der Integration von Nicht-Data Vault-Einheiten besteht. Virtuelle Hubs und Links, User Marts und strenge Governance-Richtlinien können dabei helfen, die Komplexität zu bewältigen, die durch nicht standardisierte Tabellen entsteht. Unternehmen sollten jedoch der Migration aller Daten in das Data Vault-Modell im Laufe der Zeit Vorrang einräumen, um die langfristigen Vorteile der Nachvollziehbarkeit, Abstammung und Automatisierung zu erhalten, die Data Vault bietet.
Denken Sie schließlich daran, dass die Stärke von Data Vault in seiner Flexibilität, Überprüfbarkeit und Skalierbarkeit liegt. Die Einführung von Nicht-Data Vault-Tabellen als schnelle Lösung ist machbar, aber für nachhaltige und zuverlässige Einblicke bleibt ein vollständig Data Vault-konformes Modell die optimale Wahl.
Über den Vortragenden
Michael Olschimke
Michael hat mehr als 15 Jahre Erfahrung in der Informationstechnologie. In den letzten acht Jahren hat er sich auf Business Intelligence Themen wie OLAP, Dimensional Modelling und Data Mining spezialisiert. Fordern Sie ihn mit Ihren Fragen heraus!