Zum Hauptinhalt springen
Suche
0
Scalefree - Blog - Daten-Tools - Starten Sie Ihre Data Vault 2.0-Implementierung mit Datavault4DBT

Scalefree hat veröffentlicht datavault4dbt. Ein Open-Source-Paket, das Best-Practice-Ladevorlagen für Data Vault 2.0-Entitäten bereitstellt, eingebettet in das Open-Source-data warehouse-Automatisierungswerkzeug dbt.

Datavault4dbt unterstützt derzeit Snowflake, BigQuery und Exasol und verfügt über viele großartige Funktionen:

  • Eine Data Vault 2.0-Implementierung, die mit der ursprünglichen Data Vault 2.0-Definition von Dan Linstedt übereinstimmt
  • Sowohl für persistente als auch für transiente Bereitstellungsbereiche geeignet, da in allen Makros mehrere Deltas zulässig sind, ohne dass dazwischenliegende Änderungen verloren gehen
  • Erstellung einer zentralisierten, Snapshot-basierten Geschäftsschnittstelle durch Verwendung einer zentralisierten Snapshot-Tabelle, die logarithmische Logik unterstützt
  • Optimierung von inkrementellen Ladungen durch Implementierung einer Hochwassermarke, die auch für Entitäten funktioniert, die aus mehreren Quellen geladen werden
dbt, der Partner von Scalefree

Aufbau einer Data Vault 2.0-Lösung - leicht gemacht

Das übergeordnete Ziel der Veröffentlichung von Data Vault 2.0-Vorlagen für dbt ist es, unsere jahrelange Erfahrung bei der Erstellung und dem Laden von Data Vault 2.0-Lösungen in öffentlich zugänglichen Lademustern und Best Practices zu bündeln, die jeder nutzen kann. Aus diesem Bestreben heraus wurde datavault4dbt, ein Open-Source-Paket für dbt, erstellt und wird vom Scalefree-Expertenteam gepflegt. 

Das wertvollste Merkmal von datavault4dbt ist, dass es der ursprünglichen Data Vault 2.0-Definition von Dan Linstedt entspricht. Es stellt eine vollständig auditierbare Lösung für Ihr Data Vault 2.0-gestütztes Data Warehouse dar. Mit einem unkomplizierten, standardisierten Ansatz ermöglicht es dem Team, agile Entwicklungszyklen durchzuführen.

Da beim Laden jedes Data Vault-Entitätstyps mehrere Inkremente pro Batch möglich sind, unterstützt datavault4dbt sowohl persistente als auch transiente Staging Areas, ohne dass dazwischenliegende Änderungen verloren gehen. Diese inkrementellen Ladungen werden sogar durch die Implementierung einer dynamischen Hochwassermarke optimiert, die sogar beim Laden einer Entität aus mehreren Quellen funktioniert.

Darüber hinaus fördert datavault4dbt strenge Namenskonventionen und Standards durch die Implementierung einer Vielzahl globaler Variablen, die sich über alle Data Vault-Schichten und unterstützten Datenbanken erstrecken. Der Prozess der Enddatierung von Daten ist vollständig virtualisiert, um einen modernen Ansatz zu gewährleisten, der nur das Einfügen und nicht die Aktualisierung von Daten vorsieht.

Mit all diesen Merkmalen ist das datavault4dbt die perfekte Lösung für Ihr modernes Big Data Enterprise Data Warehouse.

Von der Bühne über die Wirbelsäule in die PITs

Um all dies zu erreichen, haben wir hart daran gearbeitet, einen soliden und universellen Staging-Bereich zu schaffen. Alle Hashkeys und Hashdiffs werden hier berechnet, und die Benutzer haben die Möglichkeit, abgeleitete Spalten hinzuzufügen, Prejoins mit anderen Stages zu generieren und Geisterdatensätze zu ihren Daten hinzuzufügen. All dies geschieht hochautomatisiert auf der Grundlage parametrisierter Benutzereingaben. 

Auf der Grundlage von Bereitstellungsbereichen kann das Data Vault 2.0-Rückgrat erstellt werden. Hubs, Links und Nicht-historisierte Links können aus verschiedenen Quellen geladen werden, einschließlich Mapping-Optionen zur Gewährleistung der geschäftlichen Harmonisierung. 

Dieses Rückgrat wird dann mit Standard-Satelliten und nicht historisierten Satelliten angereichert, Multi-Aktiv-Satelliten und/oder Record-Tracking-Satelliten. Alle, die dies erfordern, werden mit einer Version 0 für Tabellen und einer Version 1 für Ansichten mit Enddatum geliefert. 

Auf der Grundlage des Raw Data Vault können PITs automatisch erstellt werden, und ihr Laden wird durch eine automatische, hoch konfigurierbare, aber optionale logarithmische Snapshot-Logik unterstützt. Diese Logik ist in der Control-Snapshot-Tabelle enthalten, die ebenfalls in zwei aufeinanderfolgenden Versionen erhältlich ist. Um die logarithmische Snapshot-Logik zu vervollständigen, ist ein Post-Hook zum Bereinigen aller PITs enthalten, der sich als nützlich erweist.

DataVault4dbt Angetrieben von Scalefree

Beginnen Sie jetzt und steigern Sie Ihre Data Vault-Erfahrung!

Die obigen Zeilen haben Sie denken lassen: "Nee, das ist alles zu schön, um wahr zu sein!"? Überzeugen Sie sich selbst, oder geben Sie uns Ihr geschätztes Feedback, indem Sie uns besuchen datavault4dbt auf Github!

Natürlich sind unsere zukünftigen Ziele für datavault4dbt hoch gesteckt und als nächstes stehen viele wichtige Themen auf unserer Liste, wie z.B.:

  • Bereitstellung eines detaillierten Arbeitsbeispiels für datavault4dbt
  • Erweiterung und Migration der bestehenden Dokumentation des Pakets
  • Unterstützung von immer mehr Datenbanken
  • Hinzufügen erweiterter und spezifischer Data Vault 2.0-Entitäten
  • Entwicklung automatisierter Data Vault-bezogener Tests
  • Überprüfung und Umsetzung von Nutzerfeedback und Vorschlägen

Bleiben Sie dran für weitere datavault4dbt-Inhalte auf allen unseren Marketingkanälen!

- Tim Kirschke (Scalefree)

Updates und Support erhalten

Bitte senden Sie Anfragen und Funktionswünsche an [email protected]

Für Anfragen zu Data Vault-Schulungen und Schulungen vor Ort wenden Sie sich bitte an [email protected] oder registrieren Sie sich unter www.scalefree.com.

Zur Unterstützung bei der Erstellung von Visual Data Vault-Zeichnungen in Microsoft Visio wurde eine Schablone entwickelt, mit der Data Vault-Modelle gezeichnet werden können. Die Schablone ist erhältlich bei www.visualdatavault.com.

Scalefree

Eine Antwort hinterlassen

Menü schließen