An dem Webinar teilnehmen
Flow.BI
Diese Frage könnte so alt sein wie die Data Vault: Kann das Raw Data Vault mit Hilfe künstlicher Intelligenz (KI) erstellt werden? Bis vor kurzem war die vorherrschende Erwartung in der Branche, dass eine KI, wenn überhaupt, nur in der Lage wäre, den Datenmodellierer zu unterstützen, z. B. durch die Identifizierung und den Vorschlag von Geschäftsschlüsseln oder die Modellierung von Teilen des Modells.
Die Frage stellt sich aus der Not heraus: In der Vergangenheit haben Datenmenge und -form exponentiell zugenommen. Und es gibt keine Anzeichen dafür, dass dies in Zukunft abflachen wird. Aber wer soll all die Daten analysieren, die für die heutigen Datenplattformen benötigt werden? Wir haben bereits einen Mangel an qualifizierten Dateningenieuren. Und diese Situation wird sich in Zukunft noch verschärfen, denn die Zahl der Studenten steigt nicht exponentiell an.
In diesem Artikel:
- Mit generativer KI die Erwartungen übertreffen
- Modellstruktur und Lastdefinitionen
- Vereinfachte Modellierung mit Flow.BI
- Ein datengesteuerter Ansatz
- Roh Data Vault vs. Geschäftslogik
- Metadaten für fortgeschrittenes Data Warehousing
- Benutzerkontrolle über die AI-Modellierung
- Integration mit Data Warehouse Automation
- Nutzenversprechen von Flow.BI
- Updates und Support erhalten
Mit generativer KI die Erwartungen übertreffen
Mit der Veröffentlichung von Flow.BIist die Erwartung, dass nur eine assistierende KI möglich ist, übertroffen worden. Flow.BI ist eine generative KI, die den Raw Data Vault vollständig "definiert", einschließlich:
- Knotenpunkte und ihre Geschäftsschlüssel
- Links, einschließlich hierarchischer Links
- Satelliten, einschließlich der Satellitensplits für Datenschutz, Sicherheit und Änderungsrate
- Nicht-historisierte Links und ihre Satelliten
- Effektivitätssatelliten und Multi-Aktiv-Satelliten
- Referenzknotenpunkte und ihre Satelliten
Modellstruktur und Lastdefinitionen
Zusätzlich zur Modellstruktur definiert die fortgeschrittene AI von Flow.BI auch die Ladedefinitionen, d.h. die Definition, aus der der Business Key eines Hubs oder das Attribut eines Satelliten geladen wird. Dies wird später verwendet, um die INSERT INTO-Anweisungen zu generieren.
Da alles von der KI erledigt wird, arbeitet sie in großem Maßstab und kann schnell Raw Data Vault-Modelle mit Tausenden von Elementen erstellen.
Vereinfachte Modellierung mit Flow.BI
Flow.BI vereinfacht den Modellierungsansatz drastisch: Der Benutzer muss lediglich die Datenquellen für die Analyse und das Profiling an Flow.BI anhängen, den roten Knopf drücken und Flow.BI definiert zumindest ein gültiges Modell. Um dies zu erreichen, identifiziert die Lösung zunächst die Konzepte in den Entitäten der Datenquellen und dann die Geschäftsschlüssel für diese Konzepte. Anschließend identifiziert sie die Beziehungen und verarbeitet die beschreibenden Datenattribute zu Satelliten. Im letzten Schritt fügt der integrierte Generator für natürliche Sprache die Dokumentation der Entitäten, Attribute und Lastdefinitionen hinzu.
Die Benutzer können das Zielmodell verbessern, indem sie die identifizierten Konzepte und die Regeln für Datenschutz, Sicherheit und Satellitensplits anpassen.
Ein datengesteuerter Ansatz
Das von Flow.BI definierte Modell folgt einem datengesteuerten Ansatz und entspricht daher der Lehre von Scalefree's Data Vault Ausbildung.
Bei einem datengesteuerten Ansatz modelliert das Data Vault-Modell "die Rohdaten so, wie sie vom Unternehmen verwendet werden". Das bedeutet, dass der Schwerpunkt eindeutig auf den Rohdaten liegt, aber die Geschäftsschlüssel ("wie das Unternehmen sie nutzt") integrieren Daten über mehrere Datenquellen hinweg.
Die Idee dahinter ist, dass Geschäftsschlüssel oft gemeinsame Schlüssel sind, die in mehreren Quellsystemen existieren und daher für Integrationszwecke verwendet werden können.
Roh Data Vault vs. Geschäftslogik
Geschäftslogik, wie WHERE-Bedingungen oder bedingte Logik, hat in einem datengesteuerten Raw Data Vault keinen Platz. Der Business Vault zielt darauf ab, die Raw Data Vault um Geschäftslogik zu erweitern.
Daher enthält das definierte Modell keine Geschäftslogik, die später im Business Vault hinzugefügt werden muss. Das Raw Data Vault-Modell ist jedoch ein integriertes Unternehmensdatenmodell, das sich über alle angeschlossenen Datenquellen erstreckt.
Metadaten für fortgeschrittenes Data Warehousing
Die von Flow.BI erzeugten Metadaten können nicht nur für die Generierung des Raw Data Vault verwendet werden, sondern auch für den Staging-Bereich, entweder in einer relationalen Datenbank oder in einem Data Lake.
Flow.BI generiert das Raw Data Vault nicht allein, sondern definiert es. Das heißt, es gibt nur an, welche Hubs, Links und Satelliten existieren sollen, um die Daten aus den Quellsystemen zu erfassen. Es generiert jedoch nicht die CREATE TABLE- und INSERT INTO-Anweisungen für das physische Modell. Stattdessen verlässt es sich auf Werkzeuge wie dbt über die datavault4dbt-Paket um den Code zu generieren. Flow.BI übergibt die Metadaten des definierten Modells, und datavault4dbt generiert den eigentlichen Code.
In diesem Sinne ist Flow.BI ein Teamkollege, der die Datenquellen analysiert und profiliert, der weiß, wie man die Raw Data Vault modelliert, und der die Metadaten in die SQL-Modelle von dbt aufnimmt.
Benutzerkontrolle über die AI-Modellierung
Flow.BI imitiert den menschlichen Datenmodellierer.
Bedeutet dies aber, dass der Benutzer die Kontrolle über die KI verloren hat? Nein. Es gibt viele Möglichkeiten, die KI von Flow.BI zu beeinflussen, um ein "besseres" Zielmodell zu erstellen. Zunächst sollte jedoch definiert werden, was "besser" bedeutet: weniger Entitäten im Zielmodell? Schnellere Abfragen? Schnelleres Laden? Je nach Zielsetzung kann Flow.BI z.B. durch die Konzeptklassifizierung und die Art und Weise, wie die Quelldaten Flow.BI präsentiert werden, beeinflusst werden.
Integration mit Data Warehouse Automation
Sobald die Metadaten für das Raw Data Vault definiert sind, werden sie an die Automatisierungslösung data warehouse (DWA) übergeben. Es sind viele Lösungen verfügbar, aber eine beliebte Option ist dbt. Scalefree hat das quelloffene dbt-Paket datavault4dbt entwickelt, das sich in der Branche wachsender Beliebtheit erfreut.
Um SQL-Modelle für das dbt-Paket zu generieren, nutzt die Integration zwischen Flow.BI und datavault4dbt die TurboTresor, ein weiteres Open-Source-Paket von Scalefree. TurboVault ist eine grafische Benutzeroberfläche, die die Metadaten für ein mit datavault4dbt zu erstellendes Raw Data Vault einrichtet.
Sobald die Metadaten für das Raw Data Vault definiert sind, werden sie an die Automatisierungslösung data warehouse (DWA) übergeben. Es sind viele Lösungen verfügbar, aber eine beliebte Option ist dbt. Scalefree hat das quelloffene dbt-Paket datavault4dbt entwickelt, das sich in der Branche wachsender Beliebtheit erfreut.
Um SQL-Modelle für das dbt-Paket zu generieren, nutzt die Integration zwischen Flow.BI und datavault4dbt die TurboTresor, ein weiteres Open-Source-Paket von Scalefree. TurboVault ist eine grafische Benutzeroberfläche, die die Metadaten für ein mit datavault4dbt zu erstellendes Raw Data Vault einrichtet.
Die beste Option war, die Flow.BI-Metadaten in TurboVault einzulesen, um dessen Fähigkeiten zu nutzen. Sobald die Flow.BI-Metadaten in TurboVault geladen sind, generiert TurboVault die SQL-Modelle für datavault4dbt, die wiederum die Data Vault-Entitäten und die Ladeverfahren erzeugen.
Um die Integration zwischen Flow.BI und TurboVault zu erleichtern, hat Scalefree ein Integrationsskript entwickelt. (Demnächst)
Nutzenversprechen von Flow.BI
Flow.BI bietet viele Vorteile: erstens den Preis. Die Definition des Modells mithilfe von KI ist wesentlich kostengünstiger als die manuelle Erstellung der Metadaten für datavault4dbt. Ein weiteres Problem ist, dass Data Vault-Experten eine knappe Ressource und nicht überall verfügbar sind, vor allem wenn die Qualität ein wesentlicher Faktor ist, was beim Umgang mit Unternehmensdaten immer der Fall sein sollte.
Ein weiterer Vorteil von Flow.BI ist die Agilität: Anstatt das Raw Data Vault in Monaten und Jahren zu definieren, berechnet die fortschrittliche KI von Flow.BI das Raw Data Vault-Modell innerhalb von Minuten und Stunden.
Dies verringert auch das Projektrisiko: Was, wenn die Data Vault-Experten nach jahrelanger Arbeit und Millionen von Euro ein minderwertiges (oder sogar ungültiges) Modell erstellen? Ein erneuter Versuch der Modellierung ist oft unrealistisch.
Aber mit Flow.BI sind die Ergebnisse fast sofort da; wenn sie nicht zufriedenstellend sind, gibt es immer noch die manuelle Alternative.
Daher ist es am besten, wenn Sie sich mit uns in Verbindung setzen, um ein Proof of Concept oder einen Workshop über Flow.BI.
- Michael Olschimke
Updates und Support erhalten
Bitte senden Sie Anfragen und Funktionswünsche an [email protected].
Für Anfragen zu Data Vault-Schulungen und Schulungen vor Ort wenden Sie sich bitte an [email protected] oder registrieren Sie sich unter www.scalefree.com.
Um die Erstellung von Visual Data Vault-Zeichnungen in Microsoft Visio zu unterstützen, wurde eine Schablone implementiert, die zum Zeichnen von Data Vault-Modellen verwendet werden kann. Die Schablone ist erhältlich bei www.visualdatavault.com.