Das Video ansehen
Referenzdaten
Willkommen zu einer weiteren Folge von Data Vault Friday! Ich bin Michael Olschimke, CEO von Scalefree. Heute melde ich mich aus München, frisch von der TDWI-Konferenz. Trotz des Ortswechsels bleibt unsere Mission die gleiche: jeden Freitag um 11 Uhr mitteleuropäischer Sommerzeit Ihre Fragen zum Thema Daten zu beantworten. Ganz gleich, ob Sie Fragen zu Data Vault, Data Mining, Cloud Computing, MPP-Datenbank-Computing oder anderen datengetriebenen Themen haben, wir sind für Sie da.
Die heutige Frage stammt aus unserem Online-Formular und bezieht sich auf die Ableitung von Dimensionen aus Referenzdaten in der Rohdatei Data Vault. Konkret hat der Fragesteller mehrere Referenztabellen, die er bei der Erstellung des Rohdatensatzes Data Vault als Hub- oder Referenztabellen hinzufügt. So gibt es beispielsweise eine Regionstabelle, die einen Regionscode, eine Beschreibung, einen Sprachcode und ein Gültigkeitsdatum von/bis enthält.
In diesem Artikel:
Degenerierte Dimensionen verstehen
In der Abfrage wird eine "degenerierte Dimension" erwähnt. Zur Verdeutlichung: Eine degenerierte Dimension ist ein Dimensionsattribut, wie z. B. der Regionalcode, das in einer Faktentabelle ohne zusätzliche Beschreibungen enthalten ist. Dieses Attribut existiert in der Faktentabelle selbst und hat keine separate Dimensionstabelle.
Aufbau des Modells
Um dies zu veranschaulichen, lassen Sie uns mit einer Grundstruktur beginnen. Stellen Sie sich vor, Sie haben einen nicht-historisierten Link, der Transaktionsdaten enthält und auf Hubs wie Hub Customer und Hub Product verweist. Darüber hinaus gibt es Referenztabellen, z. B. eine Regionaltabelle mit einem Regionalcode und zugehörigen Beschreibungen. Hier ist ein vereinfachtes Modell:
- Nicht-historisierter Link: Enthält Bewegungsdaten.
- Hub Kunde und Hub Produkt: Referenzkunden- und Produktdaten.
- Referenz-Hub für Region: Enthält den Regionalcode.
- Referenzsatellit für die Region: Enthält die Beschreibungen, Sprachcodes und Gültigkeitsdaten.
Auf diese Weise können Änderungen in den Referenzdaten erfasst werden, wodurch das Modell überprüfbar wird und die historische Genauigkeit erhalten bleibt.
Schaffung einer degenerierten Dimension
Gehen Sie folgendermaßen vor, um eine degenerierte Dimension aus den Referenzdaten zu erstellen:
- Nehmen Sie den Code in die Faktentabelle auf: Fügen Sie den Regionalcode direkt in Ihre Transaktionsdaten ein (die nicht-historisierte Verknüpfung).
- Bestimmen Sie die erforderlichen Attribute: Entscheiden Sie, ob Sie nur den Regionalcode oder zusätzliche Attribute wie den Regionsnamen benötigen.
- Erstellen Sie eine Faktenansicht: Wenn Sie nur den Regionalcode benötigen, erstellen Sie einfach eine Faktenansicht, die diesen Code enthält.
- Zusätzliche Attribute vorfügen: Wenn Sie zusätzliche Attribute benötigen, fügen Sie die Referenz Hub und Satellite vor, um den Namen der Region oder andere Details auf der Grundlage der Zeitachse Ihrer Fakten zu erhalten.
Umgang mit zeitbasierten Daten
Wenn Sie mit zeitbasierten Daten arbeiten, ist es wichtig, die richtige Version Ihrer Referenzdaten zu ermitteln. Wenn Sie die aktuellste Beschreibung der Region (eine Dimension vom Typ 1) wünschen, können Sie den letzten Eintrag verknüpfen. Bei einer Dimension vom Typ 2 (Verfolgung von Änderungen im Laufe der Zeit) erfolgt die Verknüpfung auf der Grundlage des Zeitstempels des Fakts, um die richtige Version des Regionsnamens zu ermitteln.
Überlegungen zur Leistung
Referenztabellen enthalten in der Regel eine relativ kleine Datenmenge, so dass die meisten Joins effizient sind. Wenn die Leistung jedoch zu einem Problem wird, können Sie die Erstellung einer Point-in-Time-Tabelle (PIT) im business vault in Betracht ziehen. Diese Tabelle kann die aktuelle Beschreibung für jede Region auf täglicher Basis vorberechnen, wodurch Joins schneller und effizienter werden.
Konforme Abmessungen
Wenn Sie eine angepasste Dimension verwenden möchten, wandeln Sie Ihre Referenztabelle in eine Dimensionstabelle um. Verwenden Sie den Primärschlüssel der Referenztabelle (z. B. den Regionalcode) als Dimensionsbezeichner. Bei diesem Ansatz werden der Referenzhub und Satellite verbunden, um eine Dimensionsansicht zu erstellen, die in Ihren Faktentabellen verwendet werden kann.
Schritte zur Umsetzung
- Referenztabelle in Dimension umwandeln: Verbinden Sie den Referenzhub und den Satellit, um eine Dimensionsansicht zu erstellen.
- Referenzcode als Dimensionsschlüssel verwenden: Der Regionalcode wird zum Dimensionsschlüssel.
- Faktenansicht erstellen: Nehmen Sie den Dimensionsschlüssel in Ihre Faktenansicht auf und verbinden Sie die erforderlichen Attribute aus der Dimensionsansicht.
- Konfigurieren Sie im Dashboard: Richten Sie Beziehungen zwischen Ihren Fakten und Dimensionen in Ihrer Dashboard-Anwendung für eine nahtlose Datenvisualisierung ein.
Schlussfolgerung
Zusammenfassend lässt sich sagen, dass es bei der Ableitung von Dimensionen aus Referenzdaten in einem Data Vault darauf ankommt, Ihre Anforderungen an degenerierte oder angepasste Dimensionen zu verstehen, zeitbasierte Daten angemessen zu behandeln und effiziente Joins zu gewährleisten. Wenn Sie diese Schritte befolgen, können Sie ein robustes und skalierbares Datenmodell erstellen, das Ihren analytischen Anforderungen gerecht wird.
Vielen Dank, dass Sie an dieser Data Vault-Freitagssitzung teilnehmen. Wenn Sie weitere Fragen haben, können Sie diese unter sfr.ee/dvfreitag. Weitere Informationen finden Sie in unseren Webinaren unter Scalefree.to/webinars. Wenn Sie bis nächsten Freitag Antworten benötigen, besuchen Sie die Data Vault-Innovatoren-Community, die wir zusammen mit Ignition Data eingerichtet haben.
Bis zum nächsten Mal, stellen Sie uns Ihre Fragen zu den Daten, und wir sehen uns nächsten Freitag wieder!
Treffen mit dem Sprecher
Michael Olschimke
Michael hat mehr als 15 Jahre Erfahrung in der Informationstechnologie. In den letzten acht Jahren hat er sich auf Business Intelligence Themen wie OLAP, Dimensional Modelling und Data Mining spezialisiert. Fordern Sie ihn mit Ihren Fragen heraus!
Updates und Support erhalten
Bitte senden Sie Anfragen und Funktionswünsche an [email protected].
Für Anfragen zu Data Vault-Schulungen und Schulungen vor Ort wenden Sie sich bitte an [email protected] oder registrieren Sie sich unter www.scalefree.com.
Um die Erstellung von Visual Data Vault-Zeichnungen in Microsoft Visio zu unterstützen, wurde eine Schablone implementiert, die zum Zeichnen von Data Vault-Modellen verwendet werden kann. Die Schablone ist erhältlich bei www.visualdatavault.com.