Die Kriterien für die Aufteilung von Satelliten spielen eine entscheidende Rolle für die Struktur eines Satelliten. Daher ist es nicht empfehlenswert, die Gesamtheit der beschreibende Daten die sich auf einen Geschäftsschlüssel beziehen, sollten in einer einzigen Satellitenstruktur gespeichert werden. Stattdessen sollten die Rohdaten vorzugsweise nach bestimmten Kriterien aufgeteilt werden.
Im Allgemeinen haben wir die folgenden Arten von Satelliten-Splits definiert:
- Aufteilung nach Herkunftssystem
- Aufteilung nach Änderungsrate
Darüber hinaus haben wir zwei weitere Arten von Splits definiert, wie unten beschrieben:
- Aufteilung nach dem Grad der Sicherheit und nach dem Grad der Privatsphäre
- Business-getriebene Aufteilung
Eine Aufteilung der Satelliten nach Quellsystemen wird dringend empfohlen, um zwei Probleme beim Laden der Daten in das Unternehmen data warehouse zu vermeiden: Erstens könnte eine Umwandlung der Struktur erforderlich sein, wenn zwei verschiedene Quellsysteme mit unterschiedlichen relationalen Strukturen in dieselbe Satelliteneinheit geladen werden sollen. Eine strukturelle Umwandlung erfordert jedoch früher oder später eine Geschäftslogik, die auf die Phase der Informationsbereitstellung verschoben werden sollte, um vollständig überprüfbare Umgebungen sowie die Anwendung mehrerer Geschäftsperspektiven zu unterstützen.
Das zweite Problem ist, dass zwei Quellen, die in dieselbe Satelliteneinheit geladen werden, zum so genannten "Flip-Flop-Effekt" führen: Wenn beide Systeme widersprüchliche Daten (z. B. nicht synchron) in Bezug auf den zu beschreibenden Geschäftsschlüssel speichern, nimmt der Satellit zwei Deltas pro Tag auf, die beide Beschreibungen erfassen, was zu hohem Speicherverbrauch und Dateninkonsistenzen führt. Daher hilft die Aufteilung eines Satelliten nach Quellsystem, den Speicherverbrauch drastisch zu reduzieren.
Zu den Vorteilen der Aufteilung der Satelliten nach Quellsystemen gehört die Verbesserung der Parallelität, da die Daten mehrerer Quellsysteme parallel geladen werden können. Es ermöglicht auch die Integration von Echtzeit Daten, ohne dass eine Integration mit Rohdaten aus einer Stapelverarbeitung erforderlich ist.
Zusätzlich zur Aufteilung nach Quellensystemen kann der Speicherverbrauch weiter reduziert werden, indem der Satellit nach Änderungsrate aufgeteilt wird:
Abbildung: Mehrere Satelliten (aufgeteilt nach Quellensystem) hängen von einem Hub ab
Für die Aufteilung eines Satelliten auf der Grundlage der Änderungsrate sollte man die Änderungshäufigkeit für alle Attribute bestimmen und die Daten in solche gruppieren, die sich nie, manchmal oder sehr häufig ändern. Die Aufteilung eines Satelliten nach Änderungsrate trennt die sich schnell ändernden Attribute von den sich langsam ändernden Attributen und verhindert so den Verbrauch von unnötigem Speicherplatz, wenn sich ein sich schnell änderndes Attribut ändert.
Die Aufteilung der Satelliten nach dem Quellsystem und die technische Aufteilung nach der Änderungsrate der Daten, die nicht erforderlich ist, wenn die Seitenkomprimierung in der Datenbank verfügbar ist, sind gängige und empfohlene Praktiken, wenn es um die Aufteilung der beschreibenden Attribute geht. Wir haben uns jedoch entschlossen, die Rohdaten noch weiter aufzuteilen, sowohl technisch als auch nach ihrer geschäftlichen Bedeutung.
Im Rahmen unseres Verfahrens reichen die Sicherheitsstufen von:
- Die niedrigste Vertraulichkeitsstufe - Stufe 0, 1: keine Sicherheitsmaßnahmen erforderlich, für öffentliche Daten
- Begrenzter Zugang zu bestimmten internen Parteien - Ebene A, R, C, F.
- Bis zur höchsten Vertraulichkeitsstufe - Stufe S: streng geheim.
Im weiteren Verlauf verteilt der geschäftsorientierte Satellitensplit die Rohdaten in verschiedene Satellitentabellen, die bestimmte geschäftliche Bedeutungen der Dateninhalte verwenden.
Zu diesem Zweck haben wir mehrere Klassifikationen definiert, um nur einige zu nennen: "Kontakt" für Kontaktdaten und "Aktivität" für Daten, die die Interaktionen der Nutzer mit dem Quelldatensatz verfolgen.
Darüber hinaus können Datenmodellierer benutzerdefinierte Geschäftsklassifikationen für bestimmte eindeutige Geschäftsbedeutungen in Geschäftsobjekten definieren.
Zum Beispiel alle Datenattribute einer auf der CRM-Plattform installierten Anwendung Salesforce werden oft in einer einzigen Satellitenstruktur gespeichert. Der Hauptgrund für geschäftsorientierte Satelliten ist, dass wir Anwendungen entweder hinzufügen oder entfernen können, während wir die Auswirkungen struktureller Änderungen auf das EDW reduzieren.
Im Folgenden finden Sie ein Beispiel für einen Satellitennamen in unserer internen EDW-Lösung:
kunde_kontakt_sfdc_lcp_s
Das obige Objekt ist ein Satellit eines Geschäftsobjekts mit der Bezeichnung "Kunde" und enthält die Kontaktinformationen von Kunden aus dem Quellsystem Salesforce. Sein Inhalt hat also eine niedrige Änderungsrate, eine Sicherheitsstufe von C und enthält personenbezogene Daten.
Zusammenfassung
Der Blog-Beitrag Wir haben in Data Vault die Entität "Satellit" eingeführt und unsere grundlegenden Empfehlungen zur Aufteilung eines Satelliten auf verschiedene Arten sowie die entsprechenden Vorteile definiert. Wir haben auch zusätzliche Möglichkeiten zur Aufteilung eines Satelliten empfohlen, die in Scalefree auf der Grundlage von Quelldaten verfolgt werden. In unserem nächsten Blog-BeitragIn diesem Abschnitt werden wir die Modellierung von Satelliten im Hinblick auf strukturelle Änderungen im Quellsystem genauer untersuchen.
- von Samatha Balla (Scalefree)
Updates und Support erhalten
Bitte senden Sie Anfragen und Funktionswünsche an [email protected].
Für Anfragen zu Data Vault-Schulungen und Schulungen vor Ort wenden Sie sich bitte an [email protected] oder registrieren Sie sich unter www.scalefree.com.
Zur Unterstützung bei der Erstellung von Visual Data Vault-Zeichnungen in Microsoft Visio wurde eine Schablone entwickelt, mit der Data Vault-Modelle gezeichnet werden können. Die Schablone ist erhältlich bei www.visualdatavault.com.
Newsletter
Jeden Monat neue Erkenntnisse über Data Vault