Das Video ansehen
Verwaltung der Data Vault-Leistung mit inkrementellen Änderungen und Löschungen
In der Welt der data warehousing hat sich die Data Vault-Methode als robuste und skalierbare Lösung für die Verwaltung großer Datenmengen. Eine häufige Sorge der Praktiker ist jedoch, wie inkrementelle Änderungen und Löschungen effizient gehandhabt werden können, insbesondere wenn es um Strukturen mit Milliarden von Zeilen geht. In diesem Artikel soll der Prozess erläutert werden, wobei der Schwerpunkt auf Fragen rund um das Laden von Strukturen, Leistungsüberlegungen und praktische Strategien zur Aufrechterhaltung der Effizienz gelegt wird.
In diesem Artikel:
Die Grundlagen verstehen: Verfolgen von Änderungen und Löschungen
Das Kernprinzip von Data Vault besteht darin, alle Änderungen und Löschungen inkrementell zu erfassen. Dadurch wird sichergestellt, dass die data warehouse eine genaue historische Aufzeichnung der Unternehmensdaten bleibt. Hier eine vereinfachte Darstellung, wie dies erreicht werden kann:
- Erstes Laden: Wenn eine neue Transaktion erfasst wird, wird sie als neuer Datensatz in das Data Vault eingefügt. Wenn zum Beispiel Kunde A am ersten Tag in Geschäft B das Produkt C kauft, wird diese Transaktion mit einem Wert von 7 € erfasst.
- Behandlung von Aktualisierungen: Wenn sich der Wert der Transaktion am zweiten Tag von 7 € auf 5 € ändert, werden anstelle einer Aktualisierung des bestehenden Datensatzes zwei neue Datensätze erstellt: einer für die Annullierung der ursprünglichen Transaktion (-7 €) und ein weiterer für die neue Transaktion (5 €).
- Umgang mit Löschungen: Wenn eine Transaktion gelöscht wird, wird dies in ähnlicher Weise gehandhabt, indem ein Datensatz eingefügt wird, der die ursprüngliche Transaktion annulliert.
Diese Methode stellt sicher, dass das Data Vault unveränderlich bleibt, da die Datensätze nach dem Einfügen nie direkt geändert werden. Stattdessen werden Änderungen durch Hinzufügen neuer Datensätze nachverfolgt, was die Ladevorgänge vereinfacht und die Datenintegrität aufrechterhält.
Tragwerke: Die praktische Herangehensweise
Das Laden von Strukturen in Data Vault kann eine Herausforderung sein, insbesondere bei großen Datensätzen. Hier sind einige praktische Strategien:
Verwendung von CDC (Change Data Capture)
Wenn das Quellsystem CDC unterstützt, ist dies die einfachste Methode:
- Neue Datensätze einfügen: Fügen Sie neue Datensätze direkt in das Zielsystem ein.
- Bearbeitung von Aktualisierungen und Löschungen: Für Aktualisierungen und Löschungen fügen Sie die entsprechenden Zählertransaktionen ein.
CDC bietet eine klare und effiziente Möglichkeit, Änderungen und Löschungen zu verfolgen, was den Ladeprozess erheblich vereinfacht.
Volllast vs. inkrementelle Last
In Szenarien, in denen Volllast verwendet wird (was bei sehr großen Datensätzen allerdings selten ist), umfasst der Prozess:
- Identifizieren neuer Datensätze: Wählen Sie Datensätze aus dem Staging-Bereich aus, die noch nicht im Ziel vorhanden sind, und fügen Sie sie mit einem Zähler von eins ein.
- Identifizieren von Löschungen: Wählen Sie Datensätze aus dem Ziel aus, die im Staging-Bereich nicht vorhanden sind, und fügen Sie Zählertransaktionen ein, um sie zu annullieren.
Vollbelastungen können zwar intensiv sein, lassen sich aber durch eine optimierte Identifizierung neuer und gelöschter Datensätze effektiv bewältigen.
Überlegungen zur Leistung
Die Verarbeitung von Milliarden von Zeilen erfordert eine sorgfältige Planung, um Leistungsengpässe zu vermeiden. Im Folgenden finden Sie einige Strategien zur Abschwächung von Leistungsproblemen:
Parallele Verarbeitung
Wenn Sie mehrere Prozesse parallel laufen lassen, können Sie den Ladevorgang erheblich beschleunigen. Beispielsweise können getrennte Prozesse gleichzeitig Einfüge- und Zählvorgänge verarbeiten.
Hash Keys und Indizes
Durch den effizienten Einsatz von Hash-Schlüsseln und Indizes kann der Zeitaufwand für die Suche nach vorhandenen Datensätzen verringert werden. Stellen Sie sicher, dass Ihre Hash-Schlüssel alle relevanten Geschäftsschlüssel und Transaktions-IDs enthalten, um die Eindeutigkeit zu gewährleisten.
Hochwassermarken und Systemindikatoren
Einige Systeme, wie z. B. Oracle, bieten Funktionen wie SCN (System Change Number) oder Zeilenversionen, die helfen können, geänderte Datensätze zu identifizieren. Die Verwendung dieser Indikatoren kann die Menge der zu verarbeitenden Daten reduzieren, indem nur die kürzlich geänderten Datensätze berücksichtigt werden.
Praktisches Beispiel: Inkrementelles Laden ohne CDC
In Fällen, in denen CDC nicht verfügbar ist, können Sie dennoch effizientes inkrementelles Laden erreichen:
- Inkrementelle Aktualisierungen aus der Quelle: Wenn das Quellsystem tägliche Inkremente (eingefügte und aktualisierte Datensätze) liefert, verwenden Sie diese Daten zur Aktualisierung des Ziels.
- Behandlung von Löschungen: Für gelöschte Datensätze benötigen Sie möglicherweise eine zusätzliche Tabelle oder einen Mechanismus, um Löschungen zu verfolgen. Wenn eine solche Tabelle vorhanden ist, verwenden Sie sie zum Einfügen von Zählertransaktionen.
- Full Load-Ansatz: Wenn nur Full Loads verfügbar sind, implementieren Sie einen zweistufigen Prozess, um neue, aktualisierte und gelöschte Datensätze zu identifizieren und zu verarbeiten.
Schlussfolgerung
Die Verwaltung inkrementeller Änderungen und Löschungen in Data Vault-Strukturen, insbesondere bei großen Datenbeständen, erfordert eine Kombination von Strategien, die auf die spezifischen Fähigkeiten Ihrer Quellsysteme zugeschnitten sind. Ob Sie nun CDC, Full Loads oder inkrementelle Aktualisierungen verwenden, das Ziel bleibt dasselbe: die Aufrechterhaltung einer genauen und effizienten data warehouse. Wenn Sie die Grundsätze verstehen und praktische Lösungen anwenden, können Sie die Komplexität der Data Vault-Leistung effektiv bewältigen.
Denken Sie daran, dass der Schlüssel zum Erfolg in einer gründlichen Planung, der effizienten Nutzung der Systemfunktionen und der kontinuierlichen Optimierung Ihrer Datenladeprozesse liegt. Wenn Sie diese Richtlinien befolgen, können Sie sicherstellen, dass Ihre Data Vault-Implementierung effizient skaliert, auch wenn Ihr Datenvolumen wächst.
Über den Vortragenden
Michael Olschimke
Michael hat mehr als 15 Jahre Erfahrung in der Informationstechnologie. In den letzten acht Jahren hat er sich auf Business Intelligence Themen wie OLAP, Dimensional Modelling und Data Mining spezialisiert. Fordern Sie ihn mit Ihren Fragen heraus!
Updates und Support erhalten
Bitte senden Sie Anfragen und Funktionswünsche an [email protected].
Für Anfragen zu Data Vault-Schulungen und Schulungen vor Ort wenden Sie sich bitte an [email protected] oder registrieren Sie sich unter www.scalefree.com.
Zur Unterstützung bei der Erstellung von Visual Data Vault-Zeichnungen in Microsoft Visio wurde eine Schablone entwickelt, mit der Data Vault-Modelle gezeichnet werden können. Die Schablone ist erhältlich bei www.visualdatavault.com.