Das Video ansehen
Laden von SAP CDC-Daten in eine GDPR-konforme Data Vault
Bei der Verwaltung von Change Data Capture (CDC)-Daten aus SAP in einer Raw Data Vault sind besondere Überlegungen sowohl für CDC-Informationen als auch für GDPR-relevante personenbezogene Daten erforderlich. In diesem Beitrag wird erläutert, wie CDC-Daten in einer Data Vault modelliert werden, einschließlich der eindeutigen Behandlung von erstellten, aktualisierten und gelöschten Datensätzen. Außerdem werden wir bewährte Verfahren für die Aufteilung von Daten in separate Satelliten besprechen, um GDPR-konforme Attribute zu verwalten, einschließlich leerer Spalten und Datenschutzbedenken.
Dieser Inhalt basiert auf einer Diskussion, die von Michael Olschimke, CEO von Scalefree, während einer Data Vault-Fragestunde geführt wurde.
In diesem Artikel:
CDC-Datenmodellierung im Data Vault
Die größte Herausforderung bei CDC-Daten besteht darin, dass sie nur Änderungen aus SAP enthalten und nicht jedes Mal den gesamten Datensatz. CDC-Daten enthalten normalerweise Metadaten darüber, ob ein Datensatz in SAP erstellt, aktualisiert oder gelöscht wurde. Im Folgenden erfahren Sie, wie Sie diese Daten in einer Data Vault modellieren können:
1. Laden von CDC-Daten in Satelliten mit angepassten Mustern
In Data Vault bleibt das Datenmodell unverändert, unabhängig davon, wie die Daten geliefert werden (Batch, CDC oder Echtzeit). Allerdings muss das Lademuster für CDC-Daten in Satelliten etwas angepasst werden:
- Einstellung der Deltaprüfung: Normalerweise werden bei der Delta-Prüfung des Data Vault Änderungen erkannt, bevor die Daten in den Satelliten geladen werden. Bei CDC-Daten sind die Änderungen bereits erfasst, so dass dieser Schritt umgangen werden kann. Stattdessen werden alle Änderungen von CDC-Daten direkt in die entsprechenden Satelliten geladen.
- Auswirkungen von Änderungen auf alle Satelliten: Wenn ein Attribut geändert wird, löst dies eine Aktualisierung in allen relevanten Satelliten aus. Bei diesem Ansatz können zwar Nicht-Delta-Datensätze entstehen, aber die Auswirkungen sind in der Regel minimal, und die redundanten Daten können zur effizienteren Speicherung komprimiert werden.
Umgang mit GDPR-relevanten persönlichen Daten
CDC-Daten enthalten oft sowohl reguläre Attribute als auch GDPR-sensible personenbezogene Daten. In der Data Vault sollten personenbezogene Datenattribute auf der Grundlage von Datenschutz- und Sicherheitsklassen getrennt werden, um die Einhaltung der Vorschriften zu gewährleisten und den Zugriff zu verwalten. Hier ist der empfohlene Ansatz:
2. Aufteilung von Satelliten auf der Grundlage von Datenschutzklassifizierungen
Für die Einhaltung der GDPR sollten Sie CDC-Daten in mehrere Satelliten aufteilen:
- Satellit für personenbezogene Daten: Ein eigener Satellit für GDPR-relevante Attribute (wie Namen oder IDs). Diese Trennung ermöglicht eine strengere Kontrolle von Sicherheit und Datenschutz.
- Nicht-personenbezogene Daten-Satellit: Allgemeine Attribute, bei denen keine Bedenken hinsichtlich des Datenschutzes bestehen, werden in einem separaten Satelliten gespeichert, um das Risiko einer Aufdeckung zu verringern.
- Zusätzliche Splits: Je nach den spezifischen Anforderungen Ihres Unternehmens können je nach Änderungsrate, Sicherheitsstufe oder Geschäftskontext weitere Splits erforderlich sein.
Die Verwaltung separater Satelliten für verschiedene Datenklassen stellt sicher, dass personenbezogene Daten mit strengeren Datenschutzkontrollen gehandhabt werden, was Ihrer Datenarchitektur hilft, die GDPR-Anforderungen zu erfüllen.
Verwaltung leerer Spalten im Data Vault
Es ist üblich, dass Quelltabellen Spalten enthalten, die immer leer sind. Bei der Arbeit mit CDC-Daten in einer Data Vault:
- Leere Spalten für Audits einbeziehen: Um eine vollständige Rückverfolgbarkeit und Nachvollziehbarkeit zu gewährleisten, sollten Sie leere Spalten in den Satelliten aufnehmen. Dadurch bleibt die genaue Struktur der Quelldaten erhalten, ohne sie zu verändern.
- Separater Satellit "Ungenutzte Daten": Wenn es viele leere Spalten gibt, können diese in einem eigenen Satelliten gruppiert werden, wodurch die primären Satelliten für die Benutzer schlanker werden.
Dieser Ansatz ermöglicht Flexibilität, wenn die Daten in diesen Spalten in Zukunft relevant werden. Die Prüfer werden die umfassende Struktur zu schätzen wissen, und die Data Vault wird alle Quelldaten in ihrer ursprünglichen Form beibehalten.
Beispiel für eine Satellitenstruktur
Mit Blick auf die Einhaltung der GDPR und die Anpassung des CDC-Ladens finden Sie hier eine Beispielstruktur für die Aufteilung von SAP CDC-Daten in Satelliten:
Satellit: CDC_Personal_Data - Attribute: GDPR-relevante Daten (z. B. Personennamen, Sozialversicherungsnummern) - Metadaten: Ladedatum, Quelle, Änderungsart (erstellen, aktualisieren, löschen) - Zweck: Datenschutzkontrollierter Zugriff Satellit: CDC_NichtPersonenbezogene_Daten - Attribute: Nicht-personenbezogene Datenspalten - Metadaten: Ladedatum, Quelle, Änderungsart - Zweck: Allgemeiner Zugriff Satellit: CDC_Unbenutzte_Spalten - Attribute: Spalten, die in der Quelltabelle immer leer sind - Metadaten: Ladedatum, Quelle - Zweck: Compliance und Zukunftssicherheit
Bewährte Praktiken für das Satellitensplitting im Data Vault
Befolgen Sie bei der Aufteilung von Daten in Satelliten die folgenden bewährten Verfahren:
- Getrennt nach Datenschutz und Sicherheit: Stellen Sie sicher, dass personenbezogene und nicht-personenbezogene Daten getrennt gespeichert werden, insbesondere bei der Verarbeitung von GDPR-relevanten Informationen.
- Aufteilung nach Quellsystem: Halten Sie verschiedene Quellsysteme in separaten Satelliten, um die Übersichtlichkeit und Wartbarkeit zu gewährleisten.
- Berücksichtigen Sie die geschäftlichen Erfordernisse: Wenn bestimmte Datenattribute nur für bestimmte Geschäftsfälle relevant sind, teilen Sie sie entsprechend auf, um die Komplexität der Satelliten zu reduzieren.
Diese Grundsätze sorgen für eine saubere, sichere und konforme Data Vault-Struktur, die einen effizienten Datenabruf, Flexibilität und die Einhaltung von Vorschriften ermöglicht.
Schlussfolgerung
Die Modellierung von SAP CDC-Daten in einer GDPR-konformen Data Vault erfordert Anpassungen der Lademuster, insbesondere beim Umgang mit CDC-Deltas und GDPR-sensiblen Daten. Durch die Trennung von Daten auf der Grundlage von Datenschutzklassen und die Einbeziehung leerer Spalten, wo dies erforderlich ist, können Sie die Einhaltung der Vorschriften sicherstellen und ein flexibles Datenmodell beibehalten. Der hier skizzierte Ansatz vereinfacht die Handhabung von CDC-Daten und bietet gleichzeitig robuste Prüfungs- und Datenschutzkontrollen.
Treffen mit dem Sprecher
Michael Olschimke
Michael hat mehr als 15 Jahre Erfahrung in der Informationstechnologie. In den letzten acht Jahren hat er sich auf Business Intelligence Themen wie OLAP, Dimensional Modelling und Data Mining spezialisiert. Fordern Sie ihn mit Ihren Fragen heraus!