The new General Data Protection Regulation (GDPR) is a law by the European Union (EU) and became effective on May 25, 2018. This new regulation is designed to put a high level of protection to personal data of European citizens, what means that companies around the world have to establish transparency and ownership to the individuals’ data and need to get a clear declaration of consent from them to save and process their personal data. Though laws from countries outside the EU (especially the USA) tend to favor business over consumer, GDPR affects all companies over the world who have personal data from EU-citizens in their database.
WHAT IS NEW WITH GDPR?
To be careful with personal data is nothing new, especially not in the EU. The key change of collecting and processing personal data is that the data is now completely under control of the owner, who can force the companies to delete or anonymize their data or to request copies of all owners personal data stored in the system. Personal data or Privately Identifiable Information (PII) means data, an individual can be identified with, e.g. name, phone number or email address.
Furthermore, it is now not enough to announce the intention of saving and processing in the general agreements of the company (which have to be accepted when i.e. sign up at company to purchase products), but the consent of collecting and processing personal data has to be clearly declared separately and accepted. The penalties when breaching the regulation are very strong and can be fined up to 20 million Euro or with 4 % of the annual revenue (depends on what is higher).
DATA VAULT 2.0 AS A SOLUTION
The easiest way would be to delete and block all people from the EU, what could be a solution for companies who don’t have a customer stack in the EU, but not for the most companies in the world. Another approach is to mask the data, what means to anonymize the PII data. Deleting/masking data afterwards does not just affect the Data Vault, but also all layer in the Data Warehouse: the data/Informationskataloge (if not virtualized), staging area, Quellensysteme and all other data storages, like user spaces (due to managed Self-Service BI), NoSQL/Hadoop stores, data exports, data backups(!) and even files without a data model e.g. Docs, PDFs or Spreadsheets to just name a few. This means that data lineage becomes absolutely vital.
Data Vault 2.0 with its complete auditable solution can definitely help you to reduce costs for deleting and masking processes. There are some modeling concepts which make it much easier to handle the requirements of GDPR. One approach is to split personal data and non-personal data in different Satellites (Satellite Split), as shown in the figure below.
The unique business key (and its hashed value) is stored in the hub with the reference to two Satellites via the Hash Keys. One Satellite contains non-personal data, the other one personal data. If the customer wants to get his personal data deleted, the complete row(s) in the Satellite with personal data is affected only (no column separated deletion in one table). This approach only works when the Business Key itself does not contain PII data and can be kept in the Hub to tie the descriptive data back to a business object. If the Business Key contains PII information (e.g. the email address), another approach has to be used to handle this situation. The modeling-solution in the image below shows that there is a central Hub with the unique Business Key of the customer (and its hashed value) which is connected to additional Hubs for several businesses, each via a Link entity. The Link contains the Business Key from the main customer Hub and an artificial key which is used as primary key in the additional Hub.
Wenn Kundendaten nur für ein Unternehmen gelöscht werden müssen und PII-Informationen als Geschäftsschlüssel verwendet werden, müssen nur der Link-Eintrag und die beschreibenden Attribute in dem spezifischen Satelliten gelöscht werden. Die Aktivitätshistorie ist weiterhin verfügbar, kann für analytische Zwecke verwendet werden und ist nicht auf den Kunden selbst zurückzuführen. Der zusätzliche Vorteil dieser "Geschäftsaufteilung" besteht darin, dass bei der Löschung von Kundendaten nur ein Geschäft betroffen ist, d.h. jedes Geschäft kommt aus verschiedenen Niederlassungen, und nur die Kfz-Versicherungsdaten gelöscht werden müssen. Außerdem ist zu bedenken, dass die Löschung nur des Geschäftsschlüssels (und die Beibehaltung der Hash Key) nicht zur Einhaltung der GDPR führt (und ohnehin nicht dem Data Vault 2.0-Standard entspricht, da der Geschäftsschlüssel in Verknüpfungstabellen verwendet wird). Die Hash Key in Data Vault 2.0 wird nicht zur Verschlüsselung von Daten verwendet, sondern aus Leistungsgründen. Der Schlüssel in den Links und den geschäftsorientierten Hubs, um die es hier geht, kann nicht zurückgerechnet werden, da es sich um einen vollständigen Surrogatschlüssel handelt. Sobald der Kunde vollständig gelöscht werden soll, da er kein Kunde mehr in einem Ihrer Geschäfte ist, löschen Sie den Datensatz auch aus dem Haupt-Hub.
Andernfalls, wenn es keinen zusätzlichen künstlichen Schlüssel für den Kunden gibt, können Sie nach dem Löschen von PII-Daten Ihre Daten nicht an ein Objekt (einen Ankerpunkt) zurückbinden, was sie (in vielen Fällen) nutzlos macht.
Updates und Support erhalten
Bitte senden Sie Anfragen und Funktionswünsche an [email protected].
Für Anfragen zu Data Vault-Schulungen und Schulungen vor Ort wenden Sie sich bitte an [email protected] oder registrieren Sie sich unter www.scalefree.com.
Um die Erstellung von Visual Data Vault-Zeichnungen in Microsoft Visio zu unterstützen, wurde eine Schablone implementiert, die zum Zeichnen von Data Vault-Modellen verwendet werden kann. Die Schablone ist erhältlich bei www.visualdatavault.com.