"Big Data", "Data Lake", "Datensumpf", "Hybride Architektur", "NoSQL", "Hadoop" ... Begriffe, mit denen man heutzutage sehr oft konfrontiert wird, wenn man mit Daten zu tun hat. Außerdem stellt sich die Frage, ob man heutzutage wirklich eine data warehouse braucht, wenn man mit einer großen Vielfalt und Menge an Daten zu tun hat. Wir wollen darüber sprechen, was ein Data Lake ist, ob wir ein data warehouse benötigen, wenn wir NoSQL-Plattformen wie Hadoop verwenden, und wie es mit Data Vault kombiniert wird.
WAS IST EIN DATENSEE?
Es gibt eine richtige Definition von Tamara Dull (SAS): "A Datensee ist ein Speicher, der eine riesige Menge an Rohdaten in ihrem ursprünglichen Format enthält, darunter strukturiert, Halbstrukturierteund unstrukturiert Daten. Die Datenstruktur und die Anforderungen werden erst definiert, wenn die Daten benötigt werden. 1
Der letzte Satz, dass die Datenstruktur und die Anforderungen erst definiert werden, wenn die Daten benötigt werden, besagt, dass die Struktur abgebildet wird, wenn die Daten aus dem Datenbestand abgefragt werden (Datensee), bekannt als "schema on read". Der Unterschied zu traditionellen RDBMS (schema on write) besteht darin, dass Sie die Struktur der Daten (Dateien) selbst nicht vordefinieren, wenn Sie die Daten in die NoSQL-Datenbank laden. Das soll nicht heißen, dass keine Struktur notwendig ist - im Gegenteil, die Struktur ist sehr wichtig und notwendig, um einen Data Lake zu nutzen. Diese wird nicht direkt im Data Lake (NoSQL-Datenbank) definiert, sondern wenn der Speicherort der Dateien an ein Schema angehängt wird, das beim Lesen der Daten ausgeführt wird. Wenn keine Struktur definiert ist und Sie eine NoSQL-Datenbank wie Hadoop - die nur ein Dateispeicher ist - als "Landeplatz" verwenden, wird sie zu einem Datendump. Dann kommen Sie in die Situation, dass Ihre Data Scientists oder Power-User einen hohen Aufwand betreiben müssen, wenn sie auf den Dump zugreifen und versuchen, darin Dinge von Wert zu finden.
Mit Tools wie Hive können Sie beispielsweise Ihr Abfrageschema deklarieren, und zwar mit MPP (Massive Parallel Processing) auf einem HDFS.
BRAUCHEN WIR NOCH EIN DATA WAREHOUSE?
Wenn Sie einen Data Lake mit all Ihren Daten haben, stellen Sie sich vielleicht die Frage, ob Sie eine data warehouse benötigen ... oder ob Sie bereits eine data warehouse haben, wenn Sie einen Data Lake haben?
Zunächst müssen wir die Begriffe Data Lake und data warehouse vergleichen. Ein data warehouse speichert seine Daten subjektorientiert, zeitabhängig und integriert nach Geschäftsschlüsseln. Ein Data Lake ist beim Ingest nicht subjektorientiert, überhaupt nicht integriert und kann keine CDC (Change Data Capture) oder Deltas verarbeiten, da man den Inhalt von Dateien nicht aktualisieren kann (man fügt lediglich eine bestehende Datei hinzu oder ersetzt sie). Aus der Perspektive der Technologie und der Fähigkeiten gibt es auch Unterschiede/Änderungen durch die Verwendung eines traditionellen RDBMS (für data warehouses) und New SQL / NoSQL-Plattformen (für Data Lakes).
Zurück zu der Frage, ob wir einen data warehouse brauchen. Die kurze Antwort lautet: Es kommt darauf an: Wenn Sie kein data warehouse haben und nur die folgenden Dinge tun Data Science arbeiten oder Ihre Daten untersuchen, wollen oder brauchen Sie wahrscheinlich keine data warehouse. Wenn Sie jedoch Struktur, Analyse, mehrfach integrierte Systeme (integriert durch konsistente Geschäftsschlüssel) und eine Rückbindung Ihrer Daten an die Geschäftsprozesse nach Geschäftsschlüsseln benötigen, dann brauchen Sie definitiv eine data warehouse. Zusammenfassend lässt sich sagen, dass ein data warehouse ein ausgereiftes Konzept ist, wenn Sie einen Mehrwert aus dem Data Lake (den Daten im Data Lake) ziehen wollen.
Wenn bereits ein data warehouse vorhanden ist, besteht die beste Vorgehensweise darin, Ihr bestehendes data warehouse (RDBMS) zu erweitern, indem es in den Data Lake integriert wird, oder wahrscheinlich eine hybride Architektur durch Ersetzen des relationalen Staging-Bereichs durch einen HDFS-basierten Staging-Bereich, der alle unstrukturierten und strukturierten Daten erfasst.
1 https://www.kdnuggets.com/2015/09/data-lake-vs-data-warehouse-key-differences.html
2 übernommen von https://www.smartdatacollective.com/big-data-cheat-sheet-what-executives-want-know/
Wie Sie Updates und Support erhalten
Bitte senden Sie Anfragen und Funktionswünsche an [email protected].
Managed Self-Service BI ist Teil des Data Vault 2.0 Boot Camps. Für Anfragen zu Data Vault-Schulungen und Schulungen vor Ort wenden Sie sich bitte an [email protected] oder registrieren Sie sich unter www.scalefree.com.
Um die Erstellung von Visual Data Vault-Zeichnungen in Microsoft Visio zu unterstützen, wurde eine Schablone implementiert, die zum Zeichnen von Data Vault-Modellen verwendet werden kann. Die Schablone ist erhältlich bei www.visualdatavault.com.