Brauchen wir noch ein Data Warehouse?

Data Warehouse und Data Lake: Brauchen wir noch ein Data Warehouse?

Unter adminApril 16, 2018#!28Mi., 05 Feb. 2025 11:59:44 +0100+01:004428#28Mi., 05 Feb. 2025 11:59:44 +0100+01:00-11Europe/Berlin2828Europe/Berlin202528 05am28am-28Mi., 05 Feb. 2025 11:59:44 +0100+01:0011Europe/Berlin2828Europe/Berlin2025282025Mi., 05 Feb. 2025 11:59:44 +01005911592amMittwoch=965#!28Mi., 05 Feb. 2025 11:59:44 +0100+01:00Europe/Berlin2#Februar 5th, 2025#!28Mi., 05 Feb. 2025 11:59:44 +0100+01:004428#/28Mi., 05 Feb. 2025 11:59:44 +0100+01:00-11Europe/Berlin2828Europe/Berlin202528#!28Mi., 05 Feb. 2025 11:59:44 +0100+01:00Europe/Berlin2#

"Big Data", "Data Lake", "Datensumpf", "Hybride Architektur", "NoSQL", "Hadoop" ... Begriffe, mit denen man heutzutage sehr oft konfrontiert wird, wenn man mit Daten zu tun hat. Außerdem stellt sich die Frage, ob man heutzutage wirklich eine data warehouse braucht, wenn man mit einer großen Vielfalt und Menge an Daten zu tun hat. Wir wollen darüber sprechen, was ein Data Lake ist, ob wir ein data warehouse benötigen, wenn wir NoSQL-Plattformen wie Hadoop verwenden, und wie es mit Data Vault kombiniert wird.

WAS IST EIN DATENSEE?

Es gibt eine richtige Definition von Tamara Dull (SAS): "A Data Lake ist ein Speicher, der eine riesige Menge an Rohdaten in ihrem ursprünglichen Format enthält, darunter strukturiert, Halbstrukturierte und unstrukturiert Daten. Die Datenstruktur und die Anforderungen werden erst definiert, wenn die Daten benötigt werden. ¹

Der letzte Satz, dass die Datenstruktur und die Anforderungen erst definiert werden, wenn die Daten benötigt werden, besagt, dass die Struktur abgebildet wird, wenn die Daten aus dem Datenbestand abgefragt werden (Data Lake), bekannt als "schema on read". Der Unterschied zu traditionellen RDBMS (schema on write) besteht darin, dass Sie die Struktur der Daten (Dateien) selbst nicht vordefinieren, wenn Sie die Daten in die NoSQL-Datenbank laden. Das soll nicht heißen, dass keine Struktur notwendig ist - im Gegenteil, die Struktur ist sehr wichtig und notwendig, um einen Data Lake zu nutzen. Diese wird nicht direkt im Data Lake (NoSQL-Datenbank) definiert, sondern wenn der Speicherort der Dateien an ein Schema angehängt wird, das beim Lesen der Daten ausgeführt wird. Wenn keine Struktur definiert ist und Sie eine NoSQL-Datenbank wie Hadoop - die nur ein Dateispeicher ist - als "Landeplatz" verwenden, wird sie zu einem Datendump. Dann kommen Sie in die Situation, dass Ihre Data Scientists oder Power-User einen hohen Aufwand betreiben müssen, wenn sie auf den Dump zugreifen und versuchen, darin Dinge von Wert zu finden.

Mit Tools wie Hive können Sie beispielsweise Ihr Abfrageschema deklarieren, und zwar mit MPP (Massive Parallel Processing) auf einem HDFS.

BRAUCHEN WIR NOCH EIN DATA WAREHOUSE?

Wenn Sie einen Data Lake mit all Ihren Daten haben, stellen Sie sich vielleicht die Frage, ob Sie eine data warehouse benötigen ... oder ob Sie bereits eine data warehouse haben, wenn Sie einen Data Lake haben?

Zunächst müssen wir die Begriffe Data Lake und data warehouse vergleichen. Ein data warehouse speichert seine Daten subjektorientiert, zeitabhängig und integriert nach Geschäftsschlüsseln. Ein Data Lake ist beim Ingest nicht subjektorientiert, überhaupt nicht integriert und kann keine CDC (Change Data Capture) oder Deltas verarbeiten, da man den Inhalt von Dateien nicht aktualisieren kann (man fügt lediglich eine bestehende Datei hinzu oder ersetzt sie). Aus der Perspektive der Technologie und der Fähigkeiten gibt es auch Unterschiede/Änderungen durch die Verwendung eines traditionellen RDBMS (für data warehouses) und New SQL / NoSQL-Plattformen (für Data Lakes).

Zurück zu der Frage, ob wir einen data warehouse brauchen. Die kurze Antwort lautet: Es kommt darauf an: Wenn Sie kein data warehouse haben und nur die folgenden Dinge tun Data Science arbeiten oder Ihre Daten untersuchen, wollen oder brauchen Sie wahrscheinlich keine data warehouse. Wenn Sie jedoch Struktur, Analyse, mehrfach integrierte Systeme (integriert durch konsistente Geschäftsschlüssel) und eine Rückbindung Ihrer Daten an die Geschäftsprozesse nach Geschäftsschlüsseln benötigen, dann brauchen Sie definitiv eine data warehouse. Zusammenfassend lässt sich sagen, dass ein data warehouse ein ausgereiftes Konzept ist, wenn Sie einen Mehrwert aus dem Data Lake (den Daten im Data Lake) ziehen wollen.

Wenn bereits ein data warehouse vorhanden ist, besteht die beste Vorgehensweise darin, Ihr bestehendes data warehouse (RDBMS) zu erweitern, indem es in den Data Lake integriert wird, oder wahrscheinlich eine hybride Architektur durch Ersetzen des relationalen Staging-Bereichs durch einen HDFS-basierten Staging-Bereich, der alle unstrukturierten und strukturierten Daten erfasst.

¹ https://www.kdnuggets.com/2015/09/data-lake-vs-data-warehouse-key-differences.html
²übernommen von https://www.smartdatacollective.com/big-data-cheat-sheet-what-executives-want-know/

Data Warehouse und Data Lake: Brauchen wir noch ein Data Warehouse?

WAS IST EIN DATENSEE?

BRAUCHEN WIR NOCH EIN DATA WAREHOUSE?

Build your path to a scalable and resilient Data Platform

Abonnieren Sie unseren
kostenlosen monatlichen Newsletter

Eine Antwort hinterlassen Antwort abbrechen

Abonnieren Sie unseren
kostenlosen monatlichen Newsletter

LÖSUNGEN

AUSBILDUNGEN

VERANSTALTUNGEN

KNOWLEDGE HUB

KARRIERE

UNTERNEHMEN

Data Warehouse und Data Lake: Brauchen wir noch ein Data Warehouse?

WAS IST EIN DATENSEE?

BRAUCHEN WIR NOCH EIN DATA WAREHOUSE?

Build your path to a scalable and resilient Data Platform

Abonnieren Sie unseren kostenlosen monatlichen Newsletter

Das könnte Ihnen auch gefallen

Über nicht-funktionale Anforderungen

Auswahl des richtigen technischen Stapels für ein Open-Source-basiertes EDW

Data Vault in einem Data Mesh-Ansatz

Eine Antwort hinterlassen Antwort abbrechen

Abonnieren Sie unseren kostenlosen monatlichen Newsletter

LÖSUNGEN

AUSBILDUNGEN

VERANSTALTUNGEN

KNOWLEDGE HUB

KARRIERE

UNTERNEHMEN

Abonnieren Sie unseren
kostenlosen monatlichen Newsletter

Abonnieren Sie unseren
kostenlosen monatlichen Newsletter