Ein data warehouse ist eine themenorientierte, nicht flüchtige, integrierte, zeitvariante Sammlung von Daten zur Unterstützung von Managemententscheidungen
- Inmon, W. H. (2005). Aufbau des Data Warehouse. Indianapolis, Ind.: Wiley.
Sie stellt die technische Infrastruktur bereit, die für eine effektive Nutzung von Business Intelligence erforderlich ist. Sein Zweck ist die Integration von Daten aus verschiedenen Datenquellen und die Bereitstellung einer historisierten Datenbank. Durch ein DWH kann eine konsistente und zuverlässige Berichterstattung gewährleistet werden. Eine standardisierte Sicht auf die Daten kann Interpretationsfehler verhindern, verbesserte Datenqualität zu erfüllen und führt zu einer besseren Entscheidungsfindung. Darüber hinaus bietet die Historisierung von Daten zusätzliche Analysemöglichkeiten und führt zu einer (vollständigen) Nachvollziehbarkeit.
"Wozu brauchen wir ein data warehouse für die Berichterstattung, wir haben doch Excel-Tabellen?!"
Ja, Excel ist ein großartiges Werkzeug... und man verliert die Kontrolle über seine Daten und Berichte.
Sie können Berichte direkt aus einer Datenquelle erstellen, sind aber in Bezug auf Funktionalität und Governance stark eingeschränkt. Außerdem können Sie Berichte nur aus einem Quellsystem erstellen und haben keine deltagestützte Historie Ihrer Daten. Wenn Sie Berichte direkt aus dem Quellsystem erstellen und auf einem lokalen PC speichern, verlieren Sie den Überblick darüber, welcher Benutzer die Daten zu welchem Zeitpunkt zur Erstellung des Berichts abgerufen hat. Somit sind die Berichte nicht mehr zuverlässig. Um dies zu verhindern, kommt ein data warehouse ins Spiel.
Warum brauchen wir sie?
Stellen wir uns vor, unser Ziel ist es, ein Dashboard für den Umsatz zu erstellen, das auf einem Zeitstrahl, einer Kundengruppe, Ihren Produkten und Regionen basiert. Ohne ein DWH müssen Sie alle Daten manuell aus allen erforderlichen Quellsystemen sammeln. Diese Daten sind höchstwahrscheinlich eine Mischung aus strukturierten, unstrukturierten und halbstrukturiert Daten. Die Herausforderung besteht dann darin, die Daten aufzubereiten und zu visualisieren sowie eine leicht wiederholbare Methode dafür zu entwickeln. Dies ist sehr zeitaufwändig und kann sehr kostspielig sein.
Bis alle Daten gesammelt und aufbereitet sind, können die Daten bereits veraltet sein, so dass ein Neuanfang erforderlich wird.
Mit einem DWH werden alle Daten an einem einzigen Punkt gesammelt. Die Daten sind auf das Unternehmen ausgerichtet (integriert & themenorientiert) mit standardisierten Definitionen z.B. von KPI's, so dass jeder Bericht die Daten gleich interpretiert. Der Zugriff auf das DWH ist nur lesen (nicht flüchtig), einmal geladen können Sie die Daten nicht mehr ändern (prüfbar). Dies führt zu einer vollständigen Historisierung der Daten (Zeitvariante). Mit allen verfügbaren Daten können die Bedürfnisse der Anwender befriedigt werden (strukturierte Daten, integriert nach Geschäftsbegriffen). Für Fachanwender gibt es auch die Möglichkeit der Nutzung von Selbstbedienungs-BI.
Wie wäre es mit einem Data Lake?
Als die "Datensee" vor einigen Jahren eingeführt wurde, ging man davon aus, dass es ein data warehouse ersetzen würde.
Ein Data Lake ist eine großartige Umgebung, wenn er als erste Landezone für Ihre Daten in Ihrer IT-Infrastruktur verwendet wird, aber er "integriert" die Daten nicht wie ein data warehouse.
A Datensee kann verwendet werden, um die Daten weiter nach unten in Ihr data warehouse und einen Informationslieferbereich zu verarbeiten. An diesem Punkt wird die Struktur sehr wichtig, damit Ihr Data Lake nicht zu einer Datenhalde wird und Sie jederzeit in der Lage sind, die von Ihnen benötigten Daten auf einfache Weise abzufragen.
Zu diesem Zweck müssen Sie ein Architekturdesign erstellen, das davon abhängt, wie Sie die Daten aus Ihrem Data Lake in Ihrem data warehouse verarbeiten. Dies kann auch vollständig virtualisiert geschehen, abhängig von der Datenmenge bzw. der Leistung, die für die Verarbeitung der Daten in Richtung der Endanwender erforderlich ist.
Ein Data Lake ist auch ein guter Ort für Datenwissenschaftler, um so schnell wie möglich Zugriff auf die Daten zu erhalten, selbst wenn es sich um das native Format handelt. Für Endnutzer, die mit Strukturdaten für Berichte, Dashboarding und Analysen arbeiten, ist ein strukturiertes, integriertes, gut funktionierendes und leicht zugängliches data warehouse erforderlich, um ihre Anforderungen zu erfüllen. Sie erwarten die Daten in einem aufbereiteten Informationsmarktwie ein Sternschema oder eine flache und breite Tabelle.
Fazit: Wenn Sie einen Data Lake nutzen wollen, sollten Sie sich Gedanken darüber machen, wie Sie die Daten auf dem Weg nach draußen benötigen und verarbeiten, damit Sie eine geeignete Struktur dafür schaffen können. Wenn Sie Ihre Daten nicht integriert, themenorientiert und zeitvariant benötigen, dann können Sie sich mit einem Data Lake begnügen. Aber wenn Sie all diese großartigen Eigenschaften benötigen, brauchen Sie definitiv eine data warehouse.
Wie funktioniert ein Data Warehouse?
Es beginnt mit dem ETL-Prozess (Extrahieren, Transformieren und Laden), bei dem die Daten aus dem Quellsystem in Ihre technische Umgebung (DWH-Infrastruktur), die sogenannte "Staging Area", extrahiert werden. Nachdem Sie alle Daten aus dem Quellsystem extrahiert haben, integrieren Sie Ihre Daten in eine themenorientierte Struktur. Das Ergebnis ist eine Enterprise Data Warehouse (EDW) die Daten und Informationen darüber liefert, wie der Endnutzer sie benötigt.
Es gibt verschiedene Modellierungstechniken, um eine data warehouse zu erstellen. 3NF (third normal form) wurde von Bill Inmon erfunden und ist auch als Top-Down-Ansatz bekannt. Alternativ dazu ist die dimensionale Modellierung von Kimball mehr auf die Geschäftsprozesse ausgerichtet (Bottom-up-Ansatz). Data Vault 2.0 ist eine Mischung aus 3NF und dimensionaler Modellierung, die von Dan Linstedt erfunden wurde. Bei Scalefree haben wir uns auf Data Vault 2.0 spezialisiert.
Data Warehouse-Referenzarchitektur
Es gibt noch mehr!
Wenn nur dieser eine Aspekt eines EDW genutzt wird, verpassen die Benutzer Möglichkeiten, ihre Daten zu nutzen, indem sie das EDW auf solche grundlegenden Anwendungsfälle beschränken. Durch die Nutzung des data warehouse kann eine Vielzahl von Anwendungsfällen realisiert werden, z. B. die Optimierung und Automatisierung von Betriebsprozessen, die Vorhersage der Zukunft, die Rückführung von Daten in betriebliche Systeme als neuer Input oder die Auslösung von Ereignissen außerhalb des data warehouse, um nur einige der neuen Möglichkeiten zu nennen. Mehr lesen
Data Vault 2.0 Anwendungsfälle
Ein data warehouse ist ideal für die zentrale Speicherung aller internen und externen Datenquellen. Die Standardisierung von strukturierte, unstrukturierte und halbstrukturierte Daten ermöglicht ein schnelleres und zuverlässigeres Reporting. Die Historisierung ermöglicht zusätzliche Berichte und vergangene Berichte können jederzeit rekonstruiert werden. Mit der Flexibilität von Data Vault 2.0 können Unternehmen neue Funktionen nutzen, die über Standardberichte und Dashboarding hinausgehen.
Wenn Sie mehr über Data Vault 2.0 Use Cases und die neuesten Technologien auf dem Markt erfahren möchten, bieten wir Ihnen ein breites Spektrum an kostenlosem Wissen in unserem Blog/Newsletter und in Webinaren. Sie können sich gerne für regelmäßige Updates anmelden
- durch Tobias Triphan (Scalefree)
Updates und Support erhalten
Bitte senden Sie Anfragen und Funktionswünsche an [email protected].
Für Anfragen zu Data Vault-Schulungen und Schulungen vor Ort wenden Sie sich bitte an [email protected] oder registrieren Sie sich unter www.scalefree.com.
Zur Unterstützung bei der Erstellung von Visual Data Vault-Zeichnungen in Microsoft Visio wurde eine Schablone entwickelt, mit der Data Vault-Modelle gezeichnet werden können. Die Schablone ist erhältlich bei www.visualdatavault.com.
Newsletter
Jeden Monat neue Erkenntnisse über Data Vault