Data Vault 2.0 on Microsoft Azure
In diesem Newsletter erhalten Sie einen Überblick darüber, was Echtzeitverarbeitung ist und welche Möglichkeiten sie Ihrer Data Vault 2.0-Implementierung bieten kann.
Echtzeit-Verarbeitung mit Data Vault 2.0 auf Azure
In this webinar, we’ll discuss the new data warehouse requirements for data and explore
Real-Time data processing. We’ll cover various Real-Time architectures for an initial overview. The second part focuses on Real-Time data architecture with Data Vault 2.0 and includes a brief overview of Microsoft Azure. You’ll also see a Real-Time implementation of Data Vault 2.0 in Azure. This webinar is for anyone new to Real-Time Data with Data Vault 2.0 and interested in an overview and implementation in Azure.
Was zu erwarten ist
Sie werden lernen, dass die Echtzeitverarbeitung Ihnen die Möglichkeit gibt, schneller einen Mehrwert aus den Daten zu schaffen, die aktuellsten Daten in Ihren Berichtstools zu haben und genauere Entscheidungen in Bezug auf die Daten zu treffen.
So kann sich Ihr Unternehmen schneller an Marktveränderungen anpassen, da es die Entwicklungen anhand der neuesten Daten sofort erkennt.
Darüber hinaus können Sie Kosten sparen, wenn Sie vom Batch-Loading abrücken, weil die dafür normalerweise benötigte Spitzenleistung reduziert und gleichmäßiger über den Tag verteilt wird. Dies ist insbesondere bei der Nutzung von Cloud-Umgebungen der Fall, denn dann ist es möglich, zugesagte Umgebungen zu ersetzen und die benötigte Rechenleistung perfekt einzubringen.
Der traditionelle Weg - Batch-Loading
Das Stapelladen ist eine traditionelle Methode zum Laden von Daten in ein data warehouse-System in großen Stapeln, meist über Nacht. Die Daten aus den Datenquellen werden bis zu einem bestimmten Zeitpunkt in der Nacht geliefert, um umgewandelt und in die Kernschicht von data warehouse geladen zu werden.
Diese Methode führt über Nacht zu einem Spitzenwert bei der Datenverarbeitung, und die Unternehmen müssen ihre Infrastruktur anpassen, um den erwarteten Höchstwert der erforderlichen Rechenleistung bewältigen zu können.
Der neue Weg - Daten in Echtzeit
Echtzeitdaten werden sofort nach ihrer Erzeugung verarbeitet und zur Verfügung gestellt, anstatt über Nacht in Stapeln geladen zu werden. Bei der Verwendung von Echtzeitansätzen wird das Ladefenster auf 24 Stunden erweitert. Die Nachtspitze und ihre Nachteile fallen also weg.
Bei der Verwendung von Echtzeitdaten wird diese immer als nicht-historisierte Verbindung oder als Satellit modelliert.
Mögliche Anwendungsfälle für Echtzeitdaten sind die Vitalüberwachung im Gesundheitsindustrie, Bestandsverfolgung, Nutzerverhalten in sozialen Medien oder Überwachung der Produktionslinie.
Verschiedene Arten von Echtzeitdaten
Es gibt verschiedene Arten von Echtzeitdaten, die sich danach richten, wie häufig die Daten geladen werden und wie dringend oder unmittelbar die Daten sind.
Nahezu Echtzeitdaten beziehen sich auf Daten, die mindestens alle fünfzehn Minuten in Mini-Batches geladen werden, wobei die Daten in einem Cache gespeichert werden, bis sie in die Datenbank geladen werden. Datenanalytik Plattform.
Bei Echtzeitdaten, auch Message Streaming genannt, wird jede einzelne Nachricht ohne Cache direkt in die Datenanalyseplattform geladen.
Diese Art von Echtzeitdaten ist nützlich, wenn es wichtig ist, dass die Daten sofort nach ihrer Erstellung für Dashboards oder weitere Analysen zur Verfügung stehen.
Die akzeptable Verarbeitungsverzögerung für Echtzeitdaten wird in der Regel durch die Folgen des Verpassens einer Frist definiert. Außerdem werden drei Arten von Echtzeitsystemen unterschieden: harte Echtzeit, weiche Echtzeit und feste Echtzeit.
Implementierung von Echtzeitdaten
Wie implementieren Sie also Echtzeit-Datenverarbeitung in Ihre data warehouse-Lösung? Dafür gibt es viele Architekturen, aber wir werden uns auf die Lambda- und Data Vault 2.0 Architektur.
Die Lambda-Architektur trennt die Datenverarbeitung in eine Geschwindigkeits- und eine Stapelverarbeitungsschicht. Die Geschwindigkeitsschicht verarbeitet Echtzeitnachrichten mit Schwerpunkt auf Geschwindigkeit und Durchsatz, während die Stapelschicht durch die Verarbeitung großer Datenmengen in regelmäßigen Stapeln für Genauigkeit und Vollständigkeit sorgt. Die Serving-Schicht integriert die Daten aus beiden Schichten zu Präsentationszwecken.
Auf den ersten Blick scheint die Data Vault 2.0-Architektur der Lambda-Architektur ähnlich zu sein, aber sie behandelt einige Aspekte anders. Die Lambda-Architektur weist aus Sicht von Data Vault 2.0 Probleme auf, z. B. die Implementierung einer einzigen Schicht in jedem Datenfluss und das Fehlen einer definierten Schicht für die Erfassung von unveränderten Rohdaten zu Prüfzwecken.
Die Data Vault 2.0-Architektur fügt der bestehenden stapelgesteuerten Architektur einen Echtzeit-Teil hinzu, der als "Message Streaming" bezeichnet wird, wobei mehrere Schichten zur Erfassung und Verarbeitung von Echtzeitdaten implementiert sind, die an mehreren Stellen in den stapelgesteuerten Fluss integriert werden. Die Nachrichten werden vom Herausgeber zum Teilnehmer weitergeleitet, in den Raw Data Vault geladen und in den Data Lake. Der Hauptprozess ist jedoch der Push innerhalb des Nachrichten-Streaming-Bereichs. Die Architektur ist in der Lage, Daten aus Batch-Feeds zu integrieren oder die Echtzeitdaten direkt in das Dashboard zu streamen.
Nutzung von Microsoft Azure für Echtzeitdaten
Microsoft Azure ist eine Cloud-Computing-Plattform und eine Reihe von Diensten, die von Microsoft angeboten werden. Es bietet eine Vielzahl von Diensten, darunter virtuelle Maschinen, Datenbanken, Analysen, Speicher und Netzwerke. Mit diesen Diensten können Sie Web- und Mobilanwendungen erstellen, umfangreiche Datenverarbeitungsaufgaben durchführen, Daten speichern und verwalten, Websites hosten und vieles mehr.
Die Abbildung beschreibt eine typische Echtzeit-Architektur, die von Scalefree-Beratern verwendet wird und die der konzeptionellen Data Vault 2.0-Architektur folgt.
Datenquellen liefern Daten entweder in Stapeln oder in Echtzeit. Diese werden in das Azure-System geladen. Data Lake oder vorher vom Event Hub akzeptiert werden. Der Raw Data Vault Loader trennt Geschäftsschlüssel, Beziehungen und beschreibende Daten mit Stream Analytics und leitet die Nachricht an den Business Vault-Prozessor weiter. Der Business Vault-Prozessor wendet Transformations- und andere Geschäftsregeln an, um die Zielnachrichtenstruktur für die Nutzung durch die (Dashboarding-)Anwendung zu erstellen. Die Ergebnisse können in physische Tabellen im Business Vault auf Synapse geladen werden oder in Echtzeit ohne weitere Materialisierung in der Datenbank geliefert werden. Die Zielnachricht wird generiert und an die Echtzeit-Anwendung gesendet. Informationsmarkt Schicht, die durch einen Streaming-Datensatz implementiert wird, der von PowerBI genutzt wird. Der Cache des Dashboard-Dienstes läuft schnell ab, aber die Synapse-Datenbank hält alle Daten für andere Zwecke bereit, einschließlich strategischer, langfristiger Berichte.
Schlussfolgerung und Ausblick
Zusammenfassend lässt sich sagen, dass die Datenverarbeitung in Echtzeit zahlreiche Vorteile gegenüber den herkömmlichen Stapelverarbeitungsmethoden bietet, u. a. die Möglichkeit, schneller einen Mehrwert aus den Daten zu schaffen, über die aktuellsten Informationen in den Berichtstools zu verfügen und genauere Entscheidungen zu treffen. Indem sie sich schneller an Marktveränderungen anpassen, können Unternehmen der Konkurrenz einen Schritt voraus sein. Die Abkehr vom Batch-Laden kann auch Kosten sparen, da weniger Rechenleistung erforderlich ist.
Wie bereits erwähnt, zeigt die letzte Abbildung eine Architektur, die die Scalefree Consultants zur Nutzung von Echtzeitdaten implementiert haben.
Lesen Sie mehr in unserem kürzlich veröffentlichten Microsoft Blog Artikel.
Wie sind Ihre derzeitigen Erfahrungen mit der Echtzeit-Datenverarbeitung?
Denken Sie darüber nach, Ihr Data Vault auch durch die Nutzung von Echtzeitdaten in Schwung zu bringen?
Oder nutzen Sie es bereits und möchten es weiter verbessern?
Teilen Sie uns Ihre Meinung im Kommentarbereich mit!
- Deniz Polat (Scalefree)
Updates und Support erhalten
Bitte senden Sie Anfragen und Funktionswünsche an [email protected].
Für Anfragen zu Data Vault-Schulungen und Schulungen vor Ort wenden Sie sich bitte an [email protected] oder registrieren Sie sich unter www.scalefree.com.
Zur Unterstützung bei der Erstellung von Visual Data Vault-Zeichnungen in Microsoft Visio wurde eine Schablone entwickelt, mit der Data Vault-Modelle gezeichnet werden können. Die Schablone ist erhältlich bei www.visualdatavault.com.