Echtzeit-Verarbeitung in Data Vault 2.0 auf Microsoft Azure

Data Vault 2.0 auf Microsoft Azure

In diesem Newsletter erhalten Sie einen Überblick darüber, was Echtzeitverarbeitung ist und welche Möglichkeiten sie Ihrer Data Vault 2.0-Implementierung bieten kann.

Echtzeit-Verarbeitung mit Data Vault 2.0 auf Azure

In diesem Webinar werden wir die neuen data warehouse-Anforderungen für Daten erörtern und Folgendes untersuchen
Real-Time processing. We’ll cover various Real-Time processing architectures for an initial overview. The second part focuses on Real-Time data architecture with Data Vault 2.0 and includes a brief overview of Microsoft Azure. You’ll also see a Real-Time processing implementation of Data Vault 2.0 in Azure. This webinar is for anyone new to Real-Time Data with Data Vault 2.0 and interested in an overview and implementation in Azure.

Webinar Teil 1 ansehen Webinar Teil 2 ansehen

In diesem Artikel:

Was zu erwarten ist
Der traditionelle Weg - Batch-Loading
Der neue Weg - Daten in Echtzeit
Verschiedene Arten von Echtzeitdaten
Implementing real-time processing
Using Microsoft Azure for real-time processing
Schlussfolgerung

Was zu erwarten ist

Sie werden lernen, dass die Echtzeitverarbeitung Ihnen die Möglichkeit gibt, schneller einen Mehrwert aus den Daten zu schaffen, die aktuellsten Daten in Ihren Berichtstools zu haben und genauere Entscheidungen in Bezug auf die Daten zu treffen.
So kann sich Ihr Unternehmen schneller an Marktveränderungen anpassen, da es die Entwicklungen anhand der neuesten Daten sofort erkennt.

Darüber hinaus können Sie Kosten sparen, wenn Sie vom Batch-Loading abrücken, weil die dafür normalerweise benötigte Spitzenleistung reduziert und gleichmäßiger über den Tag verteilt wird. Dies ist insbesondere bei der Nutzung von Cloud-Umgebungen der Fall, denn dann ist es möglich, zugesagte Umgebungen zu ersetzen und die benötigte Rechenleistung perfekt einzubringen.

Der traditionelle Weg - Batch-Loading

Das Stapelladen ist eine traditionelle Methode zum Laden von Daten in ein data warehouse-System in großen Stapeln, meist über Nacht. Die Daten aus den Datenquellen werden bis zu einem bestimmten Zeitpunkt in der Nacht geliefert, um umgewandelt und in die Kernschicht von data warehouse geladen zu werden.

Diese Methode führt über Nacht zu einem Spitzenwert bei der Datenverarbeitung, und die Unternehmen müssen ihre Infrastruktur anpassen, um den erwarteten Höchstwert der erforderlichen Rechenleistung bewältigen zu können.

Der neue Weg - Daten in Echtzeit

Echtzeitdaten werden sofort nach ihrer Erzeugung verarbeitet und zur Verfügung gestellt, anstatt über Nacht in Stapeln geladen zu werden. Bei der Verwendung von Echtzeitansätzen wird das Ladefenster auf 24 Stunden erweitert. Die Nachtspitze und ihre Nachteile fallen also weg.
When using real-time data, it’s always modeled as a nicht-historisierte Verbindung or as a satellite.

Mögliche Anwendungsfälle für Echtzeitdaten sind die Vitalüberwachung im Gesundheitsindustrie, Bestandsverfolgung, Nutzerverhalten in sozialen Medien oder Überwachung der Produktionslinie.

Verschiedene Arten von Echtzeitdaten

Es gibt verschiedene Arten von Echtzeitdaten, die sich danach richten, wie häufig die Daten geladen werden und wie dringend oder unmittelbar die Daten sind.

Nahezu Echtzeitdaten beziehen sich auf Daten, die mindestens alle fünfzehn Minuten in Mini-Batches geladen werden, wobei die Daten in einem Cache gespeichert werden, bis sie in die Datenbank geladen werden. Datenanalytik Plattform.
Bei Echtzeitdaten, auch Message Streaming genannt, wird jede einzelne Nachricht ohne Cache direkt in die Datenanalyseplattform geladen.
Diese Art von Echtzeitdaten ist nützlich, wenn es wichtig ist, dass die Daten sofort nach ihrer Erstellung für Dashboards oder weitere Analysen zur Verfügung stehen.

Die akzeptable Verarbeitungsverzögerung für Echtzeitdaten wird in der Regel durch die Folgen des Verpassens einer Frist definiert. Außerdem werden drei Arten von Echtzeitsystemen unterschieden: harte Echtzeit, weiche Echtzeit und feste Echtzeit.

Implementing real-time processing

Wie implementieren Sie also Echtzeit-Datenverarbeitung in Ihre data warehouse-Lösung? Dafür gibt es viele Architekturen, aber wir werden uns auf die Lambda- und Data Vault 2.0 Architektur.

Die Lambda-Architektur trennt die Datenverarbeitung in eine Geschwindigkeits- und eine Stapelverarbeitungsschicht. Die Geschwindigkeitsschicht verarbeitet Echtzeitnachrichten mit Schwerpunkt auf Geschwindigkeit und Durchsatz, während die Stapelschicht durch die Verarbeitung großer Datenmengen in regelmäßigen Stapeln für Genauigkeit und Vollständigkeit sorgt. Die Serving-Schicht integriert die Daten aus beiden Schichten zu Präsentationszwecken.

Auf den ersten Blick scheint die Data Vault 2.0-Architektur der Lambda-Architektur ähnlich zu sein, aber sie behandelt einige Aspekte anders. Die Lambda-Architektur weist aus Sicht von Data Vault 2.0 Probleme auf, z. B. die Implementierung einer einzigen Schicht in jedem Datenfluss und das Fehlen einer definierten Schicht für die Erfassung von unveränderten Rohdaten zu Prüfzwecken.

Die Data Vault 2.0-Architektur fügt der bestehenden stapelgesteuerten Architektur einen Echtzeit-Teil hinzu, der als "Message Streaming" bezeichnet wird, wobei mehrere Schichten zur Erfassung und Verarbeitung von Echtzeitdaten implementiert sind, die an mehreren Stellen in den stapelgesteuerten Fluss integriert werden. Die Nachrichten werden vom Herausgeber zum Teilnehmer weitergeleitet, in den Raw Data Vault geladen und in den Data Lake. Der Hauptprozess ist jedoch der Push innerhalb des Nachrichten-Streaming-Bereichs. Die Architektur ist in der Lage, Daten aus Batch-Feeds zu integrieren oder die Echtzeitdaten direkt in das Dashboard zu streamen.

Using Microsoft Azure for real-time processing

Microsoft Azure ist eine Cloud-Computing-Plattform und eine Reihe von Diensten, die von Microsoft angeboten werden. Es bietet eine Vielzahl von Diensten, darunter virtuelle Maschinen, Datenbanken, Analysen, Speicher und Netzwerke. Mit diesen Diensten können Sie Web- und Mobilanwendungen erstellen, umfangreiche Datenverarbeitungsaufgaben durchführen, Daten speichern und verwalten, Websites hosten und vieles mehr.

Die Abbildung beschreibt eine typische Echtzeit-Architektur, die von Scalefree-Beratern verwendet wird und die der konzeptionellen Data Vault 2.0-Architektur folgt.

Datenquellen liefern Daten entweder in Stapeln oder in Echtzeit. Diese werden in das Azure-System geladen. Data Lake oder vorher vom Event Hub akzeptiert werden. Der Raw Data Vault Loader trennt Geschäftsschlüssel, Beziehungen und beschreibenden Daten mit Stream Analytics und leitet die Nachricht an den Business Vault-Prozessor weiter. Der Business Vault-Prozessor wendet Transformations- und andere Geschäftsregeln an, um die Zielnachrichtenstruktur für die Nutzung durch die (Dashboarding-)Anwendung zu erstellen. Die Ergebnisse können in physische Tabellen im Business Vault auf Synapse geladen werden oder in Echtzeit ohne weitere Materialisierung in der Datenbank geliefert werden. Die Zielnachricht wird generiert und an die Echtzeit-Anwendung gesendet. Informationsmarkt Schicht, die durch einen Streaming-Datensatz implementiert wird, der von PowerBI genutzt wird. Der Cache des Dashboard-Dienstes läuft schnell ab, aber die Synapse-Datenbank hält alle Daten für andere Zwecke bereit, einschließlich strategischer, langfristiger Berichte.

Schlussfolgerung

Zusammenfassend lässt sich sagen, dass die Datenverarbeitung in Echtzeit zahlreiche Vorteile gegenüber den herkömmlichen Stapelverarbeitungsmethoden bietet, u. a. die Möglichkeit, schneller einen Mehrwert aus den Daten zu schaffen, über die aktuellsten Informationen in den Berichtstools zu verfügen und genauere Entscheidungen zu treffen. Indem sie sich schneller an Marktveränderungen anpassen, können Unternehmen der Konkurrenz einen Schritt voraus sein. Die Abkehr vom Batch-Laden kann auch Kosten sparen, da weniger Rechenleistung erforderlich ist.

Wie bereits erwähnt, zeigt die letzte Abbildung eine Architektur, die die Scalefree Consultants zur Nutzung von Echtzeitdaten implementiert haben.

Lesen Sie mehr in unserem kürzlich veröffentlichten Microsoft Blog Artikel.

Wie sind Ihre derzeitigen Erfahrungen mit der Echtzeit-Datenverarbeitung?
Denken Sie darüber nach, Ihr Data Vault auch durch die Nutzung von Echtzeitdaten in Schwung zu bringen?
Oder nutzen Sie es bereits und möchten es weiter verbessern?

Teilen Sie uns Ihre Meinung im Kommentarbereich mit!

- Deniz Polat (Scalefree)

Erste Schritte mit der Echtzeitverarbeitung in Data Vault 2.0 auf Microsoft Azure

Data Vault 2.0 auf Microsoft Azure

Echtzeit-Verarbeitung mit Data Vault 2.0 auf Azure

Was zu erwarten ist

Der traditionelle Weg - Batch-Loading

Der neue Weg - Daten in Echtzeit

Verschiedene Arten von Echtzeitdaten

Implementing real-time processing

Using Microsoft Azure for real-time processing

Schlussfolgerung

Build your path to a scalable and resilient Data Platform

Abonnieren Sie unseren
kostenlosen monatlichen Newsletter

Eine Antwort hinterlassen Antwort abbrechen

Abonnieren Sie unseren
kostenlosen monatlichen Newsletter

LÖSUNGEN

AUSBILDUNGEN

VERANSTALTUNGEN

KNOWLEDGE HUB

KARRIERE

UNTERNEHMEN

Erste Schritte mit der Echtzeitverarbeitung in Data Vault 2.0 auf Microsoft Azure

Data Vault 2.0 auf Microsoft Azure

Echtzeit-Verarbeitung mit Data Vault 2.0 auf Azure

Was zu erwarten ist

Der traditionelle Weg - Batch-Loading

Der neue Weg - Daten in Echtzeit

Verschiedene Arten von Echtzeitdaten

Implementing real-time processing

Using Microsoft Azure for real-time processing

Schlussfolgerung

Build your path to a scalable and resilient Data Platform

Abonnieren Sie unseren kostenlosen monatlichen Newsletter

Das könnte Ihnen auch gefallen

Wie man Daten aus dem Data Vault abruft

Bewältigung von Data Warehousing-Herausforderungen mit Data Vault 2.0

Master Data Governance: Verstehen Sie den EU Data Act

Eine Antwort hinterlassen Antwort abbrechen

Abonnieren Sie unseren kostenlosen monatlichen Newsletter

LÖSUNGEN

AUSBILDUNGEN

VERANSTALTUNGEN

KNOWLEDGE HUB

KARRIERE

UNTERNEHMEN

Abonnieren Sie unseren
kostenlosen monatlichen Newsletter

Abonnieren Sie unseren
kostenlosen monatlichen Newsletter