Das Video ansehen
Lernen der Data Vault-Muster mit Azure Synapse
Wenn es um die Verwaltung komplexer, sich entwickelnder Datenlandschaften geht, ist die Implementierung einer Data Vault-Architektur eine beliebte Wahl. Der Data Vault-Ansatz ist besonders hilfreich bei der Verarbeitung großer Datenmengen unter Beibehaltung von Flexibilität, Skalierbarkeit und historischer Verfolgung. Kürzlich wurde eine Frage bezüglich der Verwendung von Azure Synapse Analytics mit Data Vault für die anfängliche Raw Data Vault-Entwicklung ohne ein fertiges Automatisierungstool gestellt. Die Frage lautete insbesondere: Ist es machbar, die Entwicklung mit Synapse Notebooks unter Verwendung von PySpark und Delta Lake zu beginnen?
In diesem Artikel wird die Antwort auf diese Frage untersucht und es werden die wichtigsten Überlegungen, Best Practices und Strategien vorgestellt, um das Beste aus einer manuellen Einrichtung herauszuholen und gleichzeitig eine eventuelle Automatisierung Ihrer Data Vault-Implementierung vorzubereiten.
In diesem Artikel:
- Ist es machbar, Data Vault mit PySpark und Delta Lake zu starten?
- Vorteile des manuellen Starts mit Synapse, PySpark und Delta Lake
- Die Nachteile eines manuellen Ansatzes
- Schritte zur Optimierung Ihres manuellen Entwicklungsprozesses
- Vorbereitungen für die Automatisierung: Was zu beachten ist
- Vorwärts bewegen: Umstellung auf Automatisierung
- Abschließende Überlegungen
- Treffen mit dem Sprecher
Ist es machbar, Data Vault mit PySpark und Delta Lake zu starten?
Die kurze Antwort lautet: Ja - mit Synapse Notebooks, PySpark und Delta Lake zu beginnen, ist in der Tat eine realisierbare Option. In der Tat kann dieser manuelle Ansatz eine hervorragende Möglichkeit sein, Ihr Team mit Data Vault-Konzepten, -Mustern und -Methoden vertraut zu machen, bevor Sie sich für ein Automatisierungstool entscheiden. Durch die manuelle Erstellung von Raw Data Vault kann Ihr Team praktische Erfahrungen mit wichtigen Prozessen sammeln, was den Übergang zur Automatisierung später reibungsloser und effektiver macht.
In der Vergangenheit begannen viele Data Vault-Praktiker aufgrund der begrenzten Automatisierungstools mit der manuellen Skripterstellung. Mit der Zeit wurde diese "manuelle Methode" zu einer nützlichen Methode, um die komplizierten Muster von Data Vault zu erlernen. Heutzutage gibt es zahlreiche Automatisierungstools für Data Vault, deren Einsatz im Allgemeinen effizienter ist, aber es gibt immer noch einen Platz für manuelle Methoden, insbesondere in den frühen Lernphasen eines Projekts. Sehen wir uns genauer an, warum dieser Ansatz funktioniert und was bei der manuellen Arbeit zu beachten ist.
Vorteile des manuellen Starts mit Synapse, PySpark und Delta Lake
Die Verwendung von PySpark und Delta Lake in Azure Synapse Notebooks gibt Ihrem Team die nötige Flexibilität:
- Lernen Sie grundlegende Data Vault-Muster: Die manuelle Erstellung von Raw Data Vault hilft dem Team, Data Vault-Konzepte wie Hubs, Links und Satellites zu verstehen. Dies ist ein entscheidendes Wissen, von dem das Projekt langfristig profitieren wird.
- Experimentieren Sie mit der Modellierung: Wenn Sie ohne Automatisierung arbeiten, können Sie Ihren Ansatz verfeinern und verschiedene Entwurfsmuster testen. Dies ist besonders hilfreich, um eine Grundlage zu schaffen, die auf die spezifischen Anforderungen und Datensätze Ihres Unternehmens zugeschnitten ist.
- Verstehen von Datenumwandlung und -eingabe: Durch die manuelle Erstellung von Skripten für die Datenumwandlung und -eingabe kann Ihr Team die Prozesse besser verstehen, die ein Automatisierungstool übernehmen würde. Dies hilft bei der späteren Konfiguration der Automatisierung und bei der Behebung von Problemen, die auftreten.
- Validierung von Anforderungen und Mustern: Da noch kein Tool ausgewählt wurde, ermöglicht Ihnen die manuelle Arbeit einen Vorsprung bei der Modellierung und Bestätigung Ihrer geschäftlichen und technischen Anforderungen in einem frühen Stadium des Projekts.
Die Nachteile eines manuellen Ansatzes
Der manuelle Start hat zwar seine Vorteile, aber es ist wichtig, sich der Grenzen bewusst zu sein. Die Hauptnachteile eines manuellen Ansatzes sind:
- Zeit und Aufwand: Die manuelle Entwicklung des Raw Data Vault ist zeitaufwändig. Jeder Prozess, von der Erstellung von Hubs bis zur Verfolgung von Satelliten, erfordert sorgfältige Aufmerksamkeit, um sicherzustellen, dass das Design mit den Data Vault-Standards übereinstimmt.
- Begrenzte Skalierbarkeit: Eine manuelle Einrichtung ist schwierig zu skalieren, insbesondere wenn das Datenvolumen wächst. PySpark und Delta Lake sind zwar leistungsstarke Tools, aber kein Ersatz für die Skalierbarkeit, die Automatisierungstools bieten.
- Risiko der technischen Verschuldung: Manuell entwickelte Skripte sind möglicherweise nicht so wartbar oder wiederverwendbar wie die von Automatisierungswerkzeugen generierten Vorlagen. Wenn das Team zu viel Zeit mit der Pflege manueller Skripte verbringt, können sich technische Schulden ansammeln, und der Übergang zur Automatisierung könnte später umfangreiche Nacharbeiten erfordern.
Schritte zur Optimierung Ihres manuellen Entwicklungsprozesses
Wenn Sie sich für diesen manuellen Ansatz entscheiden, finden Sie hier einige Strategien, um den Prozess effizienter zu gestalten und eine Grundlage für einen zukünftigen Übergang zur Automatisierung zu schaffen:
- Dokumentieren Sie Ihre Patterns gründlich: Machen Sie detaillierte Notizen zu den spezifischen Entwurfsmustern, Skripten und Modellen, die Sie manuell entwickeln. Diese können als Vorlagen dienen, wenn Sie zur Automatisierung übergehen, was den Übergang erheblich erleichtert.
- Definition klarer Modellierungsstandards: Legen Sie einheitliche Modellierungsverfahren für Hubs, Links und Satelliten fest. Dadurch wird die Mehrdeutigkeit reduziert und eine strukturierte Grundlage für Automatisierungswerkzeuge geschaffen, auf die später aufgebaut werden kann.
- Verfeinern und iterieren: Da Sie manuell erstellen, sollten Sie diese Zeit nutzen, um Ihre Modelle zu verfeinern. Passen Sie sie an und verbessern Sie sie auf der Grundlage der einzigartigen Datenflüsse und Bedürfnisse Ihres Unternehmens.
- Konzentrieren Sie sich auf die wichtigsten Entitäten: Priorisieren Sie den Aufbau von Kern-Hubs und -Links in Ihrem Raw Data Vault und konzentrieren Sie sich auf die Entitäten, die für Ihr Unternehmen am wichtigsten sind. So schaffen Sie eine solide Grundlage, die im Zuge der Automatisierung erweitert werden kann.
Vorbereitungen für die Automatisierung: Was zu beachten ist
Auch wenn Sie manuell beginnen, sollten Sie das Ziel der Automatisierung im Auge behalten. Heutzutage gibt es zahlreiche Data Vault-Automatisierungstools, jedes mit seinen eigenen Stärken und Schwächen. Bei der Vorbereitung auf diese Umstellung sollten Sie einige wichtige Überlegungen anstellen:
1. Tools zur Forschungsautomatisierung
Informieren Sie sich über die verschiedenen Automatisierungstools, die auf dem Markt erhältlich sind. Jedes Tool hat seinen eigenen Ansatz, seine eigene Schnittstelle und seine eigenen Funktionen. Daher ist es wichtig, ein Tool zu wählen, das den technischen Anforderungen, dem Budget und der Dateninfrastruktur Ihres Unternehmens entspricht. Einige Tools konzentrieren sich auf die Zugänglichkeit für Geschäftsanwender, während andere eher technische Konfigurationen anbieten. Zu den gängigen Tools für die Data Vault-Automatisierung in Azure gehören Lösungen, die speziell für Synapse entwickelt wurden, oder solche, die PySpark und Delta Lake unterstützen.
2. Wählen Sie Tools mit Skalierbarkeit
Achten Sie bei der Auswahl eines Tools darauf, wie es mit der Skalierbarkeit umgeht, da dies für die Unterstützung des wachsenden Datenvolumens in einem Data Vault entscheidend ist. Einige Automatisierungstools können die Skalierbarkeit besser handhaben als andere, je nachdem, wie sie Hubs, Links und Satelliten verwalten. Bei Azure Synapse ist es auch wichtig, die Kompatibilität mit Delta Lake und PySpark sowie die Gesamtintegration mit dem Azure-Datenökosystem zu bewerten.
3. Berücksichtigung von Werkzeugbeschränkungen
Auch die besten Automatisierungswerkzeuge haben ihre Grenzen. Seien Sie darauf vorbereitet, Ihren Ansatz an die Fähigkeiten des gewählten Tools anzupassen. Einige Tools können beispielsweise bestimmte Muster einschränken, wie z. B. komplexe Satellites oder multiaktive Beziehungen. Wenn Sie sich über diese Einschränkungen im Klaren sind, können Sie Nacharbeit vermeiden und sicherstellen, dass Ihre anfängliche manuelle Entwicklung gut mit dem ausgewählten Tool harmoniert.
4. Fokus auf Konfigurierbarkeit und Anpassung
Vergewissern Sie sich, dass das von Ihnen gewählte Tool ein gewisses Maß an Anpassungsmöglichkeiten bietet. Dies ist wichtig, da die von Ihnen manuell entwickelten Muster möglicherweise innerhalb des Tools feinabgestimmt oder angepasst werden müssen. Achten Sie auf Tools, die konfigurierbare Vorlagen, anpassbare Schnittstellen und Unterstützung für Anpassungen an die spezifischen Anforderungen Ihres Unternehmens bieten.
Vorwärts bewegen: Umstellung auf Automatisierung
Nachdem Ihr Team durch die manuelle Entwicklung mit den Data Vault-Mustern vertraut geworden ist, besteht der nächste Schritt in der Auswahl und Implementierung eines Automatisierungstools. Während die manuelle Arbeit ein tiefes Verständnis der Data Vault-Muster vermittelt, rationalisiert ein Automatisierungstool sich wiederholende Prozesse, gewährleistet Konsistenz und spart bei wachsendem Datenvolumen viel Zeit und Mühe.
Ein empfehlenswerter Ansatz besteht darin, die bei der manuellen Entwicklung gewonnenen Erkenntnisse zu nutzen, um maßgeschneiderte Vorlagen und Arbeitsabläufe in dem von Ihnen gewählten Tool zu erstellen. Auf diese Weise können Sie die Funktionen des Automatisierungswerkzeugs auf der Grundlage der Muster, die Sie bereits getestet und verfeinert haben, optimieren. Dies sorgt für einen reibungsloseren und effektiveren Übergang von der manuellen Entwicklung zu automatisierten Workflows.
Abschließende Überlegungen
Die manuelle Entwicklung von Data Vault mit Synapse Notebooks, PySpark und Delta Lake ist ein gangbarer und oft vorteilhafter Ansatz, vor allem, wenn die Automatisierungstools noch nicht fertiggestellt sind. Diese Methode ist zwar zeit- und arbeitsaufwändig, bietet aber wertvolle Einblicke und ermöglicht es Ihrem Team, Data Vault-Muster zu erlernen und zu optimieren, bevor es sich für ein Automatisierungstool entscheidet.
Denken Sie daran, dass das Ziel darin besteht, in dieser manuellen Phase eine solide Grundlage zu schaffen, Modellierungsmöglichkeiten zu erkunden und bewährte Verfahren festzulegen. Wenn es an der Zeit ist, ein Automatisierungstool auszuwählen, wird Ihr Team gut vorbereitet sein, um das volle Potenzial zu nutzen und eine skalierbare und effiziente Data Vault-Implementierung innerhalb von Azure Synapse Analytics zu gewährleisten.
Treffen mit dem Sprecher
Michael Olschimke
Michael hat mehr als 15 Jahre Erfahrung in der Informationstechnologie. In den letzten acht Jahren hat er sich auf Business Intelligence Themen wie OLAP, Dimensional Modelling und Data Mining spezialisiert. Fordern Sie ihn mit Ihren Fragen heraus!