In unserem vergangener Blogeintraghaben wir ein Open-Source-Framework für ELT-Prozesse namens Singer vorgestellt. Dieses Framework kann mit einem anderen Open-Source-Tool verpackt werden, das Singer um weitere interessante Funktionen wie Installation, Einrichtung von Umgebungen, Überwachung, Planung und Orchestrierung ergänzt. Bei der Scalefree haben wir alle unsere ELT-Pipelines in dieses Framework auf AWS verschoben und sind mit den Ergebnissen zufrieden.
Bitte beachten Sie, dass es eine große Anzahl von Plattformen für die Verwaltung der Datenintegration gibt, aber es fehlt an robusten und einfach zu verwendenden, kostenlosen Open-Source-Lösungen. Das Meltano-Projekt zielt darauf ab, eine Lösung für diese Situation zu bieten. Meltano ist eine vollständige Datenintegrationsplattform, die die etabliertesten Akteure im Datenbereich herausfordert. Meltano baut auf den besten Open-Source-Tools für die Datenintegration auf und verbindet sie mit den besten DataOps-Verfahren.
Meltano ist der einfachste Weg, um ELT-Pipelines zu erstellen, auszuführen und zu orchestrieren, die aus Singer-Taps, Targets und dbt-Modelle. Es ist quelloffen, wird selbst gehostet und ist versionskontrolliert sowie containerisiert.
Dank des Open-Source-Modells von Meltano können Sie es leicht an Ihre eigenen Bedürfnisse anpassen und die Kosten senken.
Was ist eine ELT-Rohrleitung?
ELT steht für "Extrahieren, Laden und Transformieren" - die Prozesse, die eine Datenpipeline verwendet, um Daten aus einem Quellsystem in ein Zielsystem wie eine Cloud data warehouse zu replizieren.
- Auszug: In diesem ersten Schritt werden die Daten aus dem Quellsystem kopiert.
- Laden: Während des Ladeschrittes repliziert die Pipeline Daten aus der Quelle in das Zielsystem, das möglicherweise ein data warehouse oder Datensee.
- Umwandlung: Sobald sich die Daten im Zielsystem befinden, können die Unternehmen die gewünschten Umwandlungen vornehmen. Häufig wandeln Unternehmen Rohdaten auf unterschiedliche Weise um, um sie mit verschiedenen Tools oder Geschäftsprozessen zu nutzen.
ELT bietet eine moderne Alternative zu ETL. Anstatt die Daten vor dem Schreiben zu transformieren, nutzt ELT das Zielsystem, um die Transformation durchzuführen. Die Daten werden in das Zielsystem kopiert und dann vor Ort transformiert.
Was ist Meltano?
Meltano ist eine selbst gehostete ELT-Lösung, die von GitLab entwickelt wurde. Ursprünglich für die interne Nutzung durch das GitLab-Datenteam entwickelt, wurde Meltano schnell wuchs zu einer unabhängigen Einheit heran als das Team feststellte, dass viele Organisationen mit denselben Problemen konfrontiert waren, die Meltano zu lösen beabsichtigte.
Meltano hat es sich zur Aufgabe gemacht, jede Organisation in die Lage zu versetzen, die bestmöglichen Entscheidungen zu treffen, indem sie datengestützt arbeitet. Um dieses Ziel zu erreichen, hat das Unternehmen eine Open-Source-Plattform für den gesamten DataOps-Lebenszyklus entwickelt. Sie integriert erstklassige Open-Source-Komponenten und ermöglicht Teams eine effizientere und zuverlässigere Zusammenarbeit bei Datenprojekten und Pipelines.
Meltano ist ELT für das DataOps-Zeitalter:
- Open-Source
- Selbst gehostet
- CLI-first
- Debuggingfähig
- Erweiterbar
Meltano ist modular aufgebaut und kombiniert Open-Source-Tools wie Sängerin und dbt.
Sie können lokal entwickeln und testen, bevor Sie mit dem Orchestrator Ihrer Wahl oder mit der integrierten Airflow-Integration in die Produktion einsteigen.
Nicht "alles oder nichts": Schrittweise Einführung wird gefördert
Meltano fasst verschiedene Tools in einem einzigen Projekt-Repository zusammen:
- Extrahieren & Laden: Sängerin
- Verwandeln: dbt
- Prüfung: dbt-Test (demnächst: Great Expectations)
- Inszenierung: Luftstrom (eingebaut) (auch: Dagster, Prefect und mehr)
Analyse: Meltano UI (bald: Jupyter, Superset)
Umarmung von Singer
Meltano hat sich Singer zu eigen gemacht und bietet einen klaren Weg zur Produktion mit bestehenden Singer Taps und Targets, wo es vorher keinen gab. Meltano unterstützt jeden Singer-Tap und jedes Target und bietet damit die Möglichkeit, eine unglaubliche Anzahl von Integrationen für Quellsysteme zu nutzen.
Sie haben die MeltanoHub für Singer, der einzige zentrale Ort, um Singer-Taps und -Ziele zu finden. Dies ist das Singer-Äquivalent zu PyPi oder Docker Hub. Zu diesem Zeitpunkt gibt es 290 Quellsysteme, zapftsind bereits aufgelistet.
Meltanos ELT-Rohrleitungen
Da die Pipelines in Meltano Code sind, können Sie jedes moderne Softwareentwicklungsprinzip anwenden. Außerdem sind sie bereit für Versionskontrolle, Containerisierung und kontinuierliche Entwicklung.
Meltano sorgt dafür, dass alles "einfach funktioniert":
- Installiert Wasserhähne und Zielscheiben
- Verwaltet die Speicherung von Anmeldeinformationen
- Orchestriert den Datenaustausch zwischen Zapfstellen und Zielen
- Auslöser dbt zur Transformation Ihrer Daten
- und vieles mehr
Schreiben Sie Ihren eigenen Hahn oder Ihr eigenes Ziel
Mit Melatno ist es recht einfach, einen Tap für eine neue Datenquelle zu schreiben. Die SDK für Singer Taps und Targets ermöglicht es Entwicklern, ihre eigenen Konnektoren zu erstellen, ohne ein Experte für die Spezifikationen sein zu müssen.
Ausblick
Nachdem wir uns nun einen Überblick über Meltano und seine Vorteile verschafft haben, fragen Sie sich vielleicht, ob es wirklich so funktioniert. Deshalb werden wir im nächsten Newsletter eine komplette Datenpipeline in Meltano als Beispiel aufbauen.
Vergessen Sie also nicht, sich für unseren Newsletter anzumelden, wenn Sie es noch nicht getan haben, und verpassen Sie nicht die Gelegenheit, Ihre ELT-Prozesse zu verbessern.
-von Ole Bause (Scalefree)
Updates und Support erhalten
Bitte senden Sie Anfragen und Funktionswünsche an [email protected].
Für Anfragen zu Data Vault-Schulungen und Schulungen vor Ort wenden Sie sich bitte an [email protected] oder registrieren Sie sich unter www.scalefree.com.
Um die Erstellung von Visual Data Vault-Zeichnungen in Microsoft Visio zu unterstützen, wurde eine Schablone implementiert, die zum Zeichnen von Data Vault-Modellen verwendet werden kann. Die Schablone ist erhältlich bei www.visualdatavault.com.