Heutige Unternehmen erhalten und verarbeiten Daten aus einer Vielzahl von Quellen, einschließlich Silos, die von Web- und mobilen Anwendungen, sozialen Medien, Lösungen für künstliche Intelligenz sowie IoT-Sensoren generiert werden. Die effiziente Verarbeitung dieser Daten in großem Umfang in einem Unternehmen ist jedoch für viele Organisationen immer noch eine Herausforderung.
Zu den typischen Herausforderungen gehören Themen wie die Integration von Mainframe-Daten mit Echtzeit-IoT-Nachrichten und hierarchischen Dokumenten.
Eines dieser Probleme besteht darin, dass die Unternehmensdaten nicht sauber sind und möglicherweise widersprüchliche Merkmale und Interpretationen aufweisen. Dies stellt eine Herausforderung für viele Prozesse dar, z. B. bei der Integration von Kunden aus verschiedenen Quellsystemen.
Die Datenbereinigung könnte jedoch als Lösung für dieses Problem in Betracht gezogen werden. Was aber, wenn auf den eingehenden Datensatz unterschiedliche Datenbereinigungsregeln angewendet werden sollen? Zum Beispiel, weil die Grundvoraussetzung für "eine einzige Version der Wahrheit" in den meisten Unternehmen nicht gegeben ist. Während eine Abteilung eine klare Vorstellung davon hat, wie die eingehenden Daten zu bereinigen sind, kann eine andere Abteilung oder eine externe Partei eine andere Auffassung haben.
Es ist zwar wünschenswert, nur eine Geschäftsregel zur Datenbereinigung zu haben, aber in einem Unternehmen sind die Umstände viel komplexer. Denken Sie nur an unterschiedliche Steuergesetze und andere Vorschriften, an führende oder sekundäre Quellensysteme, die vom Kontext des Berichts abhängen, an externe Parteien wie staatliche oder branchenspezifische Aufsichtsbehörden, die sich nicht um interne Definitionen scheren, und so weiter.
Zu den weiteren Herausforderungen heutiger Unternehmen gehören die Überprüfbarkeit der Datenverarbeitung, die GDPR einschließlich der Herausforderungen in Bezug auf Sicherheit und Datenschutz wie das Recht auf Vergessenwerden. Andere Organisationen kämpfen mit der Bereitstellung von Daten in brauchbaren Formaten für Anwendungen und analytische Ansätze wie Data Mining. Darüber hinaus ist die Migration in die Cloud, oder zumindest deren Nutzung, für viele Unternehmen ein verwirrendes Thema.
Hinzu kommt, dass das Datenvolumen steigt und einige Branchen mit einem massiven Datenwachstum konfrontiert sind. Hinzu kommt, dass die zu verarbeitenden Daten immer flüchtiger und komplexer werden. Der Umgang mit strukturierten, Halbstrukturierte und polymorphe Daten werden für die meisten, wenn nicht sogar für alle Datenexperten zur täglichen Arbeit. Selbst strukturierte Daten werden durch komplexere Datentypen wie tabellenartige Strukturen, Schlüssel-Wert-Paare, Text, Geodaten und die bei der Graphenverarbeitung verwendeten Knoten und Kanten komplexer.
Dieser Artikel bildet den Auftakt zu einer Reihe von Artikeln, die eine Lösung für die meisten dieser Herausforderungen sowie für weitere Herausforderungen, die wir im Bereich der Unternehmen data warehousing die sich mit der Komplexität von Unternehmensdaten befassen, wie z. B. sich ständig ändernde Schemata in Quellen, einschließlich neuer oder geänderter Attribute; schwierige Schemata zusätzlich zu Datenmigrationsprojekten unter Einbeziehung der unpopulären Tatsache, dass Quelldaten typischerweise nicht dem Zielschema in einem analytischen Projekt folgen.
Die versprochene Lösung basiert auf einem Ansatz, der diese Herausforderungen überwindet und es Unternehmen ermöglicht, Erkenntnisse aus riesigen Mengen komplexer und sich verändernder Dokumentenstrukturen zu gewinnen. Es folgt dem Data Vault 2.0-System von Business Intelligence Dies ist ein beliebter Ansatz für den Aufbau von Enterprise data warehouse (EDW)-Lösungen auf der Grundlage relationaler Datenbanken und zunehmend auch auf der Grundlage von NoSQL-Datenbanken sowie Data Lakes.
Bei diesem Ansatz wird zwischen der Integration von Rohdaten und der Bereitstellung nützlicher und umsetzbarer Informationen unterschieden.
Die Grundidee besteht darin, Daten und Dokumente zunächst in kleinere Komponenten zu zerlegen, diese effizient zu integrieren und zu speichern, um sie später wieder in das gewünschte Zielformat zusammenzufügen. Dieser Ansatz wird häufig auf Beziehungen angewandt, die in relationalen Datenbanken oder ähnlichen Technologien verarbeitet werden, wie z. B. Bienenstockkann aber auch auf Dokumente angewendet werden.
Obwohl sie auf den ersten Blick komplex sind, werden in den kommenden Artikeln weitere Details beschrieben. Schauen Sie also immer wieder in die Serie, wenn wir das Thema näher beleuchten.
Updates und Support erhalten
Bitte senden Sie Anfragen und Funktionswünsche an [email protected].
Für Anfragen zu Data Vault-Schulungen und Schulungen vor Ort wenden Sie sich bitte an [email protected] oder registrieren Sie sich unter www.scalefree.com.
Zur Unterstützung bei der Erstellung von Visual Data Vault-Zeichnungen in Microsoft Visio wurde eine Schablone entwickelt, mit der Data Vault-Modelle gezeichnet werden können. Die Schablone ist erhältlich bei www.visualdatavault.com.