Diese Arbeit konzentriert sich auf die Weiterentwicklung verschiedener Integrationsansätze, um polystrukturierte Daten zusammen mit strukturierten Daten in das Data Vault Modell zu integrieren. Anhand von einem Anwendungsfall werden verschiedene Ansätze implementiert und ihre Vor- und Nachteile diskutiert. Darüber hinaus wird das Resultat diese Ansätze evaluiert, um zu prüfen, ob es die Merkmale des Data Vault Modells weiterhin erfüllt.

Heutzutage nehmen die Daten in Bezug auf Volumen, Geschwindigkeit und Vielfalt enorm zu. Diese Daten kommen sowohl als strukturierte Daten als auch als unstrukturierte Daten vor. Zu den strukturierten Daten zählen unter anderem Transaktionsdaten aus klassischen, relationalen Systemen wie beispielsweise ein Data Warehouse. Durch den Zuwachs des Datenvolumens in den vergangenen Jahren ist die Anzahl an unstrukturierten Daten wie z.B. Textdokumente, Bilder, Videos, Internet of Things (IoT) stark gestiegen.

Unternehmen sehen sich somit mit dem steigenden Volumen an Daten konfrontiert, welche aus einer Vielzahl von internen und externen Quellen geliefert werden. Hierbei besteht die Herausforderung darin, polystrukturierte Daten mit traditionellen, strukturierten Daten zu verknüpfen, um diese analysieren zu können. Dabei müssen diese Daten effizient gespeichert und integriert werden, um daraus nützliche Geschäftserkenntnisse abzuleiten.

Die traditionellen Modellierungstechniken wie der Kimball-Ansatz und der Inmon-Ansatz konzentrieren sich auf die Modellierung strukturierter Daten. Aufgrund der zunehmenden Datenmengen, die gesammelt werden, und der agilen Projektausführung werden Skalierbarkeit und Flexibilität zu immer wichtigeren Merkmalen der Datenmodellierung. Insbesondere im Hinblick auf die Flexibilität stoßen traditionelle Datenmodellierungsansätze im Data Warehousing an ihre Grenzen. Daher wurde die Data Vault Modellierung entwickelt, um diese Einschränkungen zu überwinden. Das Data Vault Modell wurde jedoch für strukturierte Daten konzipiert. Um diese strukturierten Daten mit polystrukturierten Daten zu kombinieren, muss das Data Vault Modell erweitert werden.

Excerpt

Inhaltsverzeichnis

einleitung

Motivation
Zielsetzung
Abgrenzung
Aufbau der Arbeit

grundlagen

Die Welt der Daten

Daten, Informationen, Wissen
Dimensionen von Daten
Datenmodell

Modellierungstechniken

Strukturierte Daten
Halbstrukturierte Daten
Unstrukturierte Daten

Data Vault Modell

Motivation für Data Vault
Data Vault Grundlagen

Hubs
Links
Satellites

Regeln der Data Vault Modellierung
Architektur
Data Vault 1.0 und 2.0

stand der technik und forschung

Integration halbstrukturierter Daten

JavaScript Object Notation
Extensible Markup Language

Integration unstrukturierter Daten

konzeption

Erweiterungen zur Integration halbstrukturierter Daten

Abflachen eines eingebetteten JSON-Dokuments
JSON-Array Daten im Data Vault Modell
Modellierung von XML-Dokumenten in das Data Vault Modell

Integration unstrukturierter Daten

entwurf

Anwendungsfall
Zielsetzung
Analyse der Quelldaten

Stammdaten
Bewegungsdaten

Planung

Erstellung der ETL-Prozesse
Gesamtarchitektur
Source
Staging
Core
Mart

Mehrwert des Entwurfs

implementierung

Eingesetzte Technologien
Beschreibung der Implementierung

Extraktion
Integration
Data Mart

Bereitstellung von Dashboards

evaluierung

Überprüfung des Core-Datenmodells

Flexibilität und Erweiterbarkeit
Historisierung

Validierung der Daten
Optimierung des Dashboards
Bewertung der Implementierung

schlussbetrachtung

Zusammenfassung
Ausblick

Zielsetzung und Themenschwerpunkte

Die Masterarbeit analysiert Ansätze zur Integration von halb- und unstrukturierten Daten in ein Data Vault Modell. Neben der Diskussion bestehender Konzepte liegt der Fokus auf der Entwicklung von Erweiterungsmöglichkeiten für die Integration von halb- und unstrukturierten Daten. Um die Lösungsansätze zu evaluieren, wird ein Data Warehouse für ein Anwendungsbeispiel konzipiert und entwickelt, wobei ein Open-Source-ETL-Tool zur Bewirtschaftung eingesetzt wird. Die Daten im Data Warehouse werden anschließend mit Hilfe von Dashboards visualisiert.

Die Integration von halb- und unstrukturierten Daten in ein Data Vault Modell
Die Entwicklung von Erweiterungsmöglichkeiten für die Integration von halb- und unstrukturierten Daten
Die Konzeption und Entwicklung eines Data Warehouse auf Basis des Data Vault Modells für ein Anwendungsbeispiel
Die Evaluierung der implementierten Lösung hinsichtlich der Integration von halb- und unstrukturierten Daten und der Fähigkeit, ein agiles Data Warehouse zu unterstützen

Zusammenfassung der Kapitel

Die Arbeit gliedert sich in acht Kapitel. Kapitel 2 führt in die Grundlagen der Datenmodellierung ein, erläutert verschiedene Datenmodelle und stellt das Data Vault Modell detailliert vor. Kapitel 3 analysiert bestehende Ansätze zur Integration von halb- und unstrukturierten Daten in das Data Vault Modell. Kapitel 4 entwickelt Erweiterungsmöglichkeiten für die Integration von halb- und unstrukturierten Daten, die auf den bestehenden Ansätzen aufbauen. Kapitel 5 konzipiert einen Anwendungsfall aus der realen Welt, um die Erweiterungsmöglichkeiten zu überprüfen. Kapitel 6 beschreibt die Implementierung des Data Warehouse auf Basis des Data Vault Modells und der entwickelten Integrationsansätze. Kapitel 7 evaluiert die Implementierung hinsichtlich der Erfüllung der Kriterien des Data Vault Modells, der Datenqualität und der Performance der Dashboards. Kapitel 8 fasst die Erkenntnisse der Arbeit zusammen und gibt einen Ausblick auf zukünftige Forschungsarbeiten.

Schlüsselwörter

Data Vault Modell, Datenintegration, halbstrukturierte Daten, unstrukturierte Daten, JSON, XML, ETL, Data Warehouse, Dashboards, Performance, Agile Data Warehouse, Polyglot Persistence

Excerpt out of 129 pages - scroll top

Details

Title: Datenintegration von polystrukturierte Daten in ein Data Vault Modell
College: University of Applied Sciences Darmstadt
Grade: 1.7
Author: Jie Xin (Author)
Publication Year: 2021
Pages: 129
Catalog Number: V1015269
ISBN (eBook): 9783346412775
Language: German
Tags: Data Vault DWH Big Data JSON XML
Product Safety: GRIN Publishing GmbH

Quote paper: Jie Xin (Author), 2021, Datenintegration von polystrukturierte Daten in ein Data Vault Modell, Munich, GRIN Verlag, https://www.grin.com/document/1015269

Datenintegration von polystrukturierte Daten in ein Data Vault Modell