Grin logo
de en es fr
Shop
GRIN Website
Texte veröffentlichen, Rundum-Service genießen
Zur Shop-Startseite › Informatik - Wirtschaftsinformatik

Datenintegration von polystrukturierte Daten in ein Data Vault Modell

Titel: Datenintegration von polystrukturierte Daten in ein Data Vault Modell

Masterarbeit , 2021 , 129 Seiten , Note: 1.7

Autor:in: Jie Xin (Autor:in)

Informatik - Wirtschaftsinformatik
Leseprobe & Details   Blick ins Buch
Zusammenfassung Leseprobe Details

Diese Arbeit konzentriert sich auf die Weiterentwicklung verschiedener Integrationsansätze, um polystrukturierte Daten zusammen mit strukturierten Daten in das Data Vault Modell zu integrieren. Anhand von einem Anwendungsfall werden verschiedene Ansätze implementiert und ihre Vor- und Nachteile diskutiert. Darüber hinaus wird das Resultat diese Ansätze evaluiert, um zu prüfen, ob es die Merkmale des Data Vault Modells weiterhin erfüllt.

Heutzutage nehmen die Daten in Bezug auf Volumen, Geschwindigkeit und Vielfalt enorm zu. Diese Daten kommen sowohl als strukturierte Daten als auch als unstrukturierte Daten vor. Zu den strukturierten Daten zählen unter anderem Transaktionsdaten aus klassischen, relationalen Systemen wie beispielsweise ein Data Warehouse. Durch den Zuwachs des Datenvolumens in den vergangenen Jahren ist die Anzahl an unstrukturierten Daten wie z.B. Textdokumente, Bilder, Videos, Internet of Things (IoT) stark gestiegen.

Unternehmen sehen sich somit mit dem steigenden Volumen an Daten konfrontiert, welche aus einer Vielzahl von internen und externen Quellen geliefert werden. Hierbei besteht die Herausforderung darin, polystrukturierte Daten mit traditionellen, strukturierten Daten zu verknüpfen, um diese analysieren zu können. Dabei müssen diese Daten effizient gespeichert und integriert werden, um daraus nützliche Geschäftserkenntnisse abzuleiten.

Die traditionellen Modellierungstechniken wie der Kimball-Ansatz und der Inmon-Ansatz konzentrieren sich auf die Modellierung strukturierter Daten. Aufgrund der zunehmenden Datenmengen, die gesammelt werden, und der agilen Projektausführung werden Skalierbarkeit und Flexibilität zu immer wichtigeren Merkmalen der Datenmodellierung. Insbesondere im Hinblick auf die Flexibilität stoßen traditionelle Datenmodellierungsansätze im Data Warehousing an ihre Grenzen. Daher wurde die Data Vault Modellierung entwickelt, um diese Einschränkungen zu überwinden. Das Data Vault Modell wurde jedoch für strukturierte Daten konzipiert. Um diese strukturierten Daten mit polystrukturierten Daten zu kombinieren, muss das Data Vault Modell erweitert werden.

Leseprobe


Inhaltsverzeichnis

1. Einleitung

1.1 Motivation

1.2 Zielsetzung

1.3 Abgrenzung

1.4 Aufbau der Arbeit

2. Grundlagen

2.1 Die Welt der Daten

2.1.1 Daten, Informationen, Wissen

2.1.2 Dimensionen von Daten

2.1.3 Datenmodell

2.2 Modellierungstechniken

2.2.1 Strukturierte Daten

2.2.2 Halbstrukturierte Daten

2.2.3 Unstrukturierte Daten

2.3 Data Vault Modell

2.3.1 Motivation für Data Vault

2.3.2 Data Vault Grundlagen

2.3.3 Regeln der Data Vault Modellierung

2.3.4 Architektur

2.3.5 Data Vault 1.0 und 2.0

3. Stand der Technik und Forschung

3.1 Integration halbstrukturierter Daten

3.1.1 JavaScript Object Notation

3.1.2 Extensible Markup Language

3.2 Integration unstrukturierter Daten

4. Konzeption

4.1 Erweiterungen zur Integration halbstrukturierter Daten

4.1.1 Abflachen eines eingebetteten JSON-Dokuments

4.1.2 JSON-Array Daten im Data Vault Modell

4.1.3 Modellierung von XML-Dokumenten in das Data Vault Modell

4.2 Integration unstrukturierter Daten

5. Entwurf

5.1 Anwendungsfall

5.2 Zielsetzung

5.3 Analyse der Quelldaten

5.3.1 Stammdaten

5.3.2 Bewegungsdaten

5.4 Planung

5.4.1 Erstellung der ETL-Prozesse

5.4.2 Gesamtarchitektur

5.4.3 Source

5.4.4 Staging

5.4.5 Core

5.4.6 Mart

5.5 Mehrwert des Entwurfs

6. Implementierung

6.1 Eingesetzte Technologien

6.2 Beschreibung der Implementierung

6.2.1 Extraktion

6.2.2 Integration

6.2.3 Data Mart

6.3 Bereitstellung von Dashboards

7. Evaluierung

7.1 Überprüfung des Core-Datenmodells

7.1.1 Flexibilität und Erweiterbarkeit

7.1.2 Historisierung

7.2 Validierung der Daten

7.3 Optimierung des Dashboards

7.4 Bewertung der Implementierung

8. Schlussbetrachtung

8.1 Zusammenfassung

8.2 Ausblick

A. Anhang

A.1 Beigelegte CD

A.2 Datenmodell

A.3 Gespeicherte Prozedur

A.4 Dashboard

Zielsetzung & Themen

Diese Masterarbeit untersucht die Herausforderungen und Lösungsansätze für die Integration von halbstrukturierten (insbesondere JSON und XML) und unstrukturierten Daten in ein Data Vault Modell. Das primäre Ziel ist die Entwicklung von Erweiterungsmöglichkeiten für bestehende Konzepte, um eine konsistente Datenintegration in einer agilen Data-Warehouse-Umgebung zu ermöglichen, ohne die Integrität des Data Vault Modells zu gefährden.

  • Grundlagen der Datenmodellierung und Data Vault Architektur
  • Integrationstechniken für JSON- und XML-Datenformate
  • Konzeptionelle Ansätze zur Einbindung unstrukturierter Daten
  • Prototypische Implementierung in einem CRM-Anwendungsfall
  • Evaluierung der Flexibilität, Erweiterbarkeit und Historisierung

Auszug aus dem Buch

Mapping-Regel 1 (MR1):

„Each document id is translated into a business key, while the hash key of the hub is calculated and added to the hub.“ [KC18]

Gemäß MR1 wird für jedes Dokument eine id erstellt, die dazu beiträgt, dieses Dokument eindeutig zu identifizieren. Diese id entspricht in der Abbildung 3.6 der Customer_id. Sie wird im Hub als Business Key übersetzt. Dieser Regel nach wird ein Hub_Customer mit der Customer_id als Business Key erstellt. Ein Hash Key Customer HK wird mithilfe des Business Keys generiert.

Zusammenfassung der Kapitel

1. Einleitung: Beschreibt die zunehmende Datenflut in Unternehmen und definiert die Problemstellung der Integration polystrukturierter Daten in ein Data Vault Modell.

2. Grundlagen: Erläutert die theoretischen Grundlagen der Datenmodellierung, verschiedene Datenarten und die Funktionsweise des Data Vault Modells.

3. Stand der Technik und Forschung: Analysiert bestehende Ansätze zur Integration von halbstrukturierten und unstrukturierten Daten, insbesondere unter Verwendung von JSON und XML.

4. Konzeption: Entwickelt spezifische Erweiterungsansätze für die Integration von JSON-Array-Strukturen und XML-Dokumenten sowie Strategien für unstrukturierte Daten.

5. Entwurf: Konzipiert einen Anwendungsfall im Bereich Customer Relationship Management und plant die ETL-Prozesse sowie die Architektur für das Data Warehouse.

6. Implementierung: Dokumentiert die praktische Umsetzung der ETL-Anwendung mit Talend und die Einbindung der Daten in Power BI zur Visualisierung.

7. Evaluierung: Überprüft das implementierte Modell hinsichtlich Flexibilität, Erweiterbarkeit und Performance sowie die Korrektheit der Daten mittels Testfällen.

8. Schlussbetrachtung: Fasst die wesentlichen Erkenntnisse der Arbeit zusammen und gibt einen Ausblick auf zukünftige Forschungsmöglichkeiten.

Schlüsselwörter

Data Vault, Datenintegration, Polystrukturierte Daten, Business Intelligence, Data Warehouse, JSON, XML, Modellierung, ETL, CRM, Kundendaten, Hash-Key, Historisierung, Flexibilität, Skalierbarkeit

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit beschäftigt sich mit der Herausforderung, unterschiedlich strukturierte Daten – wie JSON und XML – in ein bestehendes Data-Vault-Modell zu integrieren, um eine einheitliche und agile Datenanalyse zu ermöglichen.

Was sind die zentralen Themenfelder?

Die zentralen Themen sind die Data-Vault-Methodik, Integrationsstrategien für halbstrukturierte Formate (JSON/XML) und die praktische Umsetzung in einem CRM-Data-Warehouse-Szenario.

Was ist das primäre Ziel oder die Forschungsfrage?

Das Ziel ist es, Mapping-Regeln und Konzepte zu entwickeln, um polystrukturierte Daten ohne Informationsverlust in ein Data-Vault-Modell zu überführen und dabei dessen Kernvorteile wie Flexibilität zu erhalten.

Welche wissenschaftliche Methode wird verwendet?

Es wird eine forschungsbasierte Methode angewandt: Analyse des aktuellen Stands der Technik, Konzeption von Mapping-Regeln, prototypische Implementierung mit ETL-Tools und anschließende Evaluation der Modellqualität anhand von Kennzahlen.

Was wird im Hauptteil behandelt?

Der Hauptteil gliedert sich in die theoretische Fundierung, die Konzeption neuer Mapping-Regeln (insb. für Arrays), den Entwurf einer Data-Warehouse-Architektur sowie die praktische Implementierung und Performance-Evaluierung.

Welche Schlüsselwörter charakterisieren die Arbeit?

Die Arbeit wird maßgeblich durch Begriffe wie Data Vault, Datenintegration, polystrukturierte Daten, ETL, JSON, XML und agile Modellierung charakterisiert.

Warum sind JSON-Arrays eine Herausforderung im Data Vault Modell?

JSON-Arrays repräsentieren oft 1:N-Beziehungen oder Bewegungsdaten ohne festen Identifikator. Im Data Vault Modell müssen hierfür spezielle Konstrukte wie der "Multi-Active Satellite" genutzt werden, um die Datenstruktur sauber abzubilden.

Was ist der Mehrwert der entwickelten Mapping-Regel 5?

Die Mapping-Regel 5 ermöglicht es, komplexe JSON-Array-Strukturen auf "Multi-Active Satellites" abzubilden, wodurch Transaktionsdaten effizient mit dem Hub verknüpft werden können, ohne die Modellstruktur zu kompromittieren.

Warum wurde Data Vault 2.0 für die Implementierung gewählt?

Data Vault 2.0 nutzt Hash-Keys anstelle von Sequenz-IDs. Dies eliminiert Abhängigkeiten beim Ladevorgang und ermöglicht eine deutlich bessere Parallelisierung der Datenverarbeitung bei großen Datenmengen.

Ende der Leseprobe aus 129 Seiten  - nach oben

Details

Titel
Datenintegration von polystrukturierte Daten in ein Data Vault Modell
Hochschule
Hochschule Darmstadt
Note
1.7
Autor
Jie Xin (Autor:in)
Erscheinungsjahr
2021
Seiten
129
Katalognummer
V1015269
ISBN (eBook)
9783346412775
Sprache
Deutsch
Schlagworte
Data Vault DWH Big Data JSON XML
Produktsicherheit
GRIN Publishing GmbH
Arbeit zitieren
Jie Xin (Autor:in), 2021, Datenintegration von polystrukturierte Daten in ein Data Vault Modell, München, GRIN Verlag, https://www.grin.com/document/1015269
Blick ins Buch
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
Leseprobe aus  129  Seiten
Grin logo
  • Grin.com
  • Versand
  • Kontakt
  • Datenschutz
  • AGB
  • Impressum