Grin logo
de en es fr
Shop
GRIN Website
Publish your texts - enjoy our full service for authors
Go to shop › Computer Science - Commercial Information Technology

ETL (Extract, Transform, Load) for Data Integration. Concepts and exemplary usage

Title: ETL (Extract, Transform, Load) for Data Integration. Concepts and exemplary usage

Seminar Paper , 2020 , 31 Pages , Grade: 1

Autor:in: Daniel Kapferer (Author)

Computer Science - Commercial Information Technology
Excerpt & Details   Look inside the ebook
Summary Excerpt Details

Das Ziel dieser Seminararbeit ist es, einen Überblick über den aktuellen Forschungsstand der Datenintegration mithilfe von ETL zu schaffen. Im ersten Teil werden wichtige Konzepte, Nutzungsszenarien und Funktionalitäten von ETL anhand einer Literaturrecherche aufgezeigt und diskutiert. Darüber hinaus werden gängige Fehlerquellen bei der Durchführung von ETL zusammengefasst. Außerdem soll eine Übersicht über diverse Open Source Tools zur Datenintegration mit ETL gegeben werden und auf deren Vor- und Nachteile hingewiesen werden. Neben dieser Literaturrecherche wird die Anwendung von ETL anhand eines konkreten Fallbeispiels demonstriert und diskutiert. Die Ausarbeitung soll dazu dienen, anhand eines Praxisbeispiels einen tieferen Einblick in die Implementierung von ETL zu erhalten, sowie Probleme bei der
Durchführung dieses Vorgangs festzustellen.

Seitdem es die Digitalisierung gibt, hat sich die Menge der erzeugten Daten drastisch erhöht. Es herrscht ein exponentielles Wachstum an strukturierten und unstrukturierten Daten, welche Unternehmen zur Verfügung stehen und bei richtiger Auswertung Wettbewerbsvorteile versprechen. Doch woher kommen die relevanten Daten und welche Voraussetzungen sind zu erfüllen, um diese zu analysieren? Hier kommt die Datenintegration ins Spiel. Darunter versteht man die Kombination von technischen Prozessen und Geschäftsprozessen. Diese werden verwendet, um Daten aus unterschiedlichen Quellen zu neuen Informationen zu kombinieren, welche wertvoll und aussagekräftig sind.

Extract, Transform & Load (ETL) ist einer der Prozesse, mit dem Daten integriert werden können. Diese Technik spielt eine zunehmend wichtige Rolle im Unternehmen, wenn es darum geht, Geschäftsabläufe zu unterstützen. Ein weiterer Treiber für die Verwendung von Datenintegrations-Tools ist der dringende Bedarf an erweiterter Datenintegration, Hybrid-/Multi-Cloud-Datenmanagement, sowie Design von Datenstrukturen. Aufgrund des steigenden Interesses an ETL und der Notwendigkeit der Datenintegration in der Praxis, soll sich die Seminararbeit mit den Fragestellungen beschäftigen, was man unter dem Begriff ETL versteht, welche Open Source Tools zur Anwendung von ETL zur Verfügung stehen und wie ETL anhand eines Fallbeispiels angewendet wird.

Excerpt


Inhaltsverzeichnis

1. Einleitung

1.1. Zielsetzung

1.2. Strukturierung

2. ETL Konzepte

2.1. ETL Phasen

2.2. Nutzungsszenarien

2.3. Funktionen von ETL Tools

2.4. Probleme & Herausforderungen von ETL

3. Open Source ETL Tools

3.1. Übersicht gängiger Open Source ETL Tools

3.2. Anwendung von ETL anhand eines Use Cases

3.2.1. Vorstellung des Use Cases

3.2.2. Zusammenfassung der Ergebnisse

4. Conclusio

Zielsetzung & Themen

Diese Arbeit zielt darauf ab, den aktuellen Forschungsstand zur Datenintegration mittels ETL (Extract, Transform, Load) aufzuzeigen, gängige Konzepte sowie Probleme zu diskutieren und die praktische Anwendung anhand von Open-Source-ETL-Tools zu demonstrieren.

  • Grundlagen und Definitionen des ETL-Prozesses
  • Nutzungsszenarien und Anforderungen an die Datenintegration
  • Funktionalitäten und Herausforderungen von ETL-Werkzeugen
  • Überblick und Vergleich gängiger Open-Source-ETL-Lösungen
  • Praktische Implementierung eines Use Cases mit Talend Open Studio

Auszug aus dem Buch

2.1 ETL Phasen

Datenintegration kann auf verschiedene Weise interpretiert werden. Sreemathy et al. (2020) verstehen darunter die Konsolidierung, Verbreitung, Visualisierung und den Verbund von Daten. Außerdem wird in der Definition der Autoren Data Warehousing als eigene Form der Datenintegration verstanden (Sreemathy et al., 2020). Ein Data Warehoue kann dabei als zentrale Datenbank verstanden werden, welche von den operativen Datenverarbeitungssystemen getrennt ist und in der historische, unternehmensspezifische Daten zusammengefasst, geordnet und dauerhaft gespeichert werden (Lackes, 2018). Die Entscheidung für die Einordnung des Data Warehousings in die Datenintegration wird darin begründet, dass die Bereinigung, Neuformatierung und Speicherung von Daten an einer einzigen Stelle selbst eine Form der Datenintegration ist (Sreemathy et al., 2020).

Um eine Datenintegration durchzuführen, gibt es mehrere Ansätze. Im Bereich des Data Warehousing erleichtert die Verwendung von ETL-Tools den sonst aufwändigen Prozess der Datenintegration (Vassiliadis et al., 2005). Hinter der Abkürzung ETL verbirgt sich „Extract – Transform - Load“, ein dreistufiger Prozess der Datenintegration, der als Grundpfeiler eines Data Warehouses angesehen wird. Obwohl die Endbenutzer oftmals nicht viel von ETL mitbekommen, entfallen etwa 70% der verwendeten Ressourcen, die für die Implementierung und Wartung eines Data Warehouses gedacht sind, auf das ETL System (Kimball und Caserta, 2004).

Wenn ein ETL-System richtig entworfen wird, können nicht nur Daten aus unterschiedlichen Quellsystemen extrahiert werden, sondern auch Datenqualitäts- und Konsistenzstandards durchgesetzt werden. Außerdem sorgt ETL mithilfe von Transformationen für die Konformität von Daten und erlaubt es diese Daten in der Regel zentral an einer Stelle abzulegen. Dadurch sind die Daten für Entwickler und Endbenutzer leichter zugänglich und stehen für zukünftige Analysen und Entscheidungen zur Verfügung (Kimball und Caserta, 2004). Die Datenbereinigung und Konformitäts-Prüfung der Daten sind laut Kimball und Caserta (2004) die Hauptschritte, bei der ETL einem Mehrwert schafft. Außerdem wird geprüft, ob sich die Daten für den beabsichtigten Zweck verwenden lassen. Die Extraktion und das Laden der Daten sind nach Auffassung der Autoren zwar notwendig, jedoch werden dabei nur Daten bewegt und formatiert.

Zusammenfassung der Kapitel

1. Einleitung: Dieses Kapitel motiviert die Relevanz der Datenintegration im Zeitalter der Digitalisierung und definiert die Zielsetzung sowie die methodische Struktur der Seminararbeit.

2. ETL Konzepte: Hier werden die theoretischen Grundlagen des ETL-Prozesses, die Phasen der Extraktion, Transformation und Ladung sowie verschiedene Nutzungsszenarien und typische Funktionen erläutert.

3. Open Source ETL Tools: Dieser Teil gibt einen Überblick über gängige Open-Source-Alternativen zu kommerziellen Produkten und dokumentiert einen konkreten Use Case mit der Software Talend Open Studio.

4. Conclusio: Das Fazit fasst die zentralen Erkenntnisse der Arbeit zusammen, reflektiert bestehende Herausforderungen bei der Implementierung von ETL-Systemen und gibt einen Ausblick auf künftige Forschungsansätze.

Schlüsselwörter

ETL, Datenintegration, Data Warehouse, Open Source, Talend Open Studio, Extraktion, Transformation, Ladeprozess, Datenqualität, Data-Lineage, Business Intelligence, Use Case, Datenbank, Datenbereinigung, Echtzeit-Integration.

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit befasst sich mit dem ETL-Prozess (Extract, Transform, Load) als wesentlichem Bestandteil der modernen Datenintegration innerhalb von Unternehmen.

Was sind die zentralen Themenfelder der Arbeit?

Die zentralen Themen umfassen die theoretischen Konzepte von ETL, die Herausforderungen bei der Datenverarbeitung sowie einen Vergleich und die praktische Anwendung von Open-Source-ETL-Werkzeugen.

Was ist das primäre Ziel oder die Forschungsfrage der Arbeit?

Das Ziel ist es, einen Überblick über den aktuellen Forschungsstand zur Datenintegration mithilfe von ETL zu schaffen und anhand eines Praxisbeispiels zu demonstrieren, wie solche Prozesse implementiert werden können.

Welche wissenschaftliche Methode wurde verwendet?

Die Arbeit basiert primär auf einer umfassenden Literaturrecherche sowie einer dokumentierten Fallstudie zur praktischen Anwendung eines Open-Source-ETL-Tools.

Was wird im Hauptteil der Arbeit behandelt?

Im Hauptteil werden zunächst die ETL-Phasen, Nutzungsszenarien und Funktionalitäten theoretisch beleuchtet, bevor eine Übersicht gängiger Open-Source-Tools erfolgt und ein Use Case mit Talend Open Studio detailliert beschrieben wird.

Welche Schlüsselwörter charakterisieren die Arbeit?

Die Arbeit wird maßgeblich durch Begriffe wie ETL, Datenintegration, Data Warehouse, Open Source, Datenqualität und Talend Open Studio geprägt.

Warum wurde Talend Open Studio für den Use Case ausgewählt?

Die Wahl fiel auf Talend Open Studio, da es sich um ein benutzerfreundliches Open-Source-Tool mit grafischer Oberfläche handelt, welches eine gute Nachvollziehbarkeit der einzelnen ETL-Schritte ermöglicht.

Welche spezifischen Probleme traten bei der praktischen Anwendung des Use Cases auf?

Bei der Erstellung des ETL-Prozesses kam es zu unerwarteten Schwierigkeiten beim Output der CSV-Dateien, wobei die Trennung von akzeptierten Datensätzen und Fehlern nicht vollständig den Erwartungen entsprach.

Excerpt out of 31 pages  - scroll top

Details

Title
ETL (Extract, Transform, Load) for Data Integration. Concepts and exemplary usage
College
University of Vienna  (Betriebswirtschaftslehre)
Course
Advanced Topics in Business Informatics (MA) - Business Intelligence
Grade
1
Author
Daniel Kapferer (Author)
Publication Year
2020
Pages
31
Catalog Number
V1007463
ISBN (eBook)
9783346393463
Language
German
Tags
ETL Data Integration Extract Transform Load BI Business Intelligence Business Intelligence Talend ETL Prozess Universität Wien Open Source Open Source ETL ETL Tools Use Case DWH Data Warehouse batch ETL real-time ETL Data Lineage MySQL
Product Safety
GRIN Publishing GmbH
Quote paper
Daniel Kapferer (Author), 2020, ETL (Extract, Transform, Load) for Data Integration. Concepts and exemplary usage, Munich, GRIN Verlag, https://www.grin.com/document/1007463
Look inside the ebook
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
Excerpt from  31  pages
Grin logo
  • Grin.com
  • Shipping
  • Contact
  • Privacy
  • Terms
  • Imprint