Grin logo
de en es fr
Shop
GRIN Website
Publish your texts - enjoy our full service for authors
Go to shop › Computer Science - Commercial Information Technology

Integration von HADOOP in die Data-Warehouse-Architektur

Title: Integration von HADOOP in die Data-Warehouse-Architektur

Research Paper (undergraduate) , 2015 , 16 Pages , Grade: 2.3

Autor:in: Martin Sünder (Author)

Computer Science - Commercial Information Technology
Excerpt & Details   Look inside the ebook
Summary Excerpt Details

Ziel dieser Arbeit ist es, anhand der vorhandenen Fachliteratur die Grundlagen der Hadoop-Technologie darzustellen. Sie erläutert die mögliche Erweiterbarkeit der Data Warehouse Architektur sowie die Einsatzmöglichkeiten durch Hadoop. Im Fazit der Arbeit werden die Hadoop Technologie und ihre Einsatzmöglichkeiten kritisch hinterfragt.

Excerpt


Inhaltsverzeichnis

1. Einleitung

1.1. Einleitung

1.2. Problemstellung

1.3. Ziel

1.4. Vorgehensweise

2. Grundlagen zu Hadoop

2.1. Technische Einführung Hadoop

2.1.1. Hadoop Distributed File System (HDFS)

2.1.2. MapReduce

2.1.3. Yarn (Yet another Resource Negotiator)

3. Einsatzmöglichkeiten von Hadoop

3.1. Einleitung für Einsatzmöglichkeiten Hadoop

3.2. Data Staging

3.3. Datenarchivierung

3.4. Polystrukturierte Daten

4. Integration von Hadoop in ein Data Warehouse

4.1. Integration von Hadoop in ein Data Warehouse

4.1.1. Standalone

4.1.2. Pseudodistributed

4.1.3. Fully Distributed

5. Fazit

Zielsetzung & Themen

Das Hauptziel dieser Arbeit ist es, die Grundlagen der Hadoop-Technologie umfassend darzustellen und deren Potenzial zur Erweiterung klassischer Data-Warehouse-Architekturen zu analysieren, um Herausforderungen bei der Verarbeitung großer, unstrukturierter Datenmengen zu adressieren.

  • Technische Grundlagen und Architekturkomponenten von Hadoop (HDFS, MapReduce, YARN)
  • Herausforderungen klassischer Data-Warehouse-Systeme bei hohen Datenvolumina
  • Einsatzszenarien von Hadoop wie Data Staging und Archivierung
  • Integrationsmöglichkeiten von Hadoop in bestehende Data-Warehouse-Infrastrukturen
  • Kritische Reflexion über Komplexität, Kosten und Einsatzgrenzen von Big-Data-Technologien

Auszug aus dem Buch

2.1. Technische Einführung Hadoop

Hadoop beginnt dort, wo das Data Warehouse System an seine Grenzen stößt. Denn Hadoop sagt ganz klar, dass es ausgelegt wurde um große Datenmengen in geringer Zeit zu verarbeiten. Entwickelt wurde Hadoop von Herrn Doug Cutting, er extrahierte das verteilte Dateisystem (HDFS) und das MapReduce – Framework in ein eigens separates Framework. Es ist ein freies, Java basiertes Open Source Framework für die Verarbeitung großer Datenmengen. „Technisch gesehen, ist Hadoop ein Java – Framework zum verteilten Speichern von Daten und zu derer parallelen Verarbeitung auf Commodity – Hardware.“ Durch den Aufbau, kann Hadoop sehr granuliert skaliert werden und dabei können die Kosten durch Verwendung von unterschiedlicher Standard Server Hardware reduziert werden, noch dazu da es ein Open Source Produkt ist. “Ein Grund für die Beliebtheit von Hadoop ist einfach seine Wirtschaftlichkeit. Die Verarbeitung von großen, umfangreichen Datensätzen setzte bisher Supercomputer und andere teure und spezielle Hardware voraus.“ „Es lässt sich horizontal von wenigen auf mehrere tausend Serverknoten skalieren, toleriert Serverausfälle, die in großen Serverfarmen als „Normalzustand“ anzusehen sind, und sorgt für stabile Speicher und Analyseprozesse.“ Die Anwendung Hadoop besteht aus mehreren Bestandteilen, hier aufgeführt werden die wichtigsten drei, das verteilte Dateisystem (HDFS) und das MapReduce – Framework, sowie Yarn. „Wichtig ist zu wissen, dass Hadoop erst durch deren Zusammenspiel seine Stärke ausspielen kann.“

Allerdings sind Sie nicht voneinander abhängig, sondern können auch mit anderen Quellen zusammenarbeiten. Die große Effizienz mit der Hadoop mit großen Datenmengen arbeitet, kommt vom Prinzip der Datenteilung, es wird der Programmcode auf alle Knoten verteilt. „Anders als wir es von traditionellen Anwendungen kennen, in denen die Daten dem Programm zur Verfügung gestellt werden, wird bei Hadoop der Programmcode auf dem Cluster verteilt, um die Notwendigkeit des Datentransports minimal zu halten.“ Nur den zugewiesenen Bruchteil von den Eingabedaten, verarbeitet ein Knoten im Cluster. Dadurch entstehen zwar redundante Operationen, aber bei der Konsolidierung der Daten werden die Teilergebnisse verwendet die der schnellste Knoten im Cluster zurückliefert.

Zusammenfassung der Kapitel

1. Einleitung: Beschreibt den wachsenden Bedarf an Datenverarbeitung in Unternehmen und die Grenzen klassischer Data-Warehouse-Systeme im Umgang mit unstrukturierten Massendaten.

2. Grundlagen zu Hadoop: Erläutert die technischen Kernkomponenten von Hadoop, insbesondere HDFS, MapReduce und YARN, sowie dessen Skalierbarkeitsvorteile.

3. Einsatzmöglichkeiten von Hadoop: Identifiziert spezifische Anwendungsgebiete von Hadoop, wie Data Staging und die Speicherung polystrukturierter Daten.

4. Integration von Hadoop in ein Data Warehouse: Untersucht Strategien, wie Hadoop als komplementäre Technologie zur Entlastung und Modernisierung klassischer Data Warehouses eingesetzt werden kann.

5. Fazit: Reflektiert kritisch über die Komplexität der Implementierung, den Bedarf an spezialisiertem Personal und die stetige technologische Weiterentwicklung im Big-Data-Umfeld.

Schlüsselwörter

Hadoop, Data Warehouse, Big Data, HDFS, MapReduce, YARN, Datenintegration, Staging, Datenskalierbarkeit, Unstrukturierte Daten, IT-Infrastruktur, Business Intelligence, Performance, Commodity Hardware, ETL-Prozess

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit befasst sich mit der Integration der Hadoop-Technologie in bestehende Data-Warehouse-Architekturen, um die Leistungsfähigkeit bei der Analyse großer Datenmengen zu steigern.

Was sind die zentralen Themenfelder?

Die Arbeit fokussiert sich auf die technische Architektur von Hadoop, Anwendungsbereiche wie Data Staging und die strategische Einbindung in Unternehmens-IT-Landschaften.

Was ist das primäre Ziel der Arbeit?

Ziel ist es, die Grundlagen von Hadoop zu vermitteln und Wege aufzuzeigen, wie Data-Warehouse-Systeme durch Hadoop funktional erweitert und modernisiert werden können.

Welche wissenschaftliche Methode wird verwendet?

Es handelt sich um eine Literaturarbeit, die bestehende Konzepte und Technologien analysiert, vergleicht und in den Kontext der Data-Warehouse-Entwicklung stellt.

Was wird im Hauptteil behandelt?

Der Hauptteil gliedert sich in eine technische Einführung in Hadoop, die Darstellung seiner Einsatzmöglichkeiten und eine detaillierte Betrachtung der verschiedenen Integrationsmodi (Standalone, Pseudodistributed, Fully Distributed).

Welche Schlüsselwörter charakterisieren die Arbeit?

Zu den wichtigsten Begriffen zählen Hadoop, Data Warehouse, Big Data, MapReduce und HDFS sowie die verschiedenen Integrationskonzepte.

Warum stoßen klassische Data-Warehouse-Ansätze bei Big Data an ihre Grenzen?

Klassische Systeme haben Schwierigkeiten, unstrukturierte Daten effizient zu verarbeiten und bei sehr hohen Datenvolumina horizontal zu skalieren, was zu Performance-Einbußen führt.

Was ist der Vorteil einer Integration von Hadoop für den ETL-Prozess?

Durch die Auslagerung von Extraktions- und Transformationsschritten an Hadoop werden CPU-Ressourcen im Data Warehouse geschont, was die Gesamtanalysegeschwindigkeit verbessert.

Welche Herausforderungen bei der Nutzung von Hadoop werden im Fazit genannt?

Neben der hohen technologischen Komplexität erfordert Hadoop spezialisiertes Fachwissen, eine lange Einarbeitungszeit und birgt aufgrund der stetigen Weiterentwicklung ein hohes Maß an Volatilität.

Excerpt out of 16 pages  - scroll top

Details

Title
Integration von HADOOP in die Data-Warehouse-Architektur
Grade
2.3
Author
Martin Sünder (Author)
Publication Year
2015
Pages
16
Catalog Number
V306618
ISBN (eBook)
9783668045002
ISBN (Book)
9783668045019
Language
German
Tags
HADOOP Data Warehouse
Product Safety
GRIN Publishing GmbH
Quote paper
Martin Sünder (Author), 2015, Integration von HADOOP in die Data-Warehouse-Architektur, Munich, GRIN Verlag, https://www.grin.com/document/306618
Look inside the ebook
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
Excerpt from  16  pages
Grin logo
  • Grin.com
  • Shipping
  • Contact
  • Privacy
  • Terms
  • Imprint