Diese Hausarbeit aus meiner Berufsschulzeit thematisiert die Geschichte, die Einsatzbereiche und die Technik von Hadoop.
Neben der Entstehung von Hadoop wird auf aktuelle Einsatzbereiche von Hadoop eingegangen (Stand September 2012) und die Technik, also der Grundgedanken, der sich hinter Hadoop befindet näher betrachtet.
Die Entwicklung von Computersystemen war und ist stets eng mit den Datenmengen verbunden, die auf diesen gespeichert und ausgewertet werden können. Eine anhaltend steigende Speicherkapazität dieser Systeme sorgt dafür, dass einerseits mehr Daten gespeichert werden müssen und somit auch die Kosten für eben diese steigen. Andererseits entstehen so auch deutlich mehr Daten, die ausgewertet werden können. Gerade diese Daten bilden eine Grundlage für heutige analytische Prozesse, wie sie untere anderem in den Bereichen Marketing und Werbung benötigt werden. Dieses sogenannte Data Mining [1], bei dem aus einer riesigen Menge von Daten, die entscheidenden Daten herausgefiltert werden, stellt für die moderne Wirtschaft einen überaus wichtigen Faktor bei der täglichen Arbeit dar.
Die weltweit agierenden Unternehmen der IT-Branche Google, Amazon oder IBM sind stellvertretend als die Firmen zu nennen, die auf diesen großen Daten ihren Erfolg begründen. Im Allgemeinen werden diese großen Datenmengen, aus denen sich die wichtigen Informationen extrahieren lassen, mit dem Begriff Big Data [2] zusammengefasst.
Mit wachsender Größe von eben dieser Big Data wird es umso aufwendiger und ebenso kostspieliger diese Daten einerseits bereit zu stellen, aber was noch viel wichtiger ist, diese Daten zu durchsuchen. Mit immer größeren Datenmengen steigen auch die Laufzeiten für Programme, die eben diese Daten nach den gesuchten Informationen durchsuchen.
Inspiriert von diesem Zustand hat Doug Cutting seine Idee umgesetzt, statt einem leistungsstarken Rechner, mehrere günstigere Computer zu einem Verbund zusammenzuschließen und somit die Kosten für das Data Mining drastisch zu reduzieren.
Die ersten Schritte von Hadoop waren getan und sollten somit den Grundstein für ein überaus erfolgreiches und vor allem zukunftsrelevantes OpenSource-Projekt bilden.
[...]
Inhaltsverzeichnis
1. Einleitung
2. Geschichte
3. Technik
3.1 Google File System
3.2 Hadoop Distributed File System
3.3 MapReduce
3.4 Hadoop
4. Einsatzbereiche
4.1 Suchmaschinen
4.1.1 Yahoo
4.1.2 Google
4.2 Big Data
4.2.1 Facebook
4.2.2 eBay
4.3 Cloud-Dienste
4.3.1 Amazon
4.3.2 IBM
4.4 Hadoop und Microsoft
5. Zusammenfassung
Zielsetzung & Themen
Die vorliegende Arbeit untersucht das Hadoop-Framework als technische Lösung für die Herausforderungen moderner Datenverarbeitung, insbesondere im Kontext von Big Data. Das Ziel ist es, die technologischen Grundlagen, die historische Entwicklung sowie die praktischen Einsatzbereiche von Hadoop in der IT-Industrie aufzuzeigen und deren wirtschaftliche Relevanz zu verdeutlichen.
- Technische Architektur: Google File System (GFS) und Hadoop Distributed File System (HDFS)
- Funktionsweise des MapReduce-Algorithmus zur verteilten Datenverarbeitung
- Historischer Kontext der Entstehung bei Nutch und Yahoo
- Einsatzszenarien bei führenden IT-Unternehmen wie Facebook, eBay und Amazon
- Strategische Bedeutung von Hadoop für Cloud-Computing und Data Warehousing
Auszug aus dem Buch
3.3 MapReduce
MapReduce ist ein Algorithmus, der es ermöglicht, Berechnungen für große Datenmengen auf Computerclustern durchzuführen. Hierfür werden zwei Elementare Funktionen genutzt, die Map-Funktion und die Reduce-Funktion.
Die Grundsätzliche Idee von MapReduce ist die Nutzung von verteilter Rechenleistung vieler preiswerter handelsüblicher Maschinen, statt des Einsatzes weniger teurer, dafür aber schnellerer Rechner.
Um eine Rechenoperation auf mehrere Rechner dieses MapReduce-Clusters zu verteilen, spaltet der Algorithmus mit der Map-Funktion zuerst die eingegebene Operation auf und verteilt diese anschließend auf die verschiedenen Rechner, die dem Cluster angeschlossen sind. Die Rechner führen die Operationen mit den Teildaten, die ihnen zugewiesen aus und übermitteln das Ergebnis daraufhin an die Reduce-Funktion, die dann die Ergebnisse zusammensetzt. Das Ergebnis des gesamten Vorgangs ist dasselbe, als wäre es von nur einem Rechner durchgeführt worden, lediglich mit dem Vorteil, dass dies deutlich schneller geschehen ist.
Anhand der folgenden Grafik lässt sie der Vorgang von MapReduce erklären.
Zusammenfassung der Kapitel
1. Einleitung: Beschreibt die steigende Relevanz von Data Mining und Big Data und führt in die Notwendigkeit verteilter Speichersysteme ein.
2. Geschichte: Beleuchtet die Entstehung von Hadoop aus dem Projekt Nutch sowie den Einfluss der von Google veröffentlichten Technologien.
3. Technik: Erklärt detailliert die technologischen Säulen von Hadoop, bestehend aus dem Dateisystem HDFS und dem Algorithmus MapReduce.
4. Einsatzbereiche: Analysiert praktische Anwendungsbeispiele von Hadoop bei großen Akteuren der IT-Branche wie Yahoo, Google, Facebook und Amazon.
5. Zusammenfassung: Reflektiert die Bedeutung von Open-Source-Lösungen für die zukünftige IT-Infrastruktur und die wirtschaftliche Verarbeitung großer Datenmengen.
Schlüsselwörter
Hadoop, Big Data, MapReduce, Google File System, HDFS, Data Mining, Open Source, Cloud Computing, Cluster, IT-Infrastruktur, verteilte Rechenleistung, Datenverarbeitung, Skalierbarkeit, Yahoo, Apache Foundation
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit behandelt die Technik, die Einsatzbereiche und die Entstehungsgeschichte des Open-Source-Frameworks Hadoop.
Welche zentralen Themenfelder deckt die Dokumentation ab?
Die Arbeit konzentriert sich auf die technologische Architektur von Hadoop, seine Entwicklung im Kontext der Open-Source-Bewegung sowie seine praktische Anwendung in der Industrie.
Was ist das primäre Ziel der Forschungsarbeit?
Das Ziel ist es, aufzuzeigen, wie Hadoop durch verteilte Rechenleistung und kosteneffiziente Hardwarelösungen die Verarbeitung riesiger Datenmengen ermöglicht.
Welche wissenschaftliche Methode wurde verwendet?
Die Arbeit basiert auf einer Literaturrecherche und der Auswertung bestehender technischer Dokumentationen und Expertenberichte zu Hadoop und den zugrunde liegenden Google-Technologien.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil gliedert sich in die technische Erläuterung (GFS, HDFS, MapReduce) und die Vorstellung verschiedener Anwendungsszenarien in der IT-Praxis.
Welche Schlüsselbegriffe sind für das Verständnis essenziell?
Zu den wichtigsten Begriffen gehören MapReduce, HDFS, Big Data, Cluster-Technologie und Open Source.
Wie unterscheidet sich Googles Technologie von Hadoop?
Während Google GFS und MapReduce proprietär und intern für eigene Dienste nutzt, ist Hadoop das öffentlich zugängliche Open-Source-Pendant, das aus diesen Ideen hervorging.
Warum ist Hadoop für Unternehmen wirtschaftlich attraktiv?
Hadoop ermöglicht den Einsatz kostengünstiger Standard-Server anstelle teurer Spezialhardware und bietet gleichzeitig eine hohe Skalierbarkeit und Ausfallsicherheit.
Welche Rolle spielt Microsoft in Bezug auf Hadoop?
Nach anfänglichem Zögern setzt Microsoft Hadoop mittlerweile innerhalb der Cloud-Plattform Azure ein und integriert es mittels spezieller Konnektoren in bestehende SQL-Infrastrukturen.
- Citar trabajo
- Sebastian Chilcott (Autor), 2012, Hadoop: Technik, Einsatzbereiche, Geschichte, Múnich, GRIN Verlag, https://www.grin.com/document/212469