Leseprobe
Inhalt
Abkürzungsverzeichnis
Abbildungsverzeichnis
1. Einleitung
1.1. Hinführung zum Thema und Zielsetzung der Arbeit
1.2. Aufbau der Arbeit
2. Theoretische Grundlagen zum Thema Big Data
2.1. Begriffserklärung Big Data
2.2. Einsatzgebiete von Big Data
2.3. Technische Grundlagen
3. Big Data im unternehmerischen Kontext
3.1. Erwartungshaltung und potenzieller Nutzen von Big Data
3.2. Probleme und Herausforderungen von Big Data
3.3. Auswirkungen auf Unternehmen
4. Schlussbetrachtung
4.1. Fazit
4.2. Ausblick
5. Quellen- und Literaturverzeichnis
Abkürzungsverzeichnis
HANA High Performance Analytic Appliance
NoSQL Not only Structured Query Language
IDC International Data Corporation
Abbildungsverzeichnis
Abbildung 1: Prognose Datenmenge 2016 und 2025 (in Zettabyte)
Abbildung 2: MapReduce Programmiermodell
Abbildung 3: Umfrage zum Potenzial von Big Data
1. Einleitung
1.1. Hinführung zum Thema und Zielsetzung der Arbeit
Big Data zählt zu den Schlüsselbegriffen der zentralen Debatte des technologischen Wandels. Laut der 2011 durchgeführten Studie namens Digital Universe, sollte das Datenvolumen 2011 die 1,8 Zettabyte-Marke erreicht haben. Umgerechnet entspricht das 1.8 Billionen Gigabyte. Das Datenvolumen ist innerhalb eines Jahres auf einen Wert von 2.8 Billionen Gigabyte (2012) angestiegen. Für das Jahr 2020 prognostizieren Experten einen Wert von bis zu 40 Zettabyte. Die Menschheit hat als Gesellschaft nie das Ziel verfolgt, möglichst viele Daten zu produzieren, doch nahezu jeder Mensch trägt täglich zur Entstehung der Menge an Daten bei. Dies ist nicht zuletzt aus neuen Kommunikationsstrukturen mit neuartigen Technologien entstanden. Des Weiteren haben enorme technische Entwicklungen der vergangenen Jahre völlig neue Möglichkeiten der digitalen Datensammlung, Datenspeicherung und Datenauswertung eröffnet.
Die Produktion digitaler Daten ist in den vergangenen Jahren exorbitant angestiegen und die Menge an Daten hat sich im Schnitt alle zwei Jahre verdoppelt. Grund hierfür sind technologische Weiterentwicklungen, wie die Entwicklung neuer mobiler Endgeräte und neuer Messtechniken. Jeder Mausklick am Computer, jeder Schritt, jeder Pulsschlag lässt sich heutzutage dokumentieren und analysieren. Die zunehmende Digitalisierung sowie die damit verbundene Generierung von Daten bietet Unternehmen die Chance, eine große Menge an Informationen über ihre Produkte und Kunden zu erhalten. Die Auswertung und Integration von Daten in unternehmerische Prozesse hat in den vergangenen Jahrzehnten stark zugenommen und einen großen Teil zur Effizienzsteigerung und der Prozessunterstützung beigetragen. Um sich ein Bild zu machen, wie groß der Einfluss der neuen Technologien ist, muss man die heutigen Möglichkeiten und Kommunikationsformen mit denen vergleichen, die noch vor 30 Jahren vorherrschten. Durch die stetig wachsenden Datenmengen ist das Thema omnipräsent in den Medien. Big Data zählt heutzutage zu den zentralen Fragestellungen, welche die IT-Entwicklung auch in Zukunft prägen und mitbestimmen wird.
Das Ziel der vorliegenden Arbeit ist, zu klären, welche Erwartungshaltung Unternehmen gegenüber den Big Data Technologien haben und welchen potenziellen Nutzen sie darin sehen. Des Weiteren wird erläutert, welche Probleme und Herausforderungen Big Data mit sich bringt und wie sich Big Data Technologien auf Unternehmen auswirken. Zusätzlich sollen aktuelle Einsatzgebiete herausgestellt und technische Grundlagen von Big Data erklärt werden.
1.2. AufbauderArbeit
Um die Frage so umfassend wie möglich zu beantworten, ist die vorliegende Arbeit wie folgt aufgebaut. Grundlegend ist die Hausarbeit in zwei Schwerpunkte unterteilt. Hinzu kommen die Einleitung, das Fazit sowie ein Ausblick.
Im ersten Schwerpunkt werden theoretische Grundlagen für ein besseres Verständnis erarbeitet. Diese umfassen die ausführliche Definition des Begriffs Big Data. Um den Leser besser in das Thema einzuführen, werden mit der Definition zu Big Data auch die verschiedenen Erscheinungsformen erklärt. Anschließend werden die Einsatzgebiete sowie die theoretischen Grundlagen dargelegt.
Im zweiten Schwerpunkt wird die Eignung und Verwendung von Big Data in Unternehmen konkretisiert. Der Schwerpunkt umfasst die Erwartungshaltung der Unternehmen und den potenziellen Nutzen von Big Data. Hinzu kommt das Thema Probleme und Herausforderungen. Der nächste Punkt beleuchtet die Auswirkungen auf Unternehmen.
Im Schlussteil der Hausarbeit wird ein Fazit gezogen und ein Ausblick auf das Thema Big Data in der Zukunft gewährt.
2. Theoretische Grundlagen zum Thema Big Data
In diesem Kapitel werden die, für das Verständnis der gesamten Arbeit, notwendigen Grundlagen beschrieben.
2.1. BegriffserklärungBigData
Der Begriff Big Data unterliegt vielfältigen Definitionen, da es keine allgemeinverbindliche Definition gibt. Dementsprechend müssen zunächst die Eigenschaften geklärt werden, die Big Data von normalen Daten unterscheiden. Bei Big Data handelt es sich um Datensätze, die sowohl aufgrund ihrer Komplexität als auch ihrer Größe mit den Kapazitäten der Datensatzanalyse nicht mehr analysiert und verarbeitet werden können. Des Weiteren zeichnet sich Big Data, im Gegensatz zu traditionell angelegten Datensätzen, durch heterogene Strukturen aus. Sie setzen sich oftmals aus verschiedenen kleineren homogenen Datensätzen zusammensetzen. Dies können in Bezug auf Personen zum Beispiel Videos, Daten des Kaufverhaltens oder Daten aus sozialen Netzwerken sein. Diese Daten werden gesammelt, sortiert und mit neuen, technischen Werkzeugen und Algorithmen analysiert.1 Nicht nur das Internet erzeugt enorme Datenmengen, sondern auch unzählige Informationssysteme in Unternehmen weltweit.2 Traditionelle Datenbanken stoßen bei der Verarbeitung von Big Data schnell an ihre Grenzen. Zur Verarbeitung von unstrukturierten, strukturierten und semi-strukturierten Datenmengen werden neuartige Big Data Technologien eingesetzt, um Abweichungen, Zusammenhänge oder Trends aus den Informationen zu analysieren, Entscheidungen zu verbessern und den Unternehmenswert zu steigern.3 Der Begriff Big Data lässt wörtlich darauf schließen, dass er über eine bestimmte Menge an Daten definiert ist. Eine solche Definition wäre in dem Zusammenhang jedoch weder hilfreich noch sinnvoll. Eine sinnvolle und anerkannte Definition charakterisiert Big Data anhand von mehreren Kriterien. Um den Begriff Big Data zu beschreiben, werden oft die sogenannten drei „V’s“ verwendet. Diese Definition von Big Data setzt sich aus den englischen Begriffen volume, velocity und variety zusammen.
Der Aspekt „Volume“ beschreibt das große anfallende Datenvolumen der zu verarbeitenden Informationen. Die anfallenden Daten werden mittlerweile in Größenordnungen von Petabytes, Exaytes und Zettabytes gemessen. Grund hierfür ist die zunehmende Digitalisierung. Große Datenmengen können schon beim Speichern Probleme bereiten. Aus diesem Grund ist es ist wichtig präventiv ein geeignetes Speichersystem anzulegen.4 Wie stark die jährlich produzierte Datenmenge voraussichtlich bis zum Jahr 2025 steigen wird, zeigt eine Studie der International Data Corporation aus dem Jahre 2017. (Abb. 1)
Abbildung in dieser Leseprobe nicht enthalten
Abb. 1 Prognose zum Volumen der jährlich generierten digitalen Datenmenge weltweit in den Jahren 2016 und 2025 (in Zettabyte)5
Auch der Aspekt „Velocity“ erhöht die Ansprüche an das Speichermedium. Laut Bachmann, Kemper und Gerzer umfasst der Aspekt der Geschwindigkeit zwei wesentliche Eigenschaften. Das stark wachsende Datenvolumen muss durch neue Technologien der Datenverarbeitung gestützt werden, um die großen Datenmengen schneller sowie effizienter verarbeiten zu können. Aus diesem Grund muss die Verarbeitungsgeschwindigkeit stetig erhöht werden. Des Weiteren unterliegen die Daten der Analysen einer stetigen Dynamik. Diese wird zum Beispiel durch Profiländerungen von Nutzern in sozialen Netzwerken verursacht. Durch die Aktualisierung der Daten gilt es neue Daten und Bestandsdaten zu trennen, da sonst keine schlüssige Interpretation der Daten möglich ist. Ein weiterer Problempunkt entsteht dann, wenn die Informationsverarbeitung in Echtzeit geschehen soll. Dies ist dann wichtig, wenn bestimmte Ergebnisse aus den Informationen innerhalbgenau definierterZeitgrenzen nach ihrem Eintreffen bereitstehen sollen.6 Bei dem Aspekt „Variety,, ist die Vielfalt der Daten gemeint, die zur Analyse herangezogen werden. Durch verschiedene Informationsquellen fallen in einem Big Data System viele verschiedene Datenformate an. Im Kontext von Big Data liegen oft heterogen strukturierte Daten vor, was die Analyse erschwert, da die Daten keine festen Strukturen aufweisen und sie untereinander in Beziehung stellen. Unterschieden wird dabei zwischen strukturierten Daten wie relationale Datenbanken, semistrukturierten Daten wie formatierte Texte, bis hin zu unstrukturierten Daten wie von Menschen erfasste Bilder.7
2.2. Einsatzgebiete von Big Data
Zu den Anwendungsgebieten zählen heutzutage E-Commerce, Warenwirtschaft, Logistik und die IT. Die IT nutzt Big Data für die Suche nach IT-Problemen, wie zum Beispiel Sicherheitslücken, die Performance- und Nutzungsoptimierung sowie eine vorausschauende IT-Wartung und Instandhaltung.8 Big-Data-Anwendungen kommen vermehrt im privatwirtschaftlichen Sektor, als auch in staatlichen Kontexten zum Einsatz. Durch die wachsenden Datenbestände ergeben sich für staatliche Akteure neue Möglichkeiten, ihre Entscheidungen präziser an den gesellschaftlichen Bedürfnissen auszurichten. Diese Potenziale werden bislang jedoch noch nicht voll ausgeschöpft. Die Stadtplanung greift schon lange auf empirische Erhebungen zurück und könnte durch einen stärkeren Fokus auf Big Data vollkommen neue Möglichkeiten eröffnen. Ein weiterer Aspekt der Verwendung von Big-Data-Analysen für staatliche Zwecke ist die innerstaatliche Gefahrenabwehr. Die Analyse großer Datenbestände kommt in Polizeibehörden immer häufiger zum Einsatz. Big Data wird für vorrauschauende Polizeiarbeit genutzt, um Verbrechensschwerpunkte in verschiedenen Stadtteilen zu analysieren oder um die Tageszeiten zu bestimmen, in denen es vermehrt zu bestimmten Straftaten kommt. In der Wissenschaft ist die Auswertung von großen Datenmengen bereits seit längerer Zeit etabliert. Auch in der empirischen Sozialforschung eröffnen sich erhebliche Potenziale. Daten wurden bislang in erster Linie über Befragungen gewonnen. Dank Big Data kann man nun anhand von Analysen der Beobachtungsdaten, wie sie zum Beispiel bei der Internet-Nutzung entstehen, neuen Wirkzusammenhängen nachgehen.
Darüber hinaus ist Big Data zunehmend aus individueller Perspektive ein Thema. Die „Quantified Self“-Bewegung findet immer größere Verbreitung. Hieraus ergeben sich für Unternehmen viele verschiedene wirtschaftliche Betätigungsfelder. So beginnen beispielsweise Versicherungen ein Interesse an den entstehenden Datenbeständen zu entwickeln.9 Des Weiteren entstehen neue Produktinnovationen wie zum Beispiel die Apple Watch, die täglich persönliche Daten des Trägers erfasst. Es ist davon auszugehen, dass zukünftig eine hohe Anzahl von persönlichen Daten des Alltags über Sensoren aufgezeichnet werden. Hierzu zählen zum Beispiel detaillierte Rückschlüsse über Ernährungsgewohnheiten oder die Entwicklung der Gesundheit. Neben Smart Watches gewinnt auch der Bereich Smart Mobility in den letzten Jahren zunehmend an Bedeutung. Es geht um Technologien, die das Fahrverhalten von Autofahrern ausführlich protokollieren. So können beispielsweise geschlechtsspezifische Unterschiede im Fahrverhalten auf der Basis konkreter Daten analysiert werden.10
2.3. Technische Grundlagen
Big Data stellt Entwickler und Unternehmen zunehmend vor neue technische Probleme und Herausforderungen. Damit die Frage „Was machen wir mit den Datenmengen?“ gezielt gelöst werden kann, müssen Entwickler zur Speicherung und Analyse der Daten neue Technologien entwickeln. Bisherige Lösungen der Hardware und Software stoßen bei den Datenmengen, die heutzutage anfallen, schnell an ihre Grenzen. Die reine Vergrößerung der Speicherkapazität oder die Leistungssteigerung der Server reichen dabei nicht aus. IT-Experten raten den Unternehmen daher zur kompletten Umstrukturierung und Überarbeitung der Informationstechnik.11
Eine Lösung für einen angemessenen Umgang mit Big Data ist die passende Storage- Technik. Alte Festplattentechniken sind den anfallenden Datenmengen nicht mehr gewachsen. Hersteller arbeiten daher an Flash-basierten Speichermedien, mit dem Ziel, die Kosten pro Bit zu reduzieren und die Speicherkapazität sowie die Leistung zu maximieren.12 Ein weiterer Punkt, der bei der Erneuerung der Big Data Technologien beachtet werden sollte, sind die Techniken der Datenbanken. Herkömmliche Datenbanken kapitulieren vor den Datenmengen und vor allem vor der Komplexität der Daten. Die Mengen an unterschiedlichen Datentypen wie Bilder, Videos, Textdaten oder Musik, können von herkömmlichen Lösungen nicht mehr verarbeitet werden. Bei unstrukturierten Daten, wie Big Data, werden nicht-relationale Datenbanken verwendet. Diese werden als NoSQL bezeichnet. Neben NoSQL existieren außerdem In-Memory-Techniken, die den Umgang mit Big Data erleichtern. Der große Vorteil von In-Memory-Datenbanken ist die kurze Verarbeitungszeit. Die Verarbeitungszeit wird deutlich verkürzt, da die angesammelten Daten schon im Arbeitsspeicher gespeichert sind und nicht von einer Festplatte geladen werden müssen. Beispiel für eine In-Memory-Technik ist HANA. HANA ist eine Technologie- und Entwicklungsplattform des Softwareherstellers SAP, mit der Unternehmen große Datenmengen auswerten können. Big-Data-Technologien basieren aufdem Prinzip des „verteilten Rechnens“, „distributed computing“ (engl.). Gearbeitet wird auf einer Vielzahl von vernetzten Servern, auch Serverfarmen genannt. Apache Hadoop ist ein Software Framework für die Verarbeitung von großen Datenbeständen, das über ein großes Cluster von Computern verteilt ist. Apache Hadoop ist Open Source und seit dem Jahr 2008 ein Projekt der Apache Software Foundation. Verschiedene globale Unternehmen setzen auf Hadoop, darunter unter anderem Facebook, Twitter und Yahoo. Apache Hadoop ist der Standard für verteiltes Rechnen mit MapReduce. Anwendungen werden mit dem Hadoop Distributed File System im Cluster verteilt. Diese Vorgehensweise wird vom MapReduce Programmiermodell beschrieben. In diesem Modell besteht ein Programm aus zwei separaten Schritten. Der Map Schritt ist die Anwendung einer Berechnung auf alle Eingabedaten. Die Ergebnisse der Berechnungen werden anschließend im Reduce Schritt zum Ergebnis zusammengefügt. Das Framework übernimmt das Verteilen der Anwendung zu den Knotenpunkten mit Eingabedaten sowie das Transferieren der Ergebnisse zum Reducer. Der Programmierer muss in Hadoop ausschließlich die beiden MapReduce Schritte implementieren. Abbildung 2 illustriert dieses Vorgehen.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2 MapReduce Programmiermodell13
Die Kernkomponenten von Hadoop sind das Hadoop Distributed File System, das Java Framework und eine Ausführungsumgebung für MapReduce Programme. Als erstes werden Anwendungen mit dem Hadoop Distributed File System im Cluster verteilt. Der Programmierer wird beim Verfassen von MapReduce Anwendungen durch das Java Framework unterstützt. Die passende Ausführungsumgebung verteilt die Anwendung im Cluster, führt sie aus und steuert die Kommunikation zwischen den verschiedenen Programminstanzen.14
3. Big Data im unternehmerischen Kontext
Auf Grundlage dieses theoretischen Gerüsts ist es wichtig zu betrachten, wo und wie sich Unternehmen die Daten zu Nutze machen können, um ihre Ziele zu erreichen und welche Erwartungshaltung sie gegenüber den Big Data Projekten haben. Dabei werden in diesem Kapitel die Erwartungshaltung und der potenzielle Nutzen von Big Data behandelt, Probleme und Herausforderungen dargelegt sowie die Auswirkung auf Unternehmen beschrieben.
[...]
1 Arthur, L. (2013, S.29)
2 Vgl. Schön, D. (2016, S.297)
3 Vgl. Schön, D. (2016, S.298)
4 Bachmann/Kemper/Gerzer (2014, S.24)
5 Vgl. Abb. 1 https://de.statista.com/statistik/daten/studie/3979/umfrage/e-commerce-umsatz-in- deutschland-seit-1999/ (Stand: 18.02.18 19:30)
6 Vgl. Bachmann/Kemper/Gerzer (2014, S.24-25)
7 Vgl. Bachmann/Kemper/Gerzer (2014, S. 27)
8 Vgl. Schön, D. (2016, S. 299)
9 Vgl. Versicherungen und die ,Big-Data-Revolution’, http://www.swissinfo .ch/ger/ohne-wearab- les-keine-krankenversicherung-_versicherungen-und-die-big-data-revolution-/41389092. (Stand: 13.02.18 23:35)
10 Vgl. Big Data und Geschäftsmodell-Innovationen in der Praxis, ://www.bitkom.org/Bitkom/ Publikationen/ Big-Data-und-Geschaeftsmodell-lnnovationen-in-der-Praxis-40-Beispiele.html. (Stand: 13.02.18 23:35)
11 Vgl. Manhart Klaus, Big Data im Griff, (2013, S.1)
12 Vgl. Rouse, Flash-basierte Solid State Drives (SSD) http://www.searchstorage.de/definition /Flash-basierte-Solid-State-Drives-SSD (Stand: 18.02.18 19:30)
13 Vgl. MapReduce als Programmiermodel, https://www.google.de/search?q=mapreduce +pro- grammiermodell&client=firefox-b&dcr=0&source=lnms&tbm=isch&sa=X&ved=OahUKE wiwr47FmLDZAhVPEVAKHc5NB54Q_AUICygC&biw=1680&bih=886#imgrc=NeJab96tY- vHSOM: (Stand: 18.02.18 19:40)
14 Vgl. Hadoop Wiki, http://wiki.apache.org/hadoop/PoweredBy (Stand: 18.02.18 20:00)
- Arbeit zitieren
- Anonym, 2018, Warum ist Big Data für Unternehmen wichtig?, München, GRIN Verlag, https://www.grin.com/document/1030999
Kostenlos Autor werden
Kommentare