Machine Learning. Welche Potenziale und Hürden hat es?


Bachelorarbeit, 2021

57 Seiten, Note: 1,7


Leseprobe

Inhaltsverzeichnis

Inhaltsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

Abkürzungsverzeichni

Abstract

1 Einleitung
1.1 Forschungsfrage und Hypothese
1.2 Vorgehensweise und Struktur
1.3 Einführung in die Thematik – Begriffsdefinitionen
1.4 Big Data
1.5 Labeled – Unlabeled Data
1.6 Neuronale Netze

2 Machine Learning
2.1 Was ist Machine Learning? - Definition
2.2 - Wie funktioniert Machine Learning?
2.3 Arten von Maschine Learning
2.3.1 Überwachtes Lernen (Supervised Learning)
2.3.2 Unüberwachtes Lernen (Unsupervised Learning)
2.3.3 Teilüberwachtes Lernen (Semi-Supervised Learning)
2.3.4 Bestärktes Lernen (Reinforcement Learning)
2.4 Modelltypen - Klassifizierungsarten beim Machine Learning
2.4.1 Lineare Klassifikation
2.4.2 Lineare Regression
2.4.3 Support Vector Machines (SVM)
2.4.4 Decision Trees
2.4.5 Multi-Layer Perceptrons
2.4.6 Clustering – k-means Clustering:
2.4.7 Künstliches Neuronales Netzwerk

3 Potenziale
3.1 Effizientere Auswertung von visuellen Daten
3.1.1 Deep Learning
3.2 Echtzeitauswertung
3.2.1 Online-Lernen
3.3 Anpassungsfähigkeit und Flexibilität beim ML
3.3.1 Transfer Lernen
3.4 Machine Learning mit wenig Daten
3.4.1 One-Shot-Lernen
3.5 Bewertung der Potenziale

4 Hürden
4.1 Technische Hürden
4.1.1 Qualität der Daten
4.1.2 Mangelnde Fachkräfte
4.1.3 Hackerangriffe
4.2 Rechtliche Hürden
4.2.1 Datenschutz
4.2.2 Haftung
4.3 Gesellschaftliche Hürden
4.3.2 Akzeptanz und Nachvollziehbarkeit
4.4 Bewertung der Hürden

5 Marktanalyse
5.1 Marktgröße
5.2 Marktwachstum & Marktdynamik
5.3 Marktpotenzial
6 Fazit und Ausblick
6.1 Beantwortung der Forschungsfrage mithilfe der bisherigen Erkenntnisse
6.2 Überprüfung der Forschungshypothese mit den bisherigen Erkenntnissen
6.3 Ausblick

7 Literaturverzeichnis

Abbildungsverzeichnis

Abbildung 1: Aufbau eines natürlichen Neurons (explainitarium, 2014)

Abbildung 2: Allgemeine Darstellung von Machine Learning (Gollapudi, 2016)

Abbildung 3: Supervised Learning (Mehta, o. D.)

Abbildung 4: Unsupervised Learning (Mezic, o.D.)

Abbildung 5: Machine Learning Modelle (Gollapudi, 2016)

Abbildung 6: Lineare Klassifikation (javapoint, o.D.)

Abbildung 7: Lineare Regression (Bonnin, 2017)

Abbildung 8: Lineare Klassifikationsmöglichkeiten (Kubat, 2017)

Abbildung 9: Support Vector Machines – Spielraum (Kubat, 2017)

Abbildung 10: Decision Tree (Perpetual Enigma, 2016)

Abbildung 11: MLP Classifier (Kubat, 2017)

Abbildung 12: k-means Clustering - Clusterzentren (Inga Döbel, 2018)

Abbildung 13: Künstliches Neuronales Netz

Abbildung 14: Deep Learning, Image Klassification (Arvanitidou, 2020)

Abbildung 15: Ansätze Transfer-Lernen/ Wiederverwendung von Netzen (Inga Döbel, 2018)

Abbildung 16: Durchführung einer Marktanalyse (Eigene Darstellung)

Abbildung 17: Umsatzzahlen Alteryx A 2014 – 2020 (FactSet, 2021)

Abbildung 18: Umsatzprognose von Alteryx (Eigene Darstellung) (FactSet, 2021)

Tabellenverzeichnis

Tabelle 1: Bewertung der Potenziale (Eigene Darstellung)

Tabelle 2: Schema Evaluation der Hürden (Eigene Darstellung)

Tabelle 3: Beurteilung der Hürden (Eigene Darstellung)

Abkürzungsverzeichnis

DL – Deep Learning

DSGVO – Datenschutzgrundverordnungs

DT - Decision Tree

IDC – International Data Corporation

IDG – International Data Group

IDG – Information Services Group

KI – Künstliche Intelligenz

KNN – Künstliches Neuronale Netzwerk

ML – Machine Learning

NN – Neuronale Netze

Abstract

Der Autor macht sich mit dieser Arbeit zur Aufgabe, dem Leser einen klaren Überblick über die Grundprinzipien von Machine Learning zu verschaffen. Der Fokus hierbei liegt bei den Potenzialen und Hürden von Machine Learning. Vorerst werden Grundbegriffe, die im Machine Learning häufig wiederzufinden sind, und die für das weitere Verständnis essenziell sind, genauer erläutert. Machine Learning wird unterteilt in verschiedene Arten des Lernens sowie Lernmodelle und anhand dieser Arten werden die Potenziale vorgestellt und analysiert. Ebenso werden vorhandene Hürden vorab vorgestellt, analysiert und bewertet. Der Einfluss von Machine Learning Anwendungen bzw. Technologien auf die Unternehmen wird mit Hilfe einer Marktanalyse durchleuchtet und angesichts dieser Erkenntnisse wird eine Prognose abgegeben.

The author is concerned with this work, to give the reader an understandable overview about the ultimate principle of machine learning. The key aspect here are the pontials and obstacles of machine learning. First of all, the fundamental terms will be explained, which are essential for the understanding. The potentials are presented and analyzed on the bases of existing cases. The existing obstacles are also analyzed and assessed. The influence of machine learning on the companies is examined with the help of a market analysis and based on that, a forecast will be given.

1 Einleitung

In der Gesellschaft bekommt man immer wieder zu hören, dass unsere Zukunft durch Künstliche Intelligenz (KI) und Machine Learning (ML) bestimmt werden wird. Es wird jedoch oft unterschätzt, wie oft man bereits heute im Alltag damit in Berührung kommt. Der große Einfluss von Machine Learning ist klar und deutlich zu erkennen, ob es nun autonom fahrende Autos sind, Sprachassistenten oder sogar die einfache Textkorrektur auf dem eigenen Smartphone. (Brunner, 2019)

Experten sehen Machine Learning als die Schlüsseltechnologie der Künstlichen Intelligenz (KI). Dabei beschränkten sich ML-Anwendungen nicht nur auf physische Geräte und Roboter, sondern können auch rein digitale Anwendungen in IT-Systemen sein. Beispiele hierfür sind Chatbots, Social Bots, Gamebots oder Robo-Journalisten uvm. (Inga Döbel, 2018)

Machine Learning war bereits ab den 1950er Jahre bekannt, d.h. Computer konnten tatsächlich lernen, genetische Algorithmen und neuronale Netze dienten hierbei als Grundlage. Jedoch konnten diese Maschinen (Computer) noch nicht viel lernen, da zur damaligen Zeit die Rechenleistungen und verfügbaren Daten deutlich begrenzt waren. Bis heute sind die algorithmischen Mechaniken, die wir verwenden jedoch weitgehend gleichgeblieben. (Heinen, 2020)

Und heute? Was hat sich bis heute geändert? Zwar ist die Methodik, wie die Algorithmen ausgewertet werden weitgehend gleichgeblieben, jedoch was die Algorithmen an sich angeht, wurden bedeutende Fortschritte gemacht. Hierbei spielen die Verfügbarkeit der Daten und die kostengünstige Rechenleistung eine große Rolle. Da man davon ausgeht, dass die Rechenleistungen alle zwei Jahre sich etwa verdoppeln wird (Moorsches Gesetz), ist davon auszugehen, dass ML-Anwendungen immer mehr an Bedeutung und Einfluss gewinnen werden. (Heinen, 2020)

1.1 Forschungsfrage und Hypothese

Die Forschung in Richtung Machine Learning (zu Deutsch: Maschinelles Lernen) wird weiterhin zunehmen, da die Menschheit hier ein großes Potenzial sieht. Man nimmt an, dass man durch die Hilfe dieser Technologie auf vielen Gebieten schnellere bzw. effizientere Ergebnisse erzielen kann. Ganz besonders in der Industrie ist ML einer der maßgeblichen Treiber und eine große Chance für die wirtschaftliche Entwicklung. Ob man nun in der Pharmabranche durch ML Krankheiten schneller diagnostizieren kann oder ob man in der Produktion effizientere Prozesse schaffen kann, fast überall werden Potenziale entdeckt.

Jedoch existieren noch Hürden, insbesondere sowohl technische wie auch gesellschaftliche Hürden. Daher ist die Forschungsfrage dieser Arbeit folgende:

„Ist es möglich, trotz der aktuell bestehenden Hürden, die Potenziale von Machine Learning in absehbarer Zeit zu nutzen?“

Des Weiteren ist es wichtig zu untersuchen, in welchem Maße sich die Umstrukturierung der Industrie auf die weltweite KI-Branche auswirken wird. Der Autor geht davon aus, dass sich immer mehr Unternehmen mit ML beschäftigen werden, d.h. ML wird in vielen Prozessen der Unternehmen eingesetzt werden. Somit lautet die Forschungshypothese des Autors:

„Anbieter für Machine Learning Anwendungen werden in Zukunft stark profitieren, da es eine steigende Nachfrage für Machine Learning Technologien geben wird.“

1.2 Vorgehensweise und Struktur

Die Thematik Machine Learning umfasst umfangreiche Themengebiete, sowie viele verschiedenen Arten und Algorithmen des ML. Der Autor musste sich diesbezüglich in viele einzelne Themengebiete einarbeiten und die Prinzipien von ML verstehen. Des Weiteren musste sich der Autor in Neuronale Netze einarbeiten, um die Funktionsweise von Deep Learning Technologien zu verstehen. Da der Fokus auf die Potenziale und Hürden gerichtet war, musste sich der Autor, neben technischen Gebieten auch in ethische und juristische Bereiche einarbeiten.

Es wurde besonderen Wert daraufgelegt, diesen breit aufgestellten Themenbereich mit entsprechend seriösen Quellen abzuarbeiten. Dafür wurden größtenteils wissenschaftliche Literatur wie Fachbücher und aktuelle Studien zu ML genutzt. Die Beantwortung der Forschungsfrage und -hypothese wurde vom Autor aus eigenen ausgearbeiteten Ergebnissen durchgeführt, unter der Berücksichtigung der wissenschaftlichen Literatur.

Zuerst werden dem Leser einige Begriffe erklärt, die mit der Thematik zu tun haben. Anschließend im nächsten Kapitel, wird dem Leser der Begriff „Machine Learning“ genauer erläutert, damit man einen Grundbaustein für das Verständnis der weiteren Themen hat. Des Weiteren werden dem Leser mehrere Arten von ML vorgestellt und anschließend auch einige Modelle, die beim Machine Learning aktuell Anwendung finden bzw. auch in der Vergangenheit bereits genutzt wurden.

Bei den Potenzialen wird hauptsächlich auf Deep Learning eingegangen, da diese Technologie die größte Aufmerksamkeit im Machine Learning auf sich zieht. Dabei haben die Begriffe Deep Learning im allgemeinen, Transfer-Lernen, One-Shot-Lernen je eine besondere Bedeutung. Im anschließenden Kapitel werden die Hürden vorgestellt, hierzu gibt es sowohl technische, gesellschaftliche als auch ethische Hürden. Auch diese Hürden wurden auf ihre Überwindbarkeit bewertet. Das letzte Kapitel ist die Marktanalyse von ML-Anwendungen, ob und inwieweit sich dieser Markt entwickeln wird und was dies für die Unternehmen bedeutet. Zum Schluss werden die Ergebnisse der Arbeit analysiert und die Forschungsfrage wird daraufhin beantwortet.

1.3 Einführung in die Thematik – Begriffsdefinitionen

Vorerst werden einige Begriffe erklärt, damit der Leser die Zusammenhänge besser verstehen kann.

1.4 Big Data

Der Begriff Big Data bezeichnet riesige, umfangreiche Datenmengen, die unstrukturiert oder semi-strukturiert sein können, welche aus Bereichen des Internets, der Finanzindustrie, des Gesundheitswesens, der Kommunikation oder der Energiewirtschaft und Verkehr aus Quellen der sozialen Medien, von intelligenten Agenten, Assistenzgeräten, Überwachungskameras, Kredit- und Kundenkarten, Flug- und Fahrzeugen uvm. stammen. Diese werden mit speziellen Lösungen verarbeitet, ausgewertet und anschließend gespeichert. (Lexikon, 2019)

Big Data wird von Gartner wie folgt definiert:

„Big Data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making.“ (Bachmann Ronald, 2014, S. 23)

Diese Aussage von Gartner fasst drei wesentliche Punkte von Big Data zusammen. Dazu zählen:

- Volume – ist das Datenvolumen
- Variety – bezieht sich auf die Vielfalt der Daten, welche aus verschiedenen Quellen stammen
- Velocity – wird als Geschwindigkeit der Verarbeitungsdynamik und Veränderungs-dynamik verstanden

Zusätzlich zu diesen ergänzt IBM eine Dimension, Veracity – Richtigkeit der Daten bzw. die Datenqualität. Der Begriff Value (Mehrwert der Daten) ergänzt die Definition von Big Data aufgrund des wirtschaftlichen Nutzens, der erzeugt wurde. (Pascak Rossa, 2014)

Big Data treibt ML voran:

Machine Learning hat durch die Fortschritte in Bezug auf Big-Data-Techniken einen großen Schub erhalten. Für die großen Datenmengen, die beim ML vorhanden sind und effektiv verarbeitet werden müssen, stellen Big-Data-Systeme eine ideale Basis dar. Strukturierte und unstrukturierte vorhandene Daten lassen sich durch Big Data zügig und mit sehr geringem Hardwareaufwand analysieren. Diese Daten lassen sich anschließend einem Lernalgorithmus als Trainings- oder Beispieldaten zuführen. (Luber Stefan, 2016)

1.5 Labeled – Unlabeled Data

Um Machine Learning besser zu verstehen, sollte der Leser wissen, dass es im ML labeled („beschriftete“) und unlabeled („unbeschriftete“) Daten geben kann. Unbeschriftete Daten sind generell Rohformen von Daten, welche im Überfluss leicht verfügbar sind. Diese können Videostreams, oder Audio- oder Fotodaten sein und haben keine Erklärung, was sie bedeuten. Sobald jedoch eine Bedeutung an die unbeschrifteten Daten angehängt wird (sie gelabeled werden), werden diese zu beschrifteten Daten. Es geht darum einen „Tag“ oder „Label“ anzuhängen, um die Relevanz zu interpretieren und zu definieren. Bspw. können Etiketten für Fotos die Details beschreiben, wie „Baum“, „Tier“, etc. Genauso wäre dies bei Audiodateien usw. (Gollapudi, 2016)

Beschriftete Daten sind viel aufwändiger bereitzustellen, da sie vom Menschen bearbeitet werden müssen und sind daher auch erheblich teurer. Generell werden beschriftete Daten von Überwachten Lernmodellen verwendet und unbeschriftete von Unüberwachten Lernmodellen. (Gollapudi, 2016)

1.6 Neuronale Netze

Das menschliche Gehirn ist fähig, auch ohne ausdrückliche Anweisungen aus Erfahrungen zu lernen. Seit der Existenz der Informatik ist es das ultimative Ziel, diesen Prozess mit technischen Mitteln nachzuahmen. Daher fungieren Neuronale Netze als begehrte Werkzeuge, da sie dem menschlichen Gehirn mit seinen Neuronen (Nervenzellen) vorzugsweise am besten entsprechen. Damit man sich bei der Thematik künstliche Neuronale Netze besser zurechtfindet, ist es sinnvoll, sich die Funktionsweise eines natürlichen Neurons anzusehen. Es wird sich zeigen, dass sich das Prinzip, welches hinter der Funktion von Nervenzellen steckt, sehr gut auf ein Softwaremodell projizieren lässt. Ein menschliches Neuron besteht hauptsächlich aus drei Komponenten: (Ziegler, 2015)

- Zellkörper: nicht relevant für die Betrachtung von NN
- Dendrit: fungiert als Inputelement der Nervenzelle
- Axon: ist die Darstellung des Outputs einer Nervenzelle und ist mit den Dendriten der anschließenden Nervenzellen über den synaptischen Spalt verknüpft (Ziegler, 2015)

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Aufbau eines natürlichen Neurons (explainitarium, 2014)

Zusammengesetzt aus den Dendriten von einem Neuron und einem Axon des nachkommenden Neurons, dient der synaptische Spalt als Verbindungsglied zwischen den Nervenzellen und er ermöglicht somit den Informationsaustausch und auch den Lernprozess im menschlichen Gehirn. Ein Neuron nimmt eingehende Signale über den Dendriten auf und leitet diese in einer Anordnung von elektrischen Impulsen mittels des Axons weiter, was innerhalb eines Neurons stattfindet. Am Axon wiederum wird die Summe der elektrischen Impulse in chemische Signale hinsichtlich von Ausschüttungen von bestimmten Botenstoffen (Neurotransmitter) übersetzt. Wird ein Schwellwert durch die Menge an ausgeschütteten Botenstoffen überschritten, bringt dies eine elektrische Stimulation sowie eine Impulsbildung an Dendriten der angeknüpften Nervenzelle hervor. Dies entscheidet darüber, ob die Signale weitergegeben werden oder nicht. Daher gelangt man zur Erkenntnis, dass zwischen Neuronen der Informationsaustausch und somit auch die Lernvorgänge hauptsächlich abhängig sind von den synaptischen Übergangsfaktoren. (Ziegler, 2015)

Wenn man dieses Prinzip auf möglichst einfache Form abstrahieren würde, wäre das Ergebnis folgende Zusammenstellung eines künstlichen Neurons:

- Eine Anzahl an Inputdaten stimulieren die Dendriten.
- Die Summe dieser Inputdaten entspricht dem kompletten Stimulus, welcher auf ein Neuron und somit als Auslöser (Impuls) im Axon wirkt.
- Schwellenwert innerhalb des synaptischen Spaltes kann anhand einer Aktivierungsfunktion, welche auf die vorher errechnete Summe benutzt wird, stimulieren.
- Es ergibt sich daher ein Ausgabewert eines Neurons. (Ziegler, 2015)

2 Machine Learning

2.1 Was ist Machine Learning? - Definition

Machine Learning (deutsch: Maschinelles Lernen) ist eine Anwendung, welche ohne konkrete Programmierung Systemen erlaubt, selbstständig aus Erfahrungen (Daten) zu lernen und sich automatisch zu verbessern. (Wuttke, 2020)

Machine Learning bezeichnet man als ein Teilgebiet der Künstlichen Intelligenz. Der Aufgabenbereich dieser Technologie ist sowohl die Erkennung von Mustern und Gesetzmäßigkeiten als auch die anschließende Ableitung geeigneter Lösungsansätze. Die Basis für das Erkennen der Muster bilden vorhandene Datenbestände, d.h. die Technologie erzeugt ein künstliches Wissen aufgrund von gemachten Erfahrungen . Diese gewonnenen Erkenntnisse kann man für weitere Problemstellungen verwenden, dies ist auch ein Ansatz für die Aufbereitung und Verwendung von unbekannten Daten. (Weissenberg Solutions, 2019)

Nichtsdestotrotz müssen menschliche Vorleistungen erbracht werden, um die maschinellen Lernprozesse zu nutzen. Menschliche Anwender müssen mit relevanten Daten und Algorithmen die entsprechenden Systeme versorgen. Des Weiteren müssen für die Datenanalyse und die Mustererkennung Regeln definiert und festgehalten werden, damit die Systeme die notwendigen Daten identifizieren, selektieren und zusammenfassen können. Deshalb sind auch Prognosen, die auf bisherigen Analysen basieren möglich. Durch den Einsatz von Machine Learning kann man so die Eintrittswahrscheinlichkeiten für verschiedenste Ereignisse berechnen. (Weissenberg Solutions, 2019)

2.2 - Wie funktioniert Machine Learning?

Zuerst muss ML trainiert werden, damit es funktioniert und ein Muster erkennen kann. Dies geschieht durch von einem Menschen vorbereiteten Datensatz, welcher von einem ML Algorithmus nach Zusammenhängen sowie Mustern analysiert wird. Nachdem der Trainingsprozess abgeschlossen wurde, kann das trainierte Modell verwendet werden, um unbekannte Daten auszuwerten, sodass optimale Ergebnisse erzielt werden. Der Zweck des ganzen Lernprozesses ist es, dass kein Eingriff von außen erfolgt und das System selbständig lernt und seine Aktionen dementsprechend anpasst. (Wuttke, 2020)

Natürlich benötigen diese Ergebnisse eine gewisse Qualität, welche durch mehrfaches Durchlaufen eines Modells entwickelt wird. (Wuttke, 2020)

Bei der Durchführung des Maschinellen Lernens sind generell zwei Arten von Datensätzen erforderlich. Die erste Art dieser Datensätze wird manuell vorbereitet und man verfügt bereits über die Eingabedaten und die erwarteten Ausgabedaten. Dies ist sehr wichtig, da man durch die erwarteten Ausgabedaten Regeln für den Algorithmus erstellt. Die zweite Art Datensätze sind Eingabedaten, die bereits vorhanden sind und man hier Wert darauf legt, die erwartete Ausgabe vorherzusagen. (Gollapudi, 2016)

Die Daten werden in folgende drei Datensatzarten unterteilt:

- Trainingsdatensätze: Diese Datensätze beziehen sich auf Datenbeispiele, welche zum Erlernen oder Erstellen eines Klassifikator verwendet werden.
- Validierungsdatensätze: Beziehen sich auf Datenbeispiele, die anhand des erstellten Klassifikators überprüft werden und dabei helfen, die Genauigkeit der Outputs zu optimieren.
- Testdatensätze: Beziehen sich auf Datenbeispiele, die die Leistung des Klassifikators beurteilen bzw. bewerten können.

Diese oben genannten Datensätze finden für das Durchführen von ML Verwendung. Es gibt typischerweise drei Phasen.

Die erste Phase ist die Trainingsphase, wobei Trainingsdaten dazu verwendet werden, um das ideale Modell zu trainieren. Es werden die angegeben Eingabedaten mit den erwarteten Ausgaben gepaart, daraus resultiert ein Lernmodell (Algorithmus). Die zweite Phase wird Validierungs- und Testphase genannt, in welcher gemessen wird, wie gut das Lernmodell tatsächlich ist, unter anderem werden Modelleigenschaften wie Genauigkeit, Fehlermessung, Rückruf und ähnliches bewertet. Die Validierungsdatensätze werden hier angewandt und das Ergebnis ist ein ausgeklügeltes Lernmodell. In der letzten Phase, auch Anwendungsphase genannt, ist das ML Modell realen Daten ausgesetzt und muss Ergebnisse davon ableiten. In der nachfolgenden Abbildung ist schematisch eine Darstellung gezeigt, wie das Lernen und die Vorhersagen dazu bestimmt werden. (Gollapudi, 2016)

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Allgemeine Darstellung von Machine Learning (Gollapudi, 2016)

2.3 Arten von Maschine Learning

Es gibt vier Arten des Lernens beim ML, diese sind überwachtes Lernen, teilüberwachtes, unüberwachtes und bestärktes Lernen. (Burkov, 2019)

2.3.1 Überwachtes Lernen (Supervised Learning)

Beim Überwachten Lernen werden die Daten „beschriftet“ (labeled data) damit der Computer erkennt, welchen Wert die Daten haben, um eine richtige Vorhersage abgeben zu können. Diese Methode ist für den Menschen die aufwendigste und für den Computer die einfachste, da es eine erwartete Ausgabe gibt, welche, meist durch eine manuelle Klassifizierung erfolgt. Das bedeutet, dass vordefinierte Standardantworten vorliegen, welche der Computer ausgibt. (ecloudvalley, 2019)

Da die Eingabe und die Ausgabeattribute bekannt sind, liegt der Schlüssel des Überwachten Lernens darin, die Ein- und Ausgabenwerte zuzuordnen. Der überwachte Lernalgorithmus beschäftigt sich mit dieser Verknüpfung. Bei großen Datensätzen von Ein- und Ausgabepaaren helfen diese Algorithmen bei der Vorhersage der Ausgabe mit neuen Eingabewerten. (Gollapudi, 2016)

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: Supervised Learning (Mehta A. , o. D.)

2.3.2 Unüberwachtes Lernen (Unsupervised Learning)

Beim Unüberwachten Lernen sind die Trainingsdaten nicht „beschriftet“ (not labeled). Das System klassifiziert die Daten von selbst (Clustering), indem es die Eigenschaften erkennt. Eine manuelle Klassifizierung ist nicht erforderlich, jedoch führt diese automatische Klassifizierung oft zu Fehlern. Auch in zukünftigen Vorhersagen identifiziert das System anhand von erkannten Merkmalen und Klassifizierungen, um was es sich handelt.

Wenn z.B. dem System 100 Fotos von zwei verschiedenen Tieren bereitgestellt wird, muss es entscheiden, um welches der beiden Tiere es sich handelt und muss gleichzeitig die Klassifizierung durchführen. Die Ergebnisse hierbei sind nicht unbedingt korrekt. (ecloudvalley, 2019)

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4: Unsupervised Learning (Mezic, o.D.)

2.3.3 Teilüberwachtes Lernen (Semi-Supervised Learning)

Das Teilüberwachte Lernen ist eine Mischung von Überwachtem und Unüberwachtem Lernen, d.h. es gibt sowohl „beschriftete“ als auch „unbeschriftete“ Daten. (Gollapudi, 2016)

Der Computer muss über die Eigenschaften der „beschrifteten“ Daten die „unbeschrifteten“ Daten entsprechend klassifizieren. Es ist eine Methode, welche am häufigsten verwendet wird, da die Vorhersagen meist genauer sind. (ecloudvalley, 2019)

2.3.4 Bestärktes Lernen (Reinforcement Learning)

Das Bestärkte Lernen basiert darauf, Belohnungen zu erhalten, um ein richtiges Ergebnis zu erzielen. Es funktioniert so, wie wenn man einem Kleinkind eine Gewohnheit beibringt und es dafür belohnt, wenn es den Anweisungen folgt. D.h. man findet heraus, welches Verhalten dazu verhilft, Belohnungen zu verdienen. Das Bestärkte Lernen ist dafür verantwortlich, Entscheidungen zu treffen, wofür es regelmäßig belohnt wird. Die Ergebnisse sind dabei nicht sofort zu sehen, da man erst eine Abfolge von Schritten durchläuft, bevor das Endergebnis angezeigt wird. Im besten Fall werden Entscheidungen vom Algorithmus getroffen, welche zur höchsten Belohnung oder zum höchsten Nutzen führen. (Gollapudi, 2016)

Bei dieser Art des Lernens gibt es keine „beschrifteten“ Daten, weshalb die Rückmeldung, welche Schritte bzw. Ausgaben falsch oder richtig sind, vom Menschen erfolgen. Je nach Qualität der Rückmeldung verbessert sich die Klassifizierung des Modells und man erhält das richtige Ergebnis. Durch korrektes und fehlerhaftes Lernen gleichzeitig werden nach und nach die endgültigen Vorhersagen bzw. Ausgaben genauer. (ecloudvalley, 2019)

2.4 Modelltypen - Klassifizierungsarten beim Machine Learning

Nach der Beschreibung, wie Machine Learning funktioniert, stellt sich jedoch die Frage, was macht der Algorithmus bzw. was für Lernmodelle gibt es und wie werden diese ausgeführt. In diesem Abschnitt werden einige von vielen Modellen vom Autor genauer erläutert. In Abbildung 4 sind einige von diesen Modellen kategorisiert abgebildet.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5: Machine Learning Modelle (Gollapudi, 2016)

Je nachdem, was man mit den Daten machen möchte und welche Anforderungen (Genauigkeit, Trainingsdauer, Linearität, Anzahl an Parametern und Merkmalen) man hat, verwendet man die entsprechenden Algorithmen dafür. (Lazzeri, 2020)

2.4.1 Lineare Klassifikation

Lineare Klassifizierungsmodelle gruppieren Eingabevektoren durch die Verwendung von linearen Entscheidungsgrenzen in bestimmte Klassen. Das Ziel dabei ist, Elemente mit ähnlichen Merkmalswerten Gruppen zuzuordnen. Damit der lineare Klassifikator dieses Ziel erreicht, trifft er eine Klassifizierungsentscheidung, welche auf den Werten der linearen Kombinationen der Eigenschaften basieren. (Osisanwo F.Y., 2017)

Meist wird dieser verwendet, falls die Schnelligkeit beim Klassifizieren ein Problem darstellt oder wenn die Anzahl der Dimensionen sehr groß ist, wie bei einer Dokumentenklassifizierung, bei der jedes Element die Anzahl der Zählungen eines Wortes in einem Dokument ist. Die Unterordnung zwischen den Datensatzvariablen hängt von der Marge ab, d.h. die Grenze zwischen den Datensätzen qualifiziert, wie linear trennbar ein Datensatz ist. (Osisanwo F.Y., 2017) Dies ist auf der nachfolgenden Abbildung deutlich veranschaulicht.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 6: Lineare Klassifikation (javapoint, o.D.)

2.4.2 Lineare Regression

Regression ist grundsätzlich ein statistischer Prozess, der sich bei einem Datensatz mit bestimmten Wahrscheinlichkeitsverteilungen beschäftigt. Man bestimmt, wie die Beziehung zwischen unabhängigen und abhängigen Variablen wird, welche sich aus bereitgestellten Daten ergibt. Wenn so eine Funktion, die zwischen den beschriebenen Variablen gefunden wird, wird sie als Regressionsfunktion bezeichnet. Mit solchen Funktionen kann man eine endliche Anzahl an optimalen noch unbekannten Parametern ausgeben. (Bonnin, 2017)

Bei der Linearen Regression wird eine lineare Gleichung gesucht, die Abstand zwischen den vorgegebenen Datenpunkten (Trainingsdaten) und einer modellierten Linie minimiert. Man braucht eine Modellfunktion, welche Variablen zur Steigung , zum Achsenabschnitt , eine unabhängige und eine abhängige Variable sowie eine Variable (Fehler) die den Abstand des Eingabewerts zur regressiven Linie beinhaltet. Die Summe aller Abstände werden in Form einer Funktion berechnet (auch Kostenfunktion genannt), die als Ergebnis des Lösungsprozesses Werte der unbekannten Parameter ausgibt. (Bonnin, 2017)

In Abbildung 7 ist durch die Summe der Abstände ɛ der Punkte eine Kostenfunktion (gepunktete Linie) berechnet worden, die für künftige Datenpunkte (Inputdaten) eine Lösung (Prognose) darstellt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 7: Lineare Regression (Bonnin, 2017)

[...]

Ende der Leseprobe aus 57 Seiten

Details

Titel
Machine Learning. Welche Potenziale und Hürden hat es?
Hochschule
Hochschule Albstadt-Sigmaringen; Albstadt
Note
1,7
Autor
Jahr
2021
Seiten
57
Katalognummer
V1012818
ISBN (eBook)
9783346405432
ISBN (Buch)
9783346405449
Sprache
Deutsch
Schlagworte
Machine Learning, Big Data, Maschinelles Lernen, Deep Learning
Arbeit zitieren
Mecit Akcay (Autor), 2021, Machine Learning. Welche Potenziale und Hürden hat es?, München, GRIN Verlag, https://www.grin.com/document/1012818

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Machine Learning. Welche Potenziale und Hürden hat es?



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden