Fahrzeugtechnische Systeme wie die Spurverlassenswarnung oder das Kollosionswarnsystem tragen bereits dazu bei, ermüdungsbedingte Unfälle zu reduzieren. Die vorliegende Arbeit untersucht den Einsatz von pre-trained Deep Learning-Architekturen zur Müdigkeitserkennung in Echtzeit. Dabei liegt die Verwendung von Convolutional Neural Networks (CNN) zur Bildklassifikation im Fokus. Klassifiziert wird, ob die Augen einer Person offen oder geschlossen sind. Es wird die Leistung von
drei in der Müdigkeitserkennung bereits populären CNN-Modellen – VGG16, ResNet50 und InceptionV3 – in der Echtzeiterkennung verglichen. Das Ziel ist es, dasjenige Modell zu identifizieren, das sich zur Müdigkeitserkennung am besten eignet. In der theoretischen Fundierung wird zunächst eine eingehende Literaturrecherche in den Themenbereichen Deep Learning und Transfer Learning durchgeführt. Im zweiten Abschnitt der Arbeit folgt die experimentelle Untersuchung. Die Modelle werden 30 Epochen lang auf den Media Research Lab (MRL) Eye Datensatz trainiert, wobei das Training bei Anzeichen einer Überanpassung unter Anwendung von Early Stopping vorzeitig beendet wird. Die Leistung der CNN-Architekturen wird daraufhin auf Basis der Konfusionsmatrizen berechnet und anschließend analysiert. Die Erkennung in Echtzeit wird mittels OpenCV im Live-Stream getestet. Die Resultate der Untersuchung zeigen, dass InceptionV3 mit einer Genauigkeit von 98 Prozent im Vergleich die beste Leistung erbringt. Sowohl in guten als auch in schlechten Lichtverhältnissen erzielt die Architektur herausragende Ergebnisse. Weiterführende Studien in Bezug auf leichtgewichtigere Modelle, sowie deren ressourcenschonende Integration werden diskutiert. Diese Forschungsarbeit liefert bedeutende Erkenntnisse im Bereich der automatisierten Müdigkeitserkennung und deren praktischer Anwendung in der Verkehrssicherheit.

Extrait

Inhaltsverzeichnis

Abbildungsverzeichnis
Tabellenverzeichnis
Abkürzungsverzeichnis
1 Einleitung
- 1.1. Hintergrund und Kontext
- 1.2. Problemstellung und Forschungsfragen
- 1.3. Aufbau der Arbeit
2 Theoretische Fundierung
- 2.1. Literatur Review
  - 2.1.1. Umfang des Reviews und Konzeptualisierung
  - 2.1.2. Literatursuche- und analyse
- 2.2. Machine Learning und Deep Learning
  - 2.2.1. Historischer Hintergrund
  - 2.2.2. Lernstile
- 2.3. Künstliche neuronale Netze
  - 2.3.1. Aufbau eines künstlichen Neurons
  - 2.3.2. Mehrlagiges Perzeptron
  - 2.3.3. Kosten- und Aktivierungsfunktionen
  - 2.3.4. Backpropagation
  - 2.3.5. Regularisierungsmethoden
- 2.4. Convolutional Neural Network
  - 2.4.1. Grundlagen und Bedeutung in der Bildklassifikation
  - 2.4.2. Architektur
- 2.5. Transfer Learning
- 2.6. Research Agenda und Diskussion
3 Umsetzung des Experiments
- 3.1. Zielsetzung und Herausforderungen
- 3.2. Aufbau der Untersuchung
- 3.3. Durchführung
- 3.4. Evaluierung
4 Fazit
- 4.1. Ergebnisse
- 4.2. Kritische Betrachtung
- 4.3. Ausblick für weitere Forschung
Literaturverzeichnis
Anhangsverzeichnis

Zielsetzung & Themen

Die vorliegende Arbeit zielt darauf ab, einen Leistungsvergleich von pre-trained Deep Learning-Architekturen zur Echtzeit-Müdigkeitserkennung durchzuführen und dabei dasjenige Modell zu identifizieren, das sich am besten für diese Anwendung eignet.

Untersuchung des Einsatzes von pre-trained Deep Learning-Architekturen zur Müdigkeitserkennung in Echtzeit.
Fokus auf Convolutional Neural Networks (CNN) für die Bildklassifikation, um zu bestimmen, ob die Augen einer Person offen oder geschlossen sind.
Vergleich der Leistung von drei populären CNN-Modellen: VGG16, ResNet50 und InceptionV3.
Training der Modelle auf dem Media Research Lab (MRL) Eye Datensatz.
Evaluierung der Modelle anhand von Metriken wie Genauigkeit, Präzision, Sensitivität und F1-Score, insbesondere unter Berücksichtigung unterschiedlicher Lichtverhältnisse.

Auszug aus dem Buch

2.2.1. Historischer Hintergrund

Die Entwicklungsgeschichte des Deep Learning lässt sich in drei Phasen gliedern. Der Zeitraum von etwa 1940 bis 1960 wird als Kybernetik bezeichnet, die Epoche von 1980 bis 1990 als Konnektionismus. Der erneute Aufschwung ab 2006 erhält die gebräuchliche Titulierung als Deep Learning (Goodfellow et al., 2016, S. 32). Im Folgenden soll die historische Darstellung näher erläutert werden.

Bereits in den 1830er Jahren, als der renommierte britische Mathematiker Charles Babbage das Konzept für seine mechanische Rechenmaschine Analytical Engine entwarf, wurden frühzeitige Überlegungen über eine mögliche Intelligenz von Maschinen angestellt (Lovelace, 1843, S. 21). In der Gegenwart stellt die Künstliche Intelligenz ein breites Forschungsgebiet dar. Maschinen sind in der Lage, kognitive Fähigkeiten zu demonstrieren. Hierzu zählen unter anderem die Fähigkeit zu Lernen, proaktive Interaktionen mit der Umgebung, Kompetenzen in Bezug auf Inferenz und Deduktion, visuelle Wahrnehmung, Spracherkennung sowie Problemlösungsfertigkeiten. Künstliche Intelligenz bezeichnet Aktivitäten, in denen intelligentes menschliches Verhalten von Maschinen simuliert wird (Gulli & Pal, 2017, S. 2). Alan Turing definierte eine Maschine dann als künstlich intelligent, wenn ein Mensch während seiner Interaktion mit eben dieser Maschine das Gefühl hätte, er würde mit einem anderen Menschen interagieren. Aus dieser Perspektive kann eine Maschine als intelligent bezeichnet werden, sodann sie menschliches Verhalten erfolgreich simuliert (Joshi, 2019, S. 4).

Der Begriff Maschine Learning (ML) wurde 1959 von Arthur Samuel im Kontext des Brettspiels Dame geprägt. Die Bezeichnung basiert auf einem Computerprogramm, das ein Verhalten ohne explizite Programmierung selbstständig erlernt. Ein derartiges System wurde erstmalig von Arthur Samuel entwickelt. Drei Faktoren gilt es bei der Programmierung einer künstlichen Intelligenz zu beachten: Das Programm benötigt genügend Daten für den Lernprozess. Des Weiteren ist eine Metrik notwendig, die die Differenz zwischen aktuellem Verhalten und gewünschtem Verhalten quantifiziert. Anschließend ist ein Feedbackmechanismus erforderlich, um den kalkulierten Fehler rückzuführen, damit das Programm im nächsten Durchlauf bessere Ergebnisse liefert. Die letztgenannten beiden Faktoren implizieren die Notwendigkeit tiefgreifender mathematischer Lösungen (Joshi, 2019, S. 4-5). Weiters ist die Performanz eines Maschine Learning Algorithmus wesentlich von der Repräsentation des Datensatzes abhängig. Im Datensatz enthaltene Informationen, die für die Lösung des Problems erforderlich sind, werden als Merkmale bezeichnet. In diesem Zusammenhang stellen Variationsfaktoren eine Schwierigkeit im maschinellen Lernen dar. Viele dieser Faktoren beeinflussen die zu observierenden Daten, weil der antrainierte Datensatz sich in Echtzeit-Applikationen oftmals von der Realität unterscheidet.

Zusammenfassung der Kapitel

1 Einleitung: Die Einleitung führt in das Thema Müdigkeitserkennung ein, beleuchtet deren Relevanz im Kontext der Verkehrssicherheit und stellt die spezifische Problemstellung sowie die Forschungsfrage der Arbeit vor.

2 Theoretische Fundierung: Dieser Teil bietet eine umfassende Literaturübersicht zu Deep Learning, Machine Learning und neuronalen Netzen, insbesondere Convolutional Neural Networks (CNNs) und Transfer Learning, und bildet die Grundlage für das technische Verständnis der Arbeit.

3 Umsetzung des Experiments: Hier wird die experimentelle Durchführung detailliert beschrieben, einschließlich der Auswahl und des Trainings von Deep Learning-Modellen (VGG16, ResNet50, InceptionV3) auf dem MRL Eye Datensatz und deren Evaluierung zur Echtzeit-Müdigkeitserkennung.

4 Fazit: Das Fazit fasst die Ergebnisse des Leistungsvergleichs zusammen, bewertet die Erkenntnisse kritisch und gibt einen Ausblick auf zukünftige Forschungsrichtungen im Bereich der automatisierten Müdigkeitserkennung.

Schlüsselwörter

Deep Learning, Convolutional Neural Network (CNN), Transfer Learning, Müdigkeitserkennung, Echtzeiterkennung, Bildklassifikation, Neuronale Netze, VGG16, ResNet50, InceptionV3, Verkehrssicherheit, Maschinelles Lernen, Early Stopping, Konfusionsmatrix.

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Diese Arbeit befasst sich grundsätzlich mit der Erforschung und dem Leistungsvergleich von vortrainierten Deep Learning-Architekturen zur automatisierten Erkennung von Müdigkeit in Echtzeit, um zur Reduzierung von ermüdungsbedingten Unfällen beizutragen.

Was sind die zentralen Themenfelder?

Die zentralen Themenfelder umfassen Deep Learning, Convolutional Neural Networks (CNN) für die Bildklassifikation, Transfer Learning und die Identifizierung des Augenzustands (offen oder geschlossen) in Echtzeit.

Was ist das primäre Ziel oder die Forschungsfrage?

Das primäre Ziel ist es, dasjenige pre-trained Deep Learning-Modell zu identifizieren, das sich am besten für die Müdigkeitserkennung in Echtzeit eignet. Die Forschungsfrage lautet: "Welche der analysierten pre-trained Deep Learning-Architekturen eignet sich am besten für eine Müdigkeitserkennung in Echtzeit?"

Welche wissenschaftliche Methode wird verwendet?

Es wird eine Kombination aus Literaturrecherche zur theoretischen Fundierung und einer experimentellen Untersuchung verwendet, bei der ausgewählte CNN-Modelle trainiert und evaluiert werden.

Was wird im Hauptteil behandelt?

Der Hauptteil der Arbeit gliedert sich in eine theoretische Fundierung, die Deep Learning-Konzepte, neuronale Netze und Transfer Learning erläutert, sowie eine experimentelle Umsetzung, die das Training und die Evaluierung der Modelle zur Müdigkeitserkennung in Echtzeit umfasst.

Welche Schlüsselwörter charakterisieren die Arbeit?

Die Arbeit wird durch Schlüsselwörter wie Deep Learning, Convolutional Neural Network (CNN), Transfer Learning, Müdigkeitserkennung, Echtzeiterkennung, Bildklassifikation, Neuronale Netze, VGG16, ResNet50, InceptionV3, Verkehrssicherheit, Maschinelles Lernen, Early Stopping und Konfusionsmatrix charakterisiert.

Warum wurde InceptionV3 als bestes Modell identifiziert?

InceptionV3 erbrachte im Test auf statische Abbildungen die beste Leistung mit einer Genauigkeit von 98 Prozent und zeigte auch in der Echtzeiterkennung, selbst unter schlechten Lichtverhältnissen, hervorragende Ergebnisse ohne merkliche Verzögerungen.

Welcher Datensatz wurde für das Training der Modelle verwendet?

Für das Training der Modelle wurde der Media Research Lab (MRL) Eye Datensatz verwendet, welcher insgesamt 84.898 Bilder des menschlichen Auges von 37 unterschiedlichen Personen enthält.

Welche Rolle spielen die Lichtverhältnisse bei der Müdigkeitserkennung?

Die Studie untersuchte die Leistung der Modelle unter verschiedenen Lichtverhältnissen; InceptionV3 zeigte in dieser Hinsicht die robusteste Leistung, während VGG16 bei sinkender Lichtqualität und ResNet50 generell unakkurat abschnitten.

Welche Modelle wurden verglichen und warum?

Verglichen wurden VGG16, ResNet50 und InceptionV3, da diese als die bekanntesten und populärsten pre-trained Modelle im Bereich der Müdigkeitserkennung und Bildklassifikation gelten.

Fin de l'extrait de 73 pages - haut de page

Résumé des informations

Titre: Ein Leistungsvergleich von pre-trained Deep Learning-Architekturen zur Müdigkeitserkennung in Echtzeit
Cours: Bachelorarbeit
Note: 1,0
Auteur: Lisa Ebner (Auteur)
Année de publication: 2023
Pages: 73
N° de catalogue: V1704950
ISBN (PDF): 9783389182321
ISBN (Livre): 9783389182338
Langue: allemand
mots-clé: Deep Learning Transfer Learning Müdigkeitserkennung neuronale Netzwerke
Sécurité des produits: GRIN Publishing GmbH

Citation du texte: Lisa Ebner (Auteur), 2023, Ein Leistungsvergleich von pre-trained Deep Learning-Architekturen zur Müdigkeitserkennung in Echtzeit, Munich, GRIN Verlag, https://www.grin.com/document/1704950

Ein Leistungsvergleich von pre-trained Deep Learning-Architekturen zur Müdigkeitserkennung in Echtzeit