Das primäre Ziel dieser Arbeit liegt darin, die Effektivität von automatisierter Spracherkennung mit Hilfe von DL zu untersuchen und dessen benutzungsfreundliche Implementierung in formularbasierte Prozesse im Internet. Letztendlich ist vor allem wichtig, dass dabei eine Verbesserung in der Handhabung von Formularen festgestellt wird. Für eine praktische Evaluierung eines passenden Konzepts wird ein ASR-System entwickelt, welches in einem Beispiel-Webformular zum Einsatz kommt. Als Szenario des Prototyps dient dabei ein Formular zur Objekterfassung durch einen Immobilienmakler.
Der erfolgreiche Einsatz von ASR in Online-Formularen kann sowohl für Anwender als auch für Unternehmen Vorteile mit sich bringen. Nicht nur in der Praxis kann solch eine Lösung von großer Bedeutung sein, sondern auch für die Forschung wäre es von großem Interesse, wenn die Effizienz der Verwendung von Spracherkennung im Internet verbessert wird.
In Kapitel 2 werden zunächst einmal theoretische Grundlagen zu den Themen künstliche Intelligenz (KI), DL und konkretisiert ASR durch Einsatz von DL erläutert. Im danach folgenden Kapitel wird zunächst untersucht, auf welche Weise Spracherkennung als Schnittstelle zwischen Anwendern und formularbasierten Prozessen aktuell eingesetzt werden kann. Anschließend werden detailliert bestehende Lösungswege hinsichtlich der Verwendung von ASR mit DL verglichen. Anhand dessen wird dann eine Entscheidung für ein bestimmtes Verfahrensmodell getroffen. Nachdem die Entscheidungen für passende Technologien, Architekturen, Frameworks und Implementierungsansätze gefällt wurden, erfolgt im nächsten Kapitel eine detaillierte Beschreibung der zum Einsatz kommenden ASR-Architektur. Außerdem erfolgt eine Beurteilung der gewählten konkreten Umsetzungsweise der Modellstruktur, wobei der Fokus auf Vor- und Nachteilen gegenüber Alternativen liegt.
In Kapitel 5 wird dann die Umsetzung der Theorie in die Praxis beschrieben. Das nächste Kapitel widmet sich dann einer abschließenden Auswertung der praktischen Umsetzung. Dabei wird auf Limitationen der gewählten Lösung eingegangen und welche nachfolgenden Arbeiten zur Verbesserung erledigt werden müssen. Im letzten Kapitel werden die wesentlichen Inhalte der Arbeit zusammengefasst. Anschließend erfolgt eine Auswertung der Ergebnisse in Form eines Fazits und den Abschluss bildet ein kurzer Ausblick hinsichtlich weiterer Entwicklung von Interaktionsmöglichkeiten zwischen Mensch und Maschine.
Inhaltsverzeichnis
1 Einleitung
1.1 Ausgangslage und Motivation
1.2 Ziel und Forschungsfrage
1.3 Überblick über die Arbeit
2 Theoretische Grundlagen
2.1 Künstliche Intelligenz
2.2 Deep Learning (DL)
2.2.1 Deep Network
2.2.2 Klassen
2.2.3 Methodik
2.3 Automatic Speech Recognition (ASR) mit DL
2.3.1 Methodik
2.3.2 DL-Architekturen
2.3.3 Systemkomponenten
2.3.4 Systemarchitekturen
3 Ermittlung geeigneter Lösungsstrategien
3.1 Spracherkennung in Online-Formularen
3.1.1 Aktueller Stand
3.1.2 Implementierungsansätze
3.1.3 Vergleich von Implementierungsansätzen
3.1.4 Auswahl eines Implementierungsansatzes
3.2 ASR mit DL
3.2.1 Bestehende Lösungsstrategien
3.2.2 Vergleich von Lösungsstrategien
3.2.3 Auswahl einer Lösungsstrategie
4 Architektur des gewählten ASR-Systems
4.1 Beschreibung der Architektur
4.1.1 Akustikmodell
4.1.2 Decoder & Sprachmodell
4.2 Auswahl der ASR-Hyperparameter
4.2.1 Merkmalsextraktion
4.2.2 Akustikmodell
4.2.3 Decoder & Sprachmodell
4.3 Vor- und Nachteile
5 Methodik
5.1 Feldselektive Sprachformularbearbeitung
5.2 Web Speech API
5.3 DeepSpeech ASR-Modell
5.3.1 Datensammlung
5.3.2 Datenvorbereitung
5.3.3 Datenerweiterung
5.3.4 Training
5.3.5 Evaluierung des Modells
5.4 Internes ASR-System
5.4.1 ASR-Server
5.4.2 Web-Client
5.5 Evaluierung der feldselektiven Sprachformularbearbeitung
6 Ergebnisse und Diskussion
6.1 Implikationen
6.2 Limitationen
6.3 Zukünftige Arbeiten
7 Schlussfolgerung
7.1 Zusammenfassung der Arbeit
7.2 Fazit und Ausblick
Zielsetzung & Themen
Die Arbeit untersucht die Effektivität und Implementierung automatisierter Spracherkennung (ASR) mittels Deep Learning (DL), um die Interaktion zwischen Anwendern und formularbasierten Web-Prozessen zu verbessern und zu vereinfachen.
- Grundlagen der Künstlichen Intelligenz und des Deep Learning.
- Vergleich und Auswahl geeigneter Lösungsstrategien für ASR in Web-Formularen.
- Konzeption und Architektur eines hybriden ASR-Systems unter Verwendung der Web Speech API und DeepSpeech.
- Praktische Implementierung und Methodik zur feldselektiven Formularbearbeitung.
- Evaluierung der Leistungsfähigkeit des entwickelten Prototyps.
Auszug aus dem Buch
1.1 Ausgangslage und Motivation
Es wird der aktuelle Stand in Bezug auf formularbasierte Prozesse im Internet betrachtet. Formulare sind eine häufig anzutreffende Komponente in Webseiten und werden für verschiedene Anwendungsfälle benötigt. Häufig anzutreffende Beispiele dafür sind das Registrieren von Benutzern, Onlinebestellungen oder das Übermitteln von Daten.
Häufig ist es mit Schwierigkeiten verbunden, Formulare im Web auszufüllen. Dies ist vor allem dann der Fall, wenn viele Eingaben gefordert werden und diese ein bestimmtes Format einhalten müssen. So kann es zum Beispiel notwendig sein, dass eine Datumsangabe nur dann gültig ist, wenn sie ein bestimmtes Format einhält. Es gibt viele Webanwendungen, in denen das Ausfüllen von Formularen viel Zeit und Nerven in Anspruch nimmt. Dabei kann es dann vermehrt dazu kommen, dass beim Bearbeiten der Felder Fehler auftreten. Ein weiteres Problem, welches vor allem dann auftritt, wenn man nur einen kleinen Teil eines Formulars auf einem mobilen Endgerät betrachten kann, ist die fehlende Übersicht. Sobald man eine Eingabe vornehmen möchte, wird diese in vielen Fällen vollständig eingeschränkt.
Um die aufgezählten Probleme anzugehen, bietet sich das Verwenden von Spracheingabe als Lösung an. Damit wäre es für Anwender möglich, ein Formular mündlich zu bearbeiten, wodurch die Effizienz des Bearbeitungsprozesses gesteigert werden kann. Außerdem ist damit eine Vereinfachung hinsichtlich Umgang mit Formularen möglich. Natürlich können auch bei der Verwendung von Spracheingabe als Quelle Fehler auftreten, denn diese Technologie hat selbst noch viel Verbesserungspotenzial. Ein vielversprechender Ansatz zur Umsetzung von Spracherkennung ist die Verwendung von Deep Learning (DL) (tiefes Lernen) [1]. Mit Hilfe von DL ist es möglich, Spracherkennung zu automatisieren. Außerdem kann mit dieser Technologie im Vergleich zu klassischen Ansätzen beim Erkennen von Sprache eine verbesserte Genauigkeit erreicht werden [2].
Auf das Vereinfachen von formularbasierten Prozessen im Internet durch Verwendung von modernen Spracherkennungstechniken baut die Motivation zur Erstellung dieser Arbeit auf.
Zusammenfassung der Kapitel
1. Einleitung: Beschreibt die Herausforderungen bei formularbasierten Web-Prozessen und die Motivation, diese durch automatisierte Spracherkennung zu optimieren.
2. Theoretische Grundlagen: Erläutert die notwendigen Konzepte von KI, Deep Learning und die Spezifika von Spracherkennungssystemen (ASR) mit modernen Architekturen.
3. Ermittlung geeigneter Lösungsstrategien: Analysiert und vergleicht verschiedene Implementierungsansätze zur Integration von Spracherkennung in Online-Formulare und führt die Auswahl einer Strategie herbei.
4. Architektur des gewählten ASR-Systems: Detailliert den technischen Aufbau des gewählten DeepSpeech-Systems sowie die Auswahl der Hyperparameter.
5. Methodik: Beschreibt die praktische Umsetzung der feldselektiven Sprachformularbearbeitung, einschließlich der Datenverarbeitung und der Client-Server-Kommunikation.
6. Ergebnisse und Diskussion: Reflektiert über die erreichte Zielsetzung, diskutiert die Implikationen der Lösung und beleuchtet Limitationen sowie zukünftige Verbesserungsmöglichkeiten.
7. Schlussfolgerung: Fasst die Erkenntnisse der Arbeit zusammen und gibt einen Ausblick auf die zukünftige Entwicklung der Mensch-Maschine-Interaktion.
Schlüsselwörter
Spracherkennung, ASR, Deep Learning, DL, Webformulare, Feldselektive Bearbeitung, DeepSpeech, Sprachbefehle, Künstliche Intelligenz, Mensch-Maschine-Interaktion, Websocket, Python, Sprachmodell, Akustikmodell, Daten-Augmentation.
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Bachelorarbeit beschäftigt sich mit der Optimierung von formularbasierten Prozessen im Web durch den Einsatz von automatisierter Spracherkennung (ASR) basierend auf Deep Learning.
Was sind die zentralen Themenfelder?
Zentrale Themen sind die theoretischen Grundlagen des Deep Learnings, der Vergleich verschiedener Implementierungsstrategien für ASR-Systeme im Web-Kontext sowie die Konzeption und praktische Umsetzung eines funktionsfähigen Prototyps.
Was ist das primäre Ziel der Forschungsarbeit?
Das primäre Ziel ist es, die Effektivität von ASR mittels Deep Learning zu untersuchen und eine benutzungsfreundliche Lösung zu entwickeln, die Anwendern das Ausfüllen von Web-Formularen mittels Spracheingabe ermöglicht.
Welche wissenschaftliche Methode wird verwendet?
Der Autor führt eine theoretische Analyse bestehender Technologien durch, vergleicht unterschiedliche Implementierungsstrategien nach objektiven Kriterien und implementiert darauf basierend ein hybrides ASR-System, welches mittels eines Prototyps evaluiert wird.
Was wird im Hauptteil der Arbeit behandelt?
Im Hauptteil werden zunächst die theoretischen Grundlagen (KI, DL, ASR-Architekturen) behandelt, gefolgt von der Ermittlung und Auswahl der Lösungsstrategie, einer detaillierten Beschreibung der gewählten Systemarchitektur und der methodischen Umsetzung.
Welche Schlüsselwörter charakterisieren die Arbeit?
Wichtige Begriffe sind Spracherkennung, ASR, Deep Learning, Webformulare, DeepSpeech, Feldselektive Bearbeitung und Mensch-Maschine-Interaktion.
Für wen ist das implementierte System in der Praxis vorgesehen?
Das entwickelte System ist primär für Anwender konzipiert, die Formulare beispielsweise für eine Objekterfassung (Immobilienmakler) effizienter und barrierefreier mittels Spracheingabe bearbeiten möchten.
Welche Komponenten umfasst das hybride ASR-System?
Das System kombiniert die browsernative Web Speech API für allgemeine Aufgaben mit einem internen, auf DeepSpeech basierenden ASR-Server für spezifische, lokal trainierte Sprachbefehle.
Warum wurde DeepSpeech als interne Lösung gewählt?
DeepSpeech bietet eine gute Performance, ein End-to-End-Konzept, eine hohe Benutzerfreundlichkeit und die Möglichkeit, das Modell mittels Transfer Learning und Fine-Tuning effizient an spezifische deutsche Sprachdaten anzupassen.
- Quote paper
- Paul Hornig (Author), 2023, Künstliche Intelligenz im Dialog. Die Evolution von Webformularen durch automatisierte Spracherkennung, Munich, GRIN Verlag, https://www.grin.com/document/1401153