Anwendungssysteme der Spracherkennung


Hausarbeit, 2008

20 Seiten, Note: 2,0


Leseprobe

Inhaltsverzeichnis

1. Einleitung

2. Geschichte und zukünftige Entwicklung

3. Komplexität der Sprache

4. Aufbau von Spracherkennungssystemen
4.1 Architektur
4.2 Dynamic Time Warping
4.3 Hidden Markov Modell
4.4 Künstliche neuronale Netze

5. Anwendungssysteme der Spracherkennung
5.1 Linguatec Voice Pro 10 USB-Edition (aktuell Version 11)
5.2 IBM ViaVoice R10 Pro Edition (aktuell Version 10.5)
5.3 iListen 8.1
5.4 Philips Speech Magic (früher Free Speech)
5.5 ESMERALDA
5.6 CMU Sphinx
5.7 Dragon Naturally Speaking
5.7.1 Analyse und Bewertung

6. Fazit

Literaturverzeichnis

1. Einleitung

Die Sprache spielt in der zwischenmenschlichen Kommunikation eine ungemein wichtige Rolle. Häufig wird Sprache als so selbstverständlich erachtet, dass kaum Gedanken über ihre Komplexität angestellt werden. Jeden Tag dient Spra-che, Schreiben und Lesen dem Austausch von Ideen und Informationen. Bereits zu Beginn der Informatik entstand daher der Wunsch, Sprache im Umgang mit Computern nutzbar zu machen, um damit die Schnittstelle zwischen Mensch und Maschine benutzerfreundlicher zu gestalten. Die automatische Spracherkennung vereinigt diverse wissenschaftliche Disziplinen unter sich. Neben Programmier-ung, Computertechnik und Mustererkennung sind auch Gebiete der Phonetik, Linguistik und künstlichen Intelligenz beteiligt[1].

Nach intensiver Forschung entstanden erste Systeme, die je nach Anwen- dungsgebiet starke Abweichungen, z. B. im vorhandenen Wortschatz, vonein-ander aufwiesen. Durch die hohen Anschaffungskosten im Vergleich zur geringen Praxistauglichkeit waren die ersten Lösungen weit von der Marktreife entfernt und galten eher als technische Spielereien. Heute existieren mehrere kommerzielle Lösungen unterschiedlicher Hersteller in den verschiedensten Anwendungsbereichen. Der Bereich der automatischen Spracherkennung steht aber auch zukünftig vor großen Herausforderungen, da selbst aktuelle Applikationen deutlich unter der menschlichen Leistungsfähigkeit liegen.[2]

Diese Arbeit befasst sich mit dem Thema Anwendungssysteme der Sprach-erkennung. Nach der Skizzierung der Entwicklung wird auf die Komplexität der menschlichen Sprache eingegangen. Es soll verdeutlicht werden, welcher Aufwand betrieben werden muss, um natürliche menschliche Sprache für Maschinen „verständlich” zu machen. Danach wird der grundsätzliche Aufbau eines Spracherkennungssystems erläutert und schließlich ein Überblick aktueller Anwendungssysteme aus dem Bereich der Diktiersoftware geliefert. Das System Dragon Naturally Speaking soll dabei ausführlich beschrieben werden.

2. Geschichte und zukünftige Entwicklung

Die Wurzeln der automatischen Spracherkennung gehen mehr als 50 Jahre zurück. Nach anfänglich recht einfachen analogen Spracherkennungs-systemen in den 50er und 60er Jahren des letzten Jahrhunderts wurden die ersten funktionstüchtigen Systeme zu Beginn der 70er Jahre entwickelt.

Der erste erfolgreiche und verlässliche Prototyp war das HARPY-System, entwickelt von Bruce Lowerre an der Carnegie Mellon University.[3] Die An-wendung war in der Lage komplette Sätze zu erkennen, soweit sich der Sprecher an eine stark eingeschränkte Grammatik hielt. Als Rechenkapazität war eine Parallelverarbeitung durch 50 Computer notwendig.[4] In den 80er Jahren wurden einige neue Ansätze erforscht. Vector Quantisation und Hidden-Markov-Modelle finden auch heute noch in kommerziellen Desktop-Systemen ihre Anwendung. Bei neuesten Untersuchungen werden neuronale Netze genutzt, um die Spracherkennung in lärmenden Umgebungen zu verbessern. Heutige Applikationen arbeiten bei geeigneten Voraussetzungen (ruhige Umgebung, gutes Mikrofon) nahe zu perfekt. Zukünftige Heraus-forderungen liegen demnach darin, die Anwendungen autonomer gegen Störgeräusche zu machen, um sie beispielsweise auch verstärkt im Mobilbe-reich nutzen zu können.

3. Komplexität der Sprache

Sprachen haben sich über Jahrtausende hin entwickelt und dieser Entste- hungsprozess ist keinesfalls abgeschlossen. Sprache ist lebendig, d. h. , auf der einen Seite entstehen Wortneuschöpfungen und auf der anderen Seite verschwinden alte Begriffe aus dem Gebrauch. Im Gegensatz zu den Pro-grammiersprachen, in der einige formale Regeln ausreichen, gibt es bei den menschlichen Sprachen eine Vielzahl von Ausnahmen und Sonderregelungen zu beachten[5]. Der individuelle Charakter der gesprochenen Sprache hat ebenfalls zur Folge, dass kein Sprecher in der Lage ist, einen gesprochenen Satz in derselben Weise zu wiederholen. Maschinen haben aber trotzdem die Aufgabe, diese Aussage als gleich zu interpretieren. In folgende vier Punkte sind die größten Probleme der automatischen Spracherkennung unterteilt:

Kontinuität

Wahrnehmung: Folge von Wörtern, -Silben, -Lauten

Sprachsignal: keine akustischen Grenzen

Komplexität

Datenmengen: z.B. 16 000 Abtastwerte/Sekunde

Inventare: 40-50 Phoneme, > 10 000 Silben, 100-250 k Wörter

Kombinatorik: exponentielles Wachstum: Anzahl möglicher Sätze

Restriktionen: Grammatik versus Suchraum

Variabilität

Sprecher: Anatomie, Dialekt, Idiolekt

Sprechweise: Tempo, Lautstärke, Kooperation, Anspannung

Kontext: Lautumgebung, Betonung

Aufnahmekanal: Mikrofon, Position, Nachhall, Wandlung

Umgebung: Stimmen, Verkehr, Maschinen

Ambiguität

Homophonie: Ferse und Verse

Wortgrenzen: Wach-stube und Wachs-tube

Satzbau: das Tonband, das Nixon vernichtete

Bedeutung: Bienenhonig und Imkerhonig[6]

4. Aufbau von Spracherkennungssystemen

Die vom Mikrofon übergebenen elektrischen Schwingungen werden digitalisiert. Danach zerlegt und analysiert die Signalverarbeitung die Informationen, um sie an den sog. Erkenner zu übergeben. Unter dem Einsatz

des „akustischen Modells“ wird das Eingangssignal zu Lauten. Im Anschluss folgt das „linguistische Modell”. Nach der Output- und Hypothesenüberprüfung des „akustischen Modells“ werden aus Lauten Wörter (Einsatz eines Lexikons).

Es folgt das „Sprachmodell“, das prüft, ob erkannte Wortfolgen sinnvoll sind. Und schließlich läuft ein „Grammatik-Modul“, das prüft, ob Befehlseingaben vorliegen. Aus den Wortfolgen werden möglichst sinnvolle Inhalte gemacht. Das errechnete Ergebnis wird schließlich an ein Anwendungsprogramm (z. B. Word) übergeben.[7]

4.1 Architektur (siehe Abb. 1)

Aktuelle Spracherkennungsarchitekturen nutzen ein statistisches Modell, um das wahrscheinlichste Wort (W) zu bilden, welches den eingegebenen Lauten (Y) nach Durchlaufen des „Sprachmodells” am ehesten entspricht. Grund-sätzlich muss ein Spracherkennungsalgorithmus also folgende Gleichung
berechnen:[8]

Abbildung in dieser Leseprobe nicht enthalten

Zusammenfassend gibt es drei entscheidende Komponenten im Aufbau eines Spracherkennungssystems:

- Akustische Modelle der einzelnen Phoneme (z.B. Hidden-Markov-Modelle)
- Wörterbuch
- Sprachmodell zur Wahrscheinlichkeitsbestimmung bestimmter Wortfolgen

Abbildung in dieser Leseprobe nicht enthalten

Abb. 1: Aufbau eines Spracherkenners[9]

4.2 Dynamic Time Warping (siehe Abb. 2)

Beim Dynamic Time Warping wird das per Mikrofon eingegebene Wort mit Referenzmustern aus dem Wortschatz der jeweiligen Anwendung verglichen.

Der Algorithmus arbeitet auf Basis eines Mustervergleichs, der durch ein geeignetes Abstandsmaß verglichen wird. Ein kleiner Abstand zwischen Eingabe- und Referenzwort spricht für ein gutes Erkennungsergebnis. Die

variable Sprechweise einer Person führt zu der nicht linearen Zuordnung von Kurzzeitspektren zu den einzelnen Mustervektoren, dadurch wird die Zeitachse verzerrt. Kurzzeit- und Mustervektoren werden durch einen rekursiv

programmierten Algorithmus verglichen. Dieser ruft sich mit den im vorherigen Durchlauf erhaltenen verbesserten Parametern erneut selbst auf. Dadurch wird die rechenintensive Verarbeitung aller Einzelpfade vermieden. Nach Erreichen eines Endzustandes werden die jeweiligen Referenzmuster gefunden, welche die höchste Übereinstimmung zu dem untersuchten Wort liefert. [10]

[...]


[1] Wallrabenstein, Inga (2001), S. 1

[2] Euler, Stephan (2006) S. 1

[3] Lowerre, B; Reddy, R. (1980)

[4] Flohr, Manfred (2003), 132

[5] Euler, Stephan (2006), S. 2-3

[6] Schukat-Talamazzini, Prof. E.G. (2007), S.14-15

[7] Wendemuth, Andreas Prof. Dr. (2006), S. 3-12

[8] Woodland, P. (1998)

[9] Schukat-Talamazzini, Prof. E.G. (2007), S.7

[10] Culjat, Damir (1999)

Ende der Leseprobe aus 20 Seiten

Details

Titel
Anwendungssysteme der Spracherkennung
Hochschule
Hochschule Hannover
Veranstaltung
Sprachverarbeitung
Note
2,0
Autor
Jahr
2008
Seiten
20
Katalognummer
V194713
ISBN (eBook)
9783656200604
ISBN (Buch)
9783656202646
Dateigröße
723 KB
Sprache
Deutsch
Schlagworte
Sprachverarbeitung, Anwendungssysteme der Spracherkennung, Dragon-Naturally- Speaking, Speach to Text
Arbeit zitieren
Dipl. Informwirt (FH) Andree Meinecke (Autor), 2008, Anwendungssysteme der Spracherkennung, München, GRIN Verlag, https://www.grin.com/document/194713

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Anwendungssysteme der Spracherkennung



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden