I
Inhaltsverzeichnis
1. Einleitung 1
2. Überblick 2
2.1 Historische Entwicklung 2
2.2 Aktueller Stand 3
2.3 Anwendungsgebiete 4
3. Problemstellungen 4
3.1 Technische Problemstellungen 4
3.2 Linguistische Problemstellungen 5
4. Realisierung 6
4.1 Mustervergleich mit Referenzwörtern 6
4.2 Hidden-Markov-Models 7
4.3 Künstliche Neuronale Netze 9
4.4 Sprachmodell 11
5. Ausblick 12
Bibliographie 15
1
1.Einleitung
Die gesprochene Sprache ist für den Menschen die wichtigste Art der Kommunikation. Auf keine andere Art und Weise lassen sich konkrete Inhalte so schnell vermitteln. Da die Bedeutung der elektronischen Datenverarbeitung inzwischen von so überragender Bedeutung ist, wäre es wünschenswert auch mit Maschinen so einfach und präzise mündlich kommunizieren zu können. Die vorliegende Arbeit befasst sich mit der automatischen Erkennung menschlicher Sprache und deren Verarbeitung durch Maschinen. Die Spracherkennung ist ein Teilgebiet der Computerlinguistik. Diese wiederum bewegt sich im wissenschaftlichen Bereich zwischen Informatik und Linguistik. Der Begriff „Computerlinguistik“ leitet sich vom englischen „computational linguistics“ ab. Die Anfänge der Computerlinguistik liegen bereits in den 50er Jahren des vorigen Jahrhunderts. Mittlerweile hat sich diese Disziplin zu einem komplexen und anerkannten Forschungsgebiet etabliert. Viele Menschen sind bereits mit Spracherkennungssystemen konfrontiert wurden, sei es beim Telebanking oder bei der telefonischen Kartenvorbestellung für einen Kinofilm. Diese Art der Informationsaufnahme ist für den Anwender komfortabel und einfach zu handhaben. Diejenigen, die bereits Erfahrungen mit Spracherkennungssystemen machen konnten haben jedoch sicherlich bemerkt, dass diese Art der mündlichen Kommunikation noch nicht mit der Unkompliziertheit zwischenmenschlicher Kommunikation zu vergleichen ist. Die Gründe dafür sind in dem gewaltigen technischen Aufwand, der zur Spracherkennung notwendig ist und in den zahlreichen linguistischen Problemstellungen, welche die menschliche Sprache umfasst zu finden. Das Innovationstempo auf diesem Gebiet ist jedoch sehr hoch und es werden in nächster Zeit sicherlich noch einige Schwierigkeiten gemeistert werden. Um die Problematik der Spracherkennung besser zu überblicken und ihre Grundlagen zu verstehen, wird die vorliegende Arbeit einen Überblick über die bisherige Entwicklung der Spracherkennung, deren Anwendungsgebiete und den derzeitigen Stand der wissenschaftlichen Forschung liefern. Dabei werden die theoretischen Grundlagen erläutert und die Leistungsfähigkeit aktueller Spracherkennungssysteme betrachtet. Außerdem soll ein Blick auf sich gegenwärtig in der Entwicklung befindliche Systeme geworfen werden. Im Interesse hoher Aktualität wird sich die Arbeit verstärkt auf Onlinequellen berufen.
2
2.Überblick
2.1 Historische Entwicklung
Die Vorboten der Computerlinguistik sind in den ersten Überlegungen zur prinzipiellen Möglichkeit der Informationsverarbeitung durch Maschinen in den 30er und 40er Jahren des 20.Jahrhunderts zu sehen. Die Grundlage für die Sprachverarbeitung bot die stochastische Informationstheorie. Diese befasst sich mit der Rekonstruktion gestörter Sprachsignale mittels sprachspezifischer Symbolwahrscheinlichkeiten. 1
In den 1960er Jahren begann die intensive Forschung an Systemen zur Spracherkennung. Aufgrund des damals noch zu erarbeitetenden Wissens und der noch nicht so fortschrittlichen Computertechnologie konnten die ersten Systeme noch keine großen Erfolge verbuchen. Dennoch gelang es, einige wenige Wörter maschinell zu erfassen. Erst in den 1980er Jahren wurde die Forschung entscheidende Schritte vorangetrieben. Zum einen wurden die Computer immer leistungsfähiger, andererseits kam es zu bedeutenden Weiterentwicklungen der theoretischen Grundlagen. Das 1986 von IBM vorgestellte TANGORA 4 System für Englisch war bereits in der Lage Homophone zu differenzieren, indem es den Kontext überprüfte. Die Grundlage dafür bilden so genannte Trigramme. Diese geben Auskunft über die statistische Häufigkeit bestimmter Wortkombinationen. Zwei Jahre später wurde eine Version zur Erkennung von deutscher Sprache entwickelt und 1991 auf der CeBIT vorgestellt. 2 Das System war bereits in der Lage bis zu 30000 deutsche Wörter zu erkennen.
Das erste System, dass aufgrund seines Preises von knapp 1000$ auch für private Anwendungen interessant war wurde 1994 unter dem Namen „IBM VoiceType Diktiersystem“ vorgestellt. 3 Zwei Jahr später erschien eine Weiterentwicklung, die erstmals auf einem Personalcomputer ohne spezielle Hardware funktionierte. Mittlerweile sind Spracherkennungssysteme auch von anderen Anbietern wie z.B. der amerikanischen Firma Dragon Systems oder der Philipstochter Philips Dictation erhältlich. Die 2004 von IBM getroffene Entscheidung, teile der Spracherkennungssoftware als Open Source
1 Menzel 2004, S.16
2 Ihm 2005
3 Wales 2005
3
freizugeben, sprich deren Quellcodes zu veröffentlichen, wird erheblich dazu beitragen die Software in naher Zukunft noch leistungsfähiger zu machen.
2.2 Aktueller Stand
Aktuelle Spracherkennungssysteme verfügen über sehr große Wortschätze und funktionieren bereits recht akzeptabel. Je nach Anwendungsgebiet kann zwischen verschiedenen Systemen unterschieden werden. So existieren Systeme, die auf diskret gesprochene Wörter spezialisiert sind, im Gegensatz dazu gibt es Systeme, die kontinuierlich gesprochene Sprache erfassen. Neuere Systeme sind auf kontinuierlich gesprochene Sprache ausgelegt, um deren Handhabung zu vereinfachen. Weiterhin sind so genannte sprecherabhängige Systeme auf einen bestimmten Sprecher spezialisiert, während sprecherunabhängige Systeme von beliebigen Personen genutzt werden können. Letztere bieten den Vorteil, dass es nicht notwendig ist, das Spracherkennungssystem zu trainieren. Jeder Nutzer kann sofort mit dem System arbeiten. Allerdings ist der Wortschatz sprecherunabhängiger Systeme relativ begrenzt. Sprecherabhängige Systeme müssen vom Anwender konfiguriert werden, die Systeme werden also am Anfang trainiert, um an spezifische Eigenheiten des Sprechers gewöhnt zu werden. Der Wortschatz dieser Systeme ist sehr groß, außerdem kann ein Sprecher eines gut auf ihn abgestimmten Systems recht flüssig und mit normaler Deutlichkeit sprechen. Die Erkennungsquote von sprecherunabhängigen Systemen mit geringem Wortschatz erreicht teilweise beinahe 100%, während sie bei Systemen mit größerem Wortschatz darunter liegt. Bei Versuchen mit Spracherkennungssystemen zur Erfassung von Texten im niederländischen Landtag wurde deutlich, dass selbst eine Erkennungsquote von 95% nicht alltagstauglich ist, da der anschließende Korrekturaufwand noch zu hoch ist. 4 Moderne Systeme sind bei Unsicherheiten bereits in der Lage Rückfragen zu stellen, dass bedeutet den Anwender zu fragen, ob er ein bestimmtes Wort gesagt hat. Dieser kann dann seine Aussage bestätigen oder im Bedarfsfall korrigieren. Im Gegensatz zu älteren Spracherkennungssystemen spielt auch der Einfluss von Nebengeräuschen inzwischen eine geringere Rolle, da diese digital herausgefiltert werden können.
4 Wales 2005
4
2.3 Anwendungsgebiete
Spracherkennungssysteme lassen sich in vielfältiger Weise Anwenden. Eine Hauptanwendung ist die Texterfassung. So kann mit moderner Spracherkennungssoftware beispielsweise ein diktierter Text in ein elektronisches Dokument gewandelt werden. Diese Anwendung erleichtert die Erstellung von Textdateien und richtet sich an private Anwender sowie Nutzer im Büro, die dadurch keine Schreibkraft benötigen. Der PC wird direkt zum Diktiergerät, der Text kann anschließend auf gewohnte Weise formatiert und eventuell korrigiert werden. Einige Spracherkennungssysteme bieten die Möglichkeit, die gemachten Korrekturen mit dem Sprachprofil des Sprechers abzugleichen und steigern dadurch ihre Erkennung. (z.B.: ASKA SmartNet) 5 Des Weiteren ermöglichen Spracherkennungssysteme die Steuerung von Applikationen und Systemen. Dadurch vereinfacht sich die Handhabung von Computern und Maschinen. Im Consumerbereich wären Mobiltelefone zu nennen auf deren Telefonbuch mit Sprachbefehlen zugegriffen werden kann. Ein bedeutendes Anwendungsgebiet ist die Möglichkeit behinderten Menschen die Nutzung und Bedienung von Computern bzw. Geräten zu erleichtern. Der Schweizer Kanton Genf führte 2003 ein Spracherkennungssysten für elektronisches Wählen ein, das mit Hilfe von Hewlett Packard und WISeKey entwickelt wurde. 6 Dadurch können blinde Menschen und Analphabeten ohne fremde Hilfe an Wahlen teilnehmen. Moderne Sprachsteuerungssysteme lassen sich auf handelsüblichen Personalcomputern installieren und ermöglichen die verbale Steuerung vielfältiger Programme. (z.B.: Philips Speech SDK) 7 Besonders im medizinischen sowie im juristischen Bereich haben Spracherkennungssysteme in den letzten Jahren erfolgreich Einzug gehalten.
3. Problemstellungen
3.1 Technische Probleme
Ein Spracherkennungssystem kann Sprache nur erkennen, indem es das Eingangssignal mit gespeicherten Daten vergleicht und bei hoher
5 www.aska.com/produkte/digitales-diktat.html
6 PR Newswire 2003
7 www.speechrecognition.philips.com/index.asp?id=660
Arbeit zitieren:
Tino Mager, 2005, Computerlinguistik: Grundprinzipien der Spracherkennung, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Modellierung des Markenwahlverhaltens von Konsumenten mittels Markov-K...
Seminararbeit, 23 Seiten
Mathematische Grundlagen der Warteschlangentheorie / Markov-Ketten
BWL - Unternehmensführung, Management, Organisation
Seminararbeit, 22 Seiten
Evolutionäre Algorithmen in der Spracherkennung
Hausarbeit (Hauptseminar), 11 Seiten
Eine Einführung in zeit-diskrete homogene Markov-Ketten
Informatik - Theoretische Informatik
Forschungsarbeit, 17 Seiten
Tino Mager's Text Computerlinguistik: Grundprinzipien der Spracherkennung ist nun auf dem Buchmarkt erhältlich
Tino Mager hat den Text Computerlinguistik: Grundprinzipien der Spracherkennung veröffentlicht
Tino Mager hat einen neuen Text hochgeladen
Logical Aspects of Computational Linguistics
Third International Conference...
Michael Moortgat
Computational Linguistics and Intelligent Text Processing
8th International Conference, ...
Alexander Gelbukh
Computational Linguistics and Intelligent Text Processing
11th International Conference,...
Logical Aspects of Computational Linguistics
4th International Conference, ...
Philippe de Groote, Glyn Morrill, Christian Retore
Computational Linguistics and Intelligent Text Processing
Second International Conferenc...
Alexander Gelbukh
Computational Linguistics and Intelligent Text Processing
4th International Conference, ...
Alexander Gelbukh
Computational Linguistics and Intelligent Text Processing
5th International Conference, ...
Alexander Gelbukh
Logical Aspects of Computational Linguistics
5th International Conference, ...
Philippe Blache, Edward Stabler, Joan Busquets, Richard Moot
Computational Linguistics and Intelligent Text Processing
6th International Conference, ...
Alexander Gelbukh
0 Kommentare