2
Inhaltsverzeichnis
1. Einleitung
1.1 Definition
2. Spracherkennungshindernisse
2.1 Variabilität
2.2 Kontinuität
2.3 Kontextabhängigkeit
3. Systeme zur Schallaufnahme und Reduktion
3.1 Schalldigitalisierung
3.2 Datenkompression
4. Verschriftung und Orthographie
5. Systeme zur Bearbeitung der Samples
5.1 Mustererzeugung
5.2 Normalverteilung
5.3 Finite State Machine
5.4 Dynamische Programme
6. Grammatikalisch-semantische Analyse
7. Systeme zur automatischen Spracherkennung
7.1 Isolierte Worterkennung
7.2 Verbundene Worterkennung
7.3 Kontinuierliche Spracherkennung
8. Gesprächsprotokoll
9. Nachwort
Literaturverzeichnis
1. Einleitung
Die vorliegende Arbeit befaßt sich mit einem Problembereich der
Computerlinguistik: die maschinelle Spracherkennung. Dieses Thema paßt mit
dem Seminarthema biologische Grundlagen der Sprache in der Art zusammen,
daß versucht wird, die biologischen Rezeptionsvorgänge beim Hören der
Sprache im Computer zu simulieren die auftretenden Schwierigkeiten mit den
dazugehörenden Lösungsansätzen geben einen Einblick in die ungeheure
Komplexität der für uns selbstverständlichen und meist unbewußt ablaufenden
Vorgänge beim Hören und Erkennen der Sprache. Möglicherweise lassen einige
dabei gewonnene Erkenntnisse begrenzte Rückschlüsse auf die Gehirnfunktion
des Menschen beim Spracherkennen zu
1.1 Definition
Die maschinelle Spracherkennung ist die Bezeichnung für den Prozeß, mit
Hilfe des Computers die von der natürlichen menschlichen Sprache
verwendeten Worte zu erkennen und zu unterscheiden. Die Äußerungen eines
Sprechers - also seine in akustische Lautfolge verschlüsselten Wörter
3
sollen vom Computer wieder zu den richtigen Worten zurückgeordnet werden. Dabei ist es unerheblich, ob der Computer die Bedeutung des Wortes
1
versteht; wichtig ist allein, daß er sie erkennt.
2. Spracherkennungshindernisse
Eine typische Anwendungsmöglichkeit der maschinellen Spracherkennung wäre ein Computer, der ein Diktat aufnimmt. Für den Menschen mit seinen kognitiven Fähigkeiten ist dies ein leichtes - wenn er lesen und schreiben kann und das Diktat in einer ihm vertrauten Sprache stattfindet. Der Computer hat es ungleich schwerer. Worin besteht nun die Schwierigkeit beim Umgang des Computers mit der Sprache?
2.1 Variabilität
Die natürliche gesprochene Sprache ist der direkte Ausdruck des Denkens, ein extrem hoch verschlüsseltes Signal, welches der menschliche Geist
2 Bei der phonetischen Umsetzung werden die Laute erzeugt, indem erzeugt.
Luft aus der Lunge über verschiedene Hindernisse, Engstellen und Höhlungen gedrückt wird. Es gibt drei verschiedene Möglichkeiten, Laute zu erzeugen:
- Bei der stimmhaften Lautbildung versetzt der Sprecher die Luftsäule im Ansatzrohr in Schwingungen, indem er sie durch Öffnungs- und Schließbewegungen der Stimmlippen fast periodisch anregt; quasiperiodischer Schall entsteht.
- Ein glottaler Plosiv oder Verschlußlaut (auch frikativ oder geräuschhaft genannt) entsteht bei einer plötzlichen Öffnung der Stimmlippen, die zuvor Luft angestaut hatten. Dies führt zu einer Engebildung im Ansatzrohr durch nachströmende Luft, es bilden sich Turbulenzen.
- Die stimmlosen Laute werden ohne Einsatz der Stimmlippen produziert. Die 3
Luft strömt an ihnen vorbei, ohne daß sie schwingen. Alle drei Möglichkeiten können sich überlagern. Durch die Bewegungen der Zunge, des Kiefers, der Lippen und des Zäpfchens wird die Luftsäule weiter verformt. Durch das Senken des Gaumensegels wird zeitweise noch der Nasenraum mit dem Mundraum gekoppelt. Dadurch ändert sich auch weiter das Schwingungsverhalten der Luftsäule. An den Lippen wird schließlich der
4 Das Gehör verhilft dem Sprecher Schall an die umgebende Luft übertragen.
zu einer Selbstkontrolle, die Abweichungen von der gewollten Lautbildung kompensieren kann.
An der Produktion des Lauts ist lebendes Gewebe beteiligt, und der Laut ist abhängig von den spezifischen physiognomischen Merkmalen des Sprechers. Die Stimme ist somit stark von der körperlichen Verfassung und dem emotionalen Zustand beeinflußt. Es wird auch dem geübtesten Sprecher nicht gelingen, eine Äußerung zweimal identisch zu produzieren. Die Dauer, Stärke, Tonhöhe und Klangfarbe des Lauts ändern sich ständig. Zusätzlich kommen beim Übergang von Lauten in die Wortbildung noch variable rhythmische Gliederungen und Intonationen hinzu. Von Bedeutung ist auch die variable Atmung des Sprechers auf die Lautbildung. Der Laut ist in seinem Charakter davon abhängig, wieviel Luftreserven in der Lunge vorhanden sind und wie stark sie diese hinausdrückt.
Dies alles gilt schon für einen einzigen Sprecher. Bei verschiedenen Sprechern einer Sprachgemeinschaft ist die Variabilität der Äußerungen immens hoch. Sie ist jedoch für den Menschen keine Störquelle, die das
1 Vgl. Steger, Wiegand (1989). S. 586.
2 Vgl. Steger, Wiegand (189). S. 587.
3 Vgl. Bünting (1990). S. 62ff.
4 Vgl. Biefert (1985). S. 11.
4
erkennen der Nachricht - der semantischen Information - erschwert, sondern
5 Aus der Sprechweise des vielmehr eine zusätzliche Informationsquelle.
Sprechers lassen sich - wie bereits angesprochen - emotionale Informationen erkennen, das "Timbre" seiner Stimme ist das persönliche, charakteristische Erkennungsmerkmal des Sprechers (u.a. sein Geschlecht und Alter) und zuletzt sein Akzent, seine spezifische Mundart, die Rückschlüsse auf seine
6 Des weiteren drückt sich Herkunft innerhalb des Sprachbereichs zulassen.
der gesundheitliche Zustand des Sprechers (Heiserkeit usw.) und besonders durch die Intonation die gewünschte Wirkung der Äußerung (Frage, Befehl usw.) aus.
Ein Computer, der im Grunde genommen nur wahr und falsch unterscheiden kann, hat mit der Laut- und Wortvariabilität enorme Probleme. Er kann einen gespeicherten Laut mit einem neu gesprochenen Laut vergleichen - und seine direkte Übereinstimmung als zutreffend oder nicht zutreffend charakterisieren. Doch ein solch reiner Vergleichsalgorithmus reicht wegen der Variabilität noch nicht aus, um dem Computer Sprache beizubringen.
2.2 Kontinuität
Die gesprochene Sprache ist ein linear ablaufender Prozess, der dem auditiven Rezipienten nicht automatisch - wie der niedergeschriebene Textdie Worttrennungen vorgibt. Das akustische Signal beruht auf einzelnen Phonemen und Wörtern, die der Sprecher verknüpft, doch bei der Umsetzung sind keine klaren Grenzen auszumachen. Imaginär hat der Hörer zwar eine Vorstellung von einzelnen ausgesprochenen Wörtern, doch das ist eine Illusion. Sätze sind, physikalisch gesehen, ein Schwall von Schall. Auch wenn Pausen stattfinden - also für einen Moment Stille herrscht -, ist dies
7 Pausen sind vor sogenannten nicht gleichbedeutend mit einer Worttrennung. Stopkonsonanten meist mitten im Wort anzutreffen (z.B. au_toma_tischeS_pracher_kennung). Dies ist schon bedingt durch die Artikulation der Plosivlaute, in denen zuerst die Luft gestaut wird, also ein kompletter Verschluß der Stimmlippen stattfindet. Ohne genaue Worttrennungen ist es für den Computer schwierig (aber auch für einen Menschen, der eine ihm völlig fremde Sprache hört), die einzelnen Wörter herauszupicken: "The sad poet remembers a long ago time" gleicht phonetisch fast dem semantisch völlig verschiedenem Satz "Thus add poetry
8 members along a goat I'm".
Ein menschlicher Rezipient hat zumeist den Bezug zu der gesamten sprachlichen Nachricht und entscheidet sich innerlich für die richtige Worttrennung mit dem korrekten semantischen Bezug (meistenfalls - sonst
5 Vgl. Habermann (1986). S. 89.
6 Um diese zusätzlichen Informationen auswerten zu können, braucht der Hörer
bereits ein Minimum an Erfahrung. Dies führt ab von der ideelen Konstruktion eines Computers, der allein auf spezifische Laute reagiert, ihre Wortstruktur erkennt und wiedergibt. Die Arbeit konzentriert sich daher ausschließlich auf die semantische Information einer Äußerung. Vollständigkeitshalber möchte ich noch erwähnen, daß die produzierte Äußerung von dreidimensionalen, elastischen Schallwellen getragen wird. Sie sind von den Druckverhältnissen im Medium, der Geschwindigkeit der bewegten Teilchen und der Amplitude der Teilchenauslenkung bestimmt (vgl. Habermann (1986)). Unterschiedliche Luftdichten, die Ausdehnung und Form sowie die Schallreflektions- oder Mitschwingungsmöglichkeit des Raumes usw. prägen das Klangbild ebenfalls in einem gewissen Maße.
7 Vgl. Steger, Wiegand (1989). S. 587.
8 Beispiel aus Smith (1991). S. 52.
5
entstehen Mißverständnisse). Ein Computer, der nicht verstehen, sondern die Sprache anhand lautlicher Merkmale erkennen soll, hat diesen Bezug nicht.
2.3 Kontextabhängigkeit
Die Artikulation der Sprache kann man zum mechanischen Prozeß reduzieren, bei dem die Luft unter Druck ausströmt und geformt wird. Die einzelnen Komponenten des Artikulationsapparats müssen sich für jeden spezifischen Laut in eine bestimmte Stellung bewegen und diese Stellung ist auch wieder der Ausgangspunkt für die Bewegung zu der nächsten Stellung, also dem nächsten Laut. Ein und dasselbe Wort wird damit in verschiedenen Kontexten unterschiedlich artikuliert. Dies gilt am stärksten für die Übergänge zwischen den Wörtern. Die gesamte sprachliche Äußerung hat so einen Einfluß auf jeden segmentalen Teilbereich derselben. Einzelne Wörter sind rein
9 Sollte der Computer lautlich daher schwer isoliert zu betrachten.
fließende Sprache verstehen, so wird er mit dem Problem konfrontiert, daß die einzelnen Wörter ebenfalls innerhalb des Kontextes lautlich fluktuieren.
3. Systeme zur Schallaufnahme und Reduktion
Ein so plastisches Gebilde wie die Sprache, welche sich ständigen lautlichen Änderungen bei gleichbleibender semantischer Information unterzieht, kann der Computer nicht bearbeiten. Die phonetischen Äußerungen müssen also systematisiert und vereinheitlicht werden; am Ende darf nur noch das signifikante Merkmal übrigbleiben, welches die semantische Information der Lautfolge trägt.
Ein erster Schritt dazu ist die ohnehin notwendige Digitalisierung des Schalls.
3.1 Schalldigitalisierung
Das Ohr des Computers ist ein Mikrofon. Ähnlich wie beim Trommelfell des Menschen wird eine Membran in Schwingungen versetzt. Diese Bewegungen führen zu einem Wechselstrom in einer Spule, der im Idealfall dieselbe Schwingungscharakteristik der Schallwellen hat. Hierbei spielt natürlich die Güte des Mikrofons eine entscheidende Rolle. Diese analogen Schwingungen müssen für den Computer digitalisiert werden, d.h., daß eine spezielle Folge von Binärzahlen repräsentativ für die ursprüngliche Schwingungscharakteristik wird.
Es gibt grundsätzlich zwei Methoden, die von diesen sogenannten Analog-Digitalwandlern angewendet werden: die Erstellung eines Zeit- oder
10 Frequenzmusters.
- Bei der Erstellung eines Zeitmusters wird die Amplitudestärke der Schwingung gemessen. Dieser Wert wird gerundet und einem der 256 möglichen
11 proportional zugeordnet. Zustände, die ein Byte haben kann,
Dieses aus 8 Bits bestehende Sample wird gespeichert und der Vorgang periodisch und regelmäßig in bestimmten Zeitintervallen wiederholt. Eine Rate von 8000 Samples pro Sekunde ist der Normalfall bei der maschinellen Spracherkennung. Unter der Annahme, daß das durchschnittliche Wort 1/3
12
einer Sekunde lang ist, ergibt sich eine Rate von 2666 Samples pro Wort.
9 Vgl. Biefert (1985). S. 12.
10 Vgl. Smith (1991). S. 44.
8 = 11 1 Byte = 8 Bit = 8 x wahr oder falsch = 8 x zwei mögliche Zustände = 2
256 verschiedene mögliche Zustände.
12 Vgl. Smith (1991). a.a.O.
6
Die Frequenz wird automatisch durch den linearen Ablauf der Aufzeichnungder Abstand der Wiederholung einer Amplitude ist die Frequenzgespeichert.
- Das Frequenzmuster wird erstellt, indem die Schwingungen in verschiedenen Frequenzbändern während eines Zeitintervalls gezählt werden. Dies kann alle 10 ms bei 16 Frequenzen geschehen. Auch hier wird der Wertin diesem Falle die Anzahl der Schwingungen - gerundet und einem Binärwert des Bytes zugeordnet.
Bei der Musikdigitalisierung - beispielsweise auf eine Compact-Disckommt es auf eine naturgetreue, d.h. eine bis in die tiefsten und höchsten hörbaren Frequenzen speicherndes Verfahren an. Hierzu werden einfach die Zeitintervalle immens verkürzt und die möglichen Stufen auf ein 16-Bit-Muster erhöht. Damit erreicht man nun 65536 mögliche proportionale Stufen. Bei der qualitativ schlechteren Sprachdigitalisierung geht zumeist ein Teil der hohen Frequenzen im Obertonbereich, die sogenannten Formanten, verloren. Sie sind für die Vokalunterscheidung, aber auch für die Klangfarbe mitverantwortlich, die den individuellen Sprecher auszeichnet. Dies geschieht bei jedem Digitalisierungsvorgang und ist der erste Schritt, der die Variabilität der Sprache eingrenzt. Daneben ist die ständige Rundung der Amplitude auf einen spezifischen Wert, der nur 256 Werte zuläßt, ebenfalls eine Kompensierung und Vereinheitlichung des Lautmusters. Pro Wort werden 2666 Samples, also insgesamt 21328 Bits pro Wort verbraucht. Im Gegensatz dazu braucht die Schrift bei durchschnittlich 5
13 Dies darf nicht außer acht gelassen werden, Buchstaben pro Wort 25 Bits.
wenn eine mögliche Anwendung der maschinellen Spracherkennung eine automatische Diktiermaschine sein könnte. So oder so muß die Datenmenge drastisch verringert werden - bei gleichbleibender semantischer Information
- um den Speicher des Computers nicht zu überlasten.
3.2 Datenkompression
Die idealisierte Abbildung verdeutlicht den Digitalisierungsvorgang. Der originale Schwingungsverlauf der Amplitude kann eine unbegrenzte Anzahl von Wertigkeiten annehmen, dagegen zeigen die umkreisten Punkte den Wert der Samples, der nur begrenzt zwischen 0 und 255 liegen kann (also 256 Möglichkeiten) und der nicht genau übereinstimmt mit dem tatsächlichen
14 Wert.
13 Mit 5 Bits sind alle im Deutschen verwendeten Buchstaben darstellbar
5 =32), also 5 Buchstaben x 5 Bits = 25 Bit pro Wort (ohne (2 Groß/Kleinschreibung).
14 Vgl. Smith (1991). S. 45. Die Zeichnung habe ich mit geringen Änderungen
übernommen.
Es ist erkenntlich, daß die originale Wellenform einen sanften und weichen auf- und absteigenden Verlauf hat. Die Wertigkeiten steigen oder sinken niemals sprunghaft, bis z.B. der Verlauf von dem Tiefpunkt im
Sample c hoch geht bis zum Sample i vergehen sechs Zwischenschritte, in denen die Charakteristik der Welle sich nicht auffällig ändert: Sie bleibt gleichförmig ansteigend. Diese Erkenntnis wird aus-genutzt, indem nur die jeweiligen Maxima und Minima einer Amplitude gespeichert werden, mit der Anzahl der dazwischen liegenden Samples. Zur späteren Bearbeitung und Untersuchung eines speziellen Abschnitts des gesampleten Lauts muß er allerdings erst wieder dekompressiert werden, d.h. der Vorgang findet in umgekehrter Reihenfolge statt. Auf diese Weise wird einmal die Datenmenge im Computer begrenzt und zum anderen wieder eine "Verwischung" der feinen Nuancen erreicht - also die Variabilität der Sprache eingegrenzt.
4. Verschriftung und Orthographie
Ein Schritt des weiteren Spracherkennens könnte über die Orthographie führen. Jeder, der schreibt, normt die Äußerung, hält sie frei von Variabilität und Emotionen (sieht man von dem Schriftbild ab) und führt klare Worttrennungen ein. Die Schrift erfüllt drei Anforderungen: Jede beliebige Äußerung kann mit ihr dargestellt werden, jede Wiederholung liefert dieselbe Abfolge von Zeichen, und unterschiedliche Äußerungen haben unterschiedliche Abfolgen. Dies ist eigentliche eine ideale Basis, um aufgrund von orthographischen Regeln eine automatische Spracherkennung zu realisieren.
In der deutschen Orthographie sind drei Ausprägungen anzutreffen. Sie ist eine Wortschrift, weil sie klanggleiche Worte differenziert (z.B. Wahl/Wal), eine Silbenschrift, weil sie Worttrennungen zwischen den Silben erlaubt, und zuletzt und grundlegend eine Lautschrift, die die einzelnen Phoneme umsetzt (das zeigt sich schon an dem fließenden Übergang von "Photo" zu "Foto").
Diese drei Ausprägungen werden im Deutschen recht willkürlich gehandhabt. Überhaupt ist die Orthographie recht inkonsistent; graphologische Einheiten wie z.B. "ch" werden phonetisch mehrfach belegt ("dach", "ich"). Viele Wendungen und Worte müssen einfach auswendig gelernt werden. Eine direkte Verschriftlichung von akustischen Sprachsignalen ist daher aufgrund dieser inhärenten Eigenschaften der Orthographie unmöglich. Ein
8
Verschriftungsautomat muß vielmehr selbst intern über die korrekte
15
orthographische Form der Äußerung verfügen.
5. Systeme zur Bearbeitung der Samples
Aus der bloßen Abfolge der Samples ist es nun nicht möglich, aus ihr selbst heraus eine schriftliche Form der ursprünglichen Äußerung zu erhalten. Die Samples werden vielmehr zu sogenannten Mustern zusammengefaßt. Im Prinzip wird dann das Muster mit Referenzmustern in dem Computerspeicher verglichen. Die automatische Spracherkennung hat dann
16
Erfolg, wenn beide Muster zusammenpassen.
5.1 Mustererzeugung
Zur Erzeugung eines Referenzmusters eines sprecherunabhängigen Systems sprechen mehrere Menschen das Wort, welches gespeichert werden soll, mehrmals aus. Daraus wird die typische mittlere Aussprachevariation gebildet. Solche Referenzmuster sind schwieriger - besonders in ihrer Variabilität - zu vergleichen als Referenzmuster von sprecherabhängigen Systemen, die nur die Muster eines einzigen Sprechers speichern, der mit dem System später allein Umgang hat. Es gibt auch Systeme, die ohne Trainingsphase sich langsam auf einen einzelnen Sprecher einstellen. Die Muster eines einmal erkannten Wortes werden dabei als eigene Referenzmuster gespeichert. Dies erhöht die Erkennungswahrscheinlichkeit und Geschwindigkeit.
Sind diese Muster als eine Abfolge von Samples erst einmal gespeichert, dann ist das System bereit, Sprache zu erkennen. Dazu wird ebenfalls ein Muster von den Äußerungen des Sprechers erstellt und mit den Referenzmustern verglichen. Mit Hilfe mathematischer Techniken variiert dieses Muster in bestimmten Grenzen, die die möglichen Ausdrucksvariationen berücksichtigen, solange, bis das Muster die größtmögliche Übereinstimmung mit einem der gespeicherten Referenzmuster hat. Es folgt eine Auswahl der bekanntesten Musterbearbeitungs- und Vergleichsverfahren, die innerhalb des Musters aktiv sein können und die nur zusammen im Verbund und zur Überprüfung einer Worthypothese sinnvoll sind.
5.2 Normalverteilung
15 Vgl. Biefert (1985). S. 7.
16 Was dem Referenzmuster zugeordnet ist, ist völlig beliebig. Dies kann eine
bestimmte Reaktion eines Roboterarms oder anderer technischer Geräte sein; aber auch ein orthographischer Text. Das bedeutet, daß der Computer der lautlichen Äußerung "Spracherkennung" genauso gut "lkjgdfgiu" oder aber auch sinnvoller "Speech recognition" zuordnen kann. Auf dieser Basis kann bereits ein primitiver Sprachübersetzungscomputer entstehen. Primitiv wird er nicht nur allein aufgrund der Wort-für-Wort-Übersetzung, die keinerlei grammatikalische, satzbildende und redensartliche Besonderheiten der anderen Sprache berücksichtigt, sondern auch aufgrund der fehlenden Implizierung persönlicher oder kultureller Feinheiten. Im Japanischen gibt es z.B. eine Vielzahl von Höflichkeitsformen, für die es nichts Vergleichbares im Deutschen gibt. Bei einer maschinellen Sprachübersetzung ist man so immer in Gefahr, sich im Ton zu vergreifen. Das richtige Einfühlungsvermögen von Dolmetschern läßt sich nicht so einfach automatisieren (Vgl. Joosten (7.4.1993). S. 2).
9
Die Berechnung der Normal- oder Gaußverteilung hat den Zweck, die Wahrscheinlichkeit vorauszubestimmen, mit welcher Häufigkeit in einem Muster fehlerhafte Samples auftreten. Als Parameter dient der erwartete Mittelwert des Fehlers und die Varianz, die den Abstand des maximal zulässigen Fehlers vom wahrscheinlichsten Wert des Samples charakterisiert. Es ist so möglich, die zulässige Fehlerquote für jedes Referenzmuster zu bestimmen. Einem besonders prägnanten Muster, welches nur selten vorkommt, kann so ein hoher Fehleranteil eingeräumt werden, einem häufigen Muster, welches sich nur in wenigen Samples von anderen Mustern unterscheidet, ein geringer. Dadurch wird die mögliche Variabilität der Sprache genauer
17 bestimmt.
5.3 Finite State Machine
18 nutzt den in Kapitel 2.3 erwähnten Umstand Die Finite State Maschine
aus, daß die menschlichen Artikulationsorgane sich von einem zum anderen Zustand räumlich bewegen müssen. Während des Übergangs können eine Vielzahl von Sprachsegmenten mit unterschiedlicher Wahrscheinlichkeit auftreten, für die man ein statistisches Modell erstellen kann. So kann z.B. festgestellt werden, wie wahrscheinlich es ist, daß einem einzelnen Sample innerhalb des Musters ein bestimmtes anderes Sample folgt. Dies gewinnt an Bedeutung, wenn nicht nur für jedes Wort ein Muster erstellt wird, sondern für jedes Phonem (im Deutschen um die 40 Phoneme). Für die Übergänge kann man dann feststellen, wie wahrscheinlich sie sind (Markow-Modell). Zum Beipiel folgt auf ein "S" selten ein "X", sehr viel
19 Auf dieser Grundlage könnte ein Wort sicher aus den häufiger ein "T".
phonetischen Einzelteilen erstellt werden. Doch dieses Wort ist weder orthographisch mit dem Ursprungswort zu vergleichen, noch berücksichtigt eine solche Vorgehensweise die Worttrennung und Allophone.
5.4 Dynamische Programme
Ein Problem, welches die Variabilität der Sprache mit sich bringt, ist die unterschiedliche Geschwindigkeit, mit der eine Äußerung gemacht wird. Je langsamer gesprochen wird, desto mehr erhöht sich der Umfang des Musters durch eine größere Anzahl von Samples. Um es mit dem Referenzmuster zu
20
vergleichen, bedarf es einer dynamischen Angleichung. Hierzu wird der Wert eines jeden Samples des Musters mit den Werten des Referenzmusters subtrahiert.
17 Vgl. Stöcker (1993). S. 662; Steger, Wiegand (1989). S. 590.
18 Vgl. Steger, Wiegand (1989). S. 591.
19 Vgl. Joosten (7.4.1993). S. N 2.
20 Vgl. Smith (1991). S. 46.
10
21
Die Abbildung verdeutlicht dies:
+4 +5 In der Vertikalen ist das Referenzmuster, in der Horizontalen das zu vergleichende Muster. Der Wert Null kennzeichnet eine totale Übereinstimmung. Je weiter sich ein Wert von der Null entfernt, desto geringer ist die Übereinstimmung der einzelnen Samples des Musters. Findet sich nun ein zusammenhängender Pfad von links unten bis rechts oben, der im Idealfall aus lauter Nullen besteht, so ist die Wahrscheinlichkeit sehr groß, daß es sich vom Prinzip her um übereinstimmende Muster handelt. Sie wurden nur unterschiedlich schnell ausgesprochen. Unterbrechungen des Pfades lassen in ihrer Wertigkeit das Maß der Unterschiedlichkeit erkennen. Hier werden sogenannte Schwellenparameter verwendet, mit denen entschieden innerhalb des Toleranzbereiches liegt oder ob es sich schon um ein anderes wird, ob der Unterschied noch innerhalb der Lautvariabilität, also Wort handeln muß.
22 Damit hat man wieder ein Teil der Lautvariabilität
kompensiert. 6. Grammatisch-semantische Analyse Die menschliche Spracherkennung der Phoneme und Wörter verläuft nicht unabhängig von der gleichzeitig ablaufenden grammatikalischen und Sätze, die durch Hustengeräusche zerstückelt waren, ohne Probleme unbewußt semantischen Erkennung. Dies haben Experimente ergeben, in denen Probanden
vervollständigten. 23 Eine endgültige Entscheidung, um was für ein nicht richtig verstandenes Wort oder Phonem es sich nun handelt, wird dabei kein grammatikalisches und semantisches Wissen verfügt, muß damit aber
solange zurückgestellt, bis das Umfeld klarer ist. Ein Computer, der über nicht prinzipiell eine defekte phonetische Analyse liefern. 24 Doch er kann höhere Stufe des gesamten Erkennungssystem, die das spezielle Umfeld mit die tatsächliche Wort- oder Phonemerkennung auch hinausschieben in eine
einbezieht. 25 Bei der Phonemanalyse begegnet man damit dem Problem der
Kontextabhängigkeit der Phoneme und auf der Wortebene dem Problem der Kontinuität der Sprache. Eine Überprüfung des grammatikalischen Kontextes 21 Vgl. Smith (1991). S. 47. Die Zahlenwerte der Samples der Muster gehen zur besseren Übersicht von -5 bis +5. Die Werte der richtigen Samples schwanken natürlich zwischen 0 und 255. Abbildung ist von mir leicht korrigiert in der untersten horizontalen Spalte.
22 Vgl. Smith (1991). S. 46.
23 Vgl. Smith (1991). S. 54.
11
kann dadurch geschehen, daß jedem Wortreferenzmuster auch seine Wortart zugeordnet wird; der Computer überprüft, ob seine vorläufig getroffene
26 Eine richtige
Worthypothese auch im Satz grammatikalisch erlaubt ist. semantische Überprüfung der Worthypothese, so daß der Computer praktisch mitdenkt, was ihm der Sprecher nun sagen will, ist nur möglich, wenn der Computer unabhängig von der Spracherkennung über dieselben sachlichen Informationen wie der Sprecher verfügt und er sie nach ähnlichen logischen Grundlagen verarbeitet. Dies gilt z.B. für einen Schachcomputer mit Spracherkennung, der nicht nur die möglichen Züge, sondern auch die
27 sinnvollsten Züge erkennt.
7. Systeme zur automatischen Spracherkennung
Besonders aus der Berücksichtigung der Rechenzeit ist es erforderlich, die vorgestellten Verfahren ökonomisch und pragmatisch einzusetzen. Es gibt grundsätzlich drei Systeme zur automatischen Spracherkennung mit unterschiedlicher Geschwindigkeit, Sicherheit und Anwendungsmöglichkeit: die isolierte und verbundene Worterkennung sowie die kontinuierliche
28 Spracherkennung.
7.1 Isolierte Worterkennung
Bei der isolierten Worterkennung (isolated word recognition) muß sich der Sprecher sehr stark in seiner Sprechgewohnheit umstellen, da er jedes Wort einzeln sagt. Es ist auch möglich, kurze Sätze zu verwenden; sie dürfen jedoch nicht auf irgendeine Weise umgestellt werden - auch wenn sich die Nachricht nicht dadurch ändert. Damit werden aber die Probleme, die der Computer mit der Kontinuität und Kontextabhängigkeit hat (siehe Kapitel 2.2/3), auf die einfachste Art und Weise umgangen. Für jedes Wort oder jeden Kurzsatz wird genau ein Referenzmuster erzeugt, dem genau ein Wort
29 oder Satz zugeordnet ist.
Solche Systeme werden bereits erfolgreich in Bereichen eingesetzt, wo die Augen und Hände durch eine Dateneingabe nicht abgelenkt werden dürfen. Dies
30
gilt z.B. bei bestimmten Qualitätskontrollen und Inspektionen. Das Vokabular kann genau auf den Anwendungsbereich zugeschnitten werden und weiter innerhalb des Systems auf die gerade benötigten Vokabeln mit Hilfe einer Art Flußdiagramm (im Englischen: syntax-tree). Dieses gibt vor,
31 Die
welche Wörter des Vokabulars aktiv sein sollen. Erkennungswahrscheinlichkeit kann erhöht werden, indem nur längere
26 Besonders die freie Rede ist grammatikalisch inkonsistent. Der Zustand,
wenn der Sprecher nach den richtigen Worten sucht, geht oft auf Kosten der richtigen Grammatik. Sätze werden nicht korrekt beendet oder Worte unsystematisch zusammengezogen (Vgl. Smith (1991). S. 53.)
27 Dies kann ebenfalls zu Problemen führen: die Entscheidung des Computers,
was am sinnvollsten ist, muß nicht unbedingt dem Willen des Sprechers entsprechen (Vgl. Smith (1991). S. 56).
28 Vgl. Steger, Wiegand (1989). S. 586.
29 Vgl. Biefert (1985). S. 8.
30 Vgl. Steger, Wiegand (1989). S. 592.
31 Im primitivsten Fall wäre dies schon der Fall, wenn der Computer nur die
beiden Vokabeln "Ein" und "Aus" versteht. Hat der Computer "Ein" erkannt, dann kann als nächstes Befehl nur "Aus" folgen, die Vokabel "Ein" kann deaktiviert werden.
12
mehrsilbige Worte - die phonetisch möglichst verschieden sind - in das
32
Vokabular aufgenommen werden.
Die Fehlerrate liegt bei einem sprecherabhängigen System zwischen 0.2%
33
bis 12.6% für ein Vokabular mit 20 Wörtern.
Typischerweise läuft eine isolierte Worterkennung folgendermaßen ab: Die Äußerung wird digitalisiert und ihr genauer Anfangs- und Endpunkt festgelegt. Das geschieht normalerweise, indem man eine bestimmte Energie, Lautstärke oder Amplitudenstärke festlegt. Die Äußerungsgrenzen sind gleichbedeutend mit der Schwellenüberschreitung. Mit der dynamischen Programmierung wird das entstandene Muster mit den gespeicherten Referenzmustern des aktiven Vokabulars verglichen. Parallel dazu laufen die Prozeduren und Berechnungen der "Finite State Machine" und der Normalverteilung. Wenn sich eine große Ähnlichkeit aufweisen läßt, so ist das Wort bzw. der Kurzsatz erkannt.
7.2 Verbundene Worterkennung
Die verbundene Worterkennung (connected word recognition) benötigt wie die isolierte Worterkennung nur wenig Kenntnisse des syntaktischen Aufbaus der Sprache. Es ist dabei jedoch möglich, eine Folge von Wörtern eines
34
kleinen Vokabulars (zumeist 10-100 Wörter) zu verarbeiten. Die größten Probleme entstehen hierbei durch die Schwierigkeit, klare Wortgrenzen zwischen den Wörtern festzustellen. Wenn auch nur einmal eine Grenze falsch erkannt wird, dann zieht das eine gesamte falsche Interpretation nach sich; die Anfangs- und Endpunkte der Muster stimmen nicht mehr mit denen der Referenzmuster überein. Um dem zu begegnen, räumt
35 eine hohe Unabhängigkeit untereinander ein. man den einzelnen Operationen
Die beste Methode, um mit unabhängigen, verschiedenen Operationen zu arbeiten und dennoch zu einer einzigen Entscheidung des gesamten Systems zu kommen, ist, eine globale Kennzeichnung einzuführen. In ihr sind alle Anforderungen der einzelnen Operationen eingetragen. Die Operationen können so in einer einzigen Stufe, welche die Kennzeichnung verarbeitet, durchgeführt werden. Das verhindert voreilige und rein lokale Entscheidungen des gesamten Erkennungssystems aufgrund von einzelnen Operationen.
Der Erkennungsprozeß kann wie folgt ablaufen: Das Muster des gesprochenen Wortes wird als ein Muster vorausgesetzt, welches mehrere Worte - also mehrere isolierte Referenzmuster - repräsentiert. Das unbekannte Muster ist unterteilbar in viele kleine Zeitabschnitte i (i=1,...,I). Jedem Referenzmuster k (k=1,...,K) wird eine Liste der Artikulationswahrscheinlichkeiten j (j=1,...,J(k)), die in der "Finite State Machine" charakterisiert sind, zugeordnet. Es entsteht ein dreidimensionales Gitter mit den Koordinaten i,j,k. Das Gitter wird dem Eingabemuster mit Hilfe der dynamischen Programmierung gegenüber gestellt und wiederum der bestmöglichste Pfad herausgesucht. Auf diese Weise wird das zu erkennende Muster mit allen möglichen Wortkombinationen und Wortübergängen verglichen.
7.3 Kontinuierliche Spracherkennung
32 Vgl. Steger, Wiegand (1989). a.a.O.
33 Vgl. Steger, Wiegand (1989). S. 593.
34 Vgl. Steger, Wiegand (1989). a.a.O.
35 Also alle Operationen, die zur verbundenen Worterkennung nötig sind: word
boundary detection, the nonlinear time alignment (gemeint sind die Verfahren zur Bearbeitung der Samples) und word identification. Vgl. Steger, Wiegand (1989). a.a.O.
13
Die kontinuierliche Spracherkennung (continuous speech recognition) verlangt im Idealfall keinerlei Einschränkungen des Sprechers, der so spricht, als würde er zu einem Menschen sprechen. Sie ist die komplexeste Form der Spracherkennung. Das Vokabular ist umfangreich, die einzelnen Wörter werden vom Sprecher nachlässiger artikuliert, und die syntaktische
36
Struktur der Sprache muß beim Erkennungsvorgang berücksichtigt werden. Solchen Systemen wird viel Zeit eingeräumt, bis sie ihre Worthypothesen geprüft haben. Dies geht soweit, daß sie zu einer Wortentscheidung erst kommen, wenn der ganze Satz analysiert worden ist, also das Wortumfeld geklärt ist.
Eine Möglichkeit, das Ganze zu beschleunigen, ist die "New Raleigh Language". Sie beruht auf einem bereits im Kapitel 7.1 angesprochenes Flußdiagramm, welches nur einen bestimmten Teil des Vokabulars aktiviert. Jeder Pfad durch das Diagramm liefert einen grammatikalisch korrekten Satz
37
(auch wenn er sinnlos sein kann).
8. Gesprächsprotokoll
Eine praktische Anwendung ist schon für jeden erfahrbar: Unter der Aachener Rufnummer 0241/604020 ist eine Fahrplanauskunft erreichbar, die bereits mit automatischer Spracherkennung (in Verbindung mit Sprachsynthese) arbeitet und in 80 von 100 Fällen die Zugverbindungen
38 Das folgende Gespräch ist zwischen 1000 deutschen Städten richtig sagt.
nicht repräsentativ, da ich mich möglichst umgangssprachlich ausdrückte und darüber hinaus versuchte, den Computer ein wenig aus dem Konzept zu bringen. Das Gespräch soll also nur als Beispiel dienen, um die Möglichkeiten, Stärken und Schwächen eines solchen Systems anzudeuten. Sinnvoller wären natürlich eine Reihe Gesprächsprotokolle von Leuten, die unvoreingenommen eine Auskunft vom Computer erbitten.
Computer: "Guten Abend. Hier ist die automatische Fahrplanauskunft. Es können Zugverbindungen zu tausend inländischen Bahnhöfen erfragt werden. Von wo nach wo möchten Sie fahren?" Verfasser: "Von Essen nach Berlin!" ("Von" und "nach" wurde vom Computer bereits in den Mund gelegt.)
Computer "Wann möchten Sie von (fängt an zu stocken) Essen Hauptbahnhof nach Berlin Hauptbahnhof (Pause) fahren?"
Verfasser: "Am zehnten siebten fünfundneunzig" (schludrig gesprochen) Computer: "Entschuldigung. Ich habe Sie nicht verstanden. Bitte sagen Sie noch einmal wann Sie von Essen Hauptbahnhof nach Berlin Hauptbahnhof fahren möchten." Verfasser: "Zehnten siebten fünfundneunzig." ("Am" verschluckt und damit grammatikalisch falsch)
Computer: "Entschuldigen Sie, ich habe Sie immer noch nicht verstanden. Bitte sagen Sie noch einmal, wann Sie von Essen Hauptbahnhof nach Berlin Hauptbahnhof fahren möchten." Verfasser "Montag"
Computer: "Um welche Uhrzeit möchten Sie morgen fahren?" Verfasser: "Um zehn Uhr so"
Computer: "Sie möchten also um zehn Uhr vormittags fahren?" Verfasser: "Nein nachmittags, äh, äh, abends. Computer: "Sie möchten also zwischen zwölf und achtzehn Uhr fahren?" Verfasser: "Um zehn Uhr Vormittag!" (Ein kleiner Versuch, den Computer zu irritieren, der jedoch unbeirrt in seiner Schleife verweilt, bis er ein klares "Ja" erkennt.) Computer: "Sie möchten also um zehn Uhr vormittags fahren?" Verfasser: "Ja"
-(Pause. Ich rufe Hallo? Der Computer unterbricht mich.)
Computer: "Es gibt die folgende Verbindung: Mit Intercity 729 Abfahrt Essen Hbf um neun Uhr fünfzig blablabla...Möchten Sie, daß ich die Verbindung noch einmal nenne?" Verfasser: "Nein, Danke."
Computer: "Benötigen Sie noch eine andere Verbindung?" Verfasser: "Nein...Wie teuer ist das denn?"
Computer: "Ich wünsche Ihnen eine gute Reise. Das war ein Service der Philipps-Forschungslaboratorien Aachen. Für erteilte Auskünfte übernehmen wir keine Gewähr...Auf Wiederhören."
36 Vgl. Steger, Wiegand (1989). S. 595.
37 Vgl. Steger, Wiegand (1989). S. 598.
38 Vgl. Beyerlein (7.3.1995). S. B 26.
14
9. Nachwort
Es ist faszinierend, daß der Mensch trotz aller erwähnten Widrigkeiten seine Sprache ohne Probleme erkennt und versteht. Kein Mensch rechnetzumindestens bewußt - alle möglichen Ausdrucksmöglichkeiten aus und überlegt lange, wo ein Wort wohl zu Ende ist. Zusätzlich ist er in der Lage, ausgelassene oder gestörte Wörter zu ersetzen (z.B bei einem hustenden Sprecher) und unsinnige oder fehlerhafte Satz- und Wortsyntaxen zu verstehen. Der größte Unterschied zwischen Mensch und Maschine ist, daß die Maschine Sprache als physikalisches Phänomen verarbeitet, linear und auf programmierte Reaktionen ausgelegt. Wenn z.B. jemand laut um Hilfe ruft, der Computer tatsächlich ein vergleichbares Referenzmuster für "Hilfe" in seinem Speicher hat und der dazugehörende Befehl den Computer anweist, z.B. die Polizei zu rufen, dann hat er richtig reagiert. Doch es entsteht im Computer niemals die Assoziation, daß da jemand ist, der Hilfe benötigt. Mit der Erzeugung und Rezeption der Sprache entsteht nach de Saussure das Bild, welches der Sprecher in seiner Vorstellung hat, wieder
39 Danach verbindet der Mensch mit der Sprache in der Vorstellung des Hörers.
die Entstehung und Übertragung von Assoziationen. Das akustische Signal ist beliebig austauschbar - z.B gegen die Schrift und gegen Symbole; das gleiche gilt für Begriffe. Nur der Assoziationsinhalt zählt. In vielen Science-Fiction-Geschichten erteilen die Menschen einer fernen Zukunft den Robotern und Computern mündlich die Befehle - ja sogar ganze Unterhaltungen finden mit den Maschinen statt. Eine der größten Barrieren zwischen Mensch und Maschine wird damit aufgehoben. Nun versteht sie auch die natürliche Sprache ihres Schöpfers; und durch diesen Akt der Vermenschlichung - eben dadurch, daß die Maschinen Sprache, jenes der Merkmale, das uns Menschen auszeichnet, verstehen - wird ein Teil der Antipathie gegen sie kompensiert.
Jeder kann in diesen Zukunftsvisionen mit Computern auf einfachste Weise umgehen und muß sich nicht wie ein Mensch der Gegenwart umständlich über Tastatur und Maus durch endlose Benutzermenus quälen. Doch mit Hochdruck wird daran gearbeitet, daß die Fiktion Realität wird. Ständig finden auf der ganzen Welt Konferenzen statt, die einen einheitlichen Standard festlegen, die verschiedenen Aufgabenbereiche zuweisen und
40 Doch solange der Computer nur erkennt, was Arbeitsergebnisse austauschen.
ihm einprogrammiert wird, und nicht versteht, was ihm gesagt wird, ist er kein gleichwertiger Kommunikationspartner.
39 De Sausussure (1967). S. 13
40 Vgl. Steger, Wiegand (1989). S. 598 und Fourcin, Gibbon (1994). S. 79-86.
15
Literaturverzeichnis:
Beyerlein, Peter: Mein PC versteht mich. Eine Technologie wird erwachsen. In: Frankfurter Allgemeine Zeitung, Nr. 56 vom 7.3.1995, S. B 26. Bierfert, Herbert: Automatische Spracherkennung - von der Theorie zur Praxis. Tübingen 1985.
Bünting, Karl-Dieter: Einführung in die Linguistik. Frankfurt am Main 1990. Fourcin, Adrian. Gibbon, Dafydd: Spoken Language Assessment in the European Context. In:Literary and Linguistic Computing (1994), Vol. 10, Nr. 1, S. 79-86.
Habermann, Günther: Stimme und Sprache. Stuttgart 1986. Joosten, Heiko: Computer als Dolmetscher. Eine Telefonkonferenz zwischen München, Pittsburgh und Tokio / Grenzen der Maschine? In: Frankfurter Allgemeine Zeitung, Nr. 82 vom 7.4.1993, S. N 2. Saussure, Ferdinand de: Grundfragen der allgemeinen Sprachwissenschaft. Berlin 1967.
Smith, George William: Computers and human language. New York 1991. Steger, Hugo. Wiegand, Herbert Ernst (beide Hrsg.): Handbücher zur Sprach-und Kommunikationswissenschaft. Berlin 1989.
Stöcker, Horst: Taschenbuch mathematischer Formeln und moderner Verfahren. Frankfurt am Main 1993.
Arbeit zitieren:
Tankred Stachelhaus, 1994, Automatische Spracherkennung, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 35 Seiten
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 15 Seiten
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 20 Seiten
Erstellen einer schriftlichen Hausarbeit
Vorlagen, Muster, Formulare, Infobroschüren
Hausarbeit, 14 Seiten
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Vorlagen, Muster, Formulare, Infobroschüren
Skript, 46 Seiten
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 39 Seiten
Fang Tan folgt nun Automatische Spracherkennung
Tankred Stachelhaus hat den Text Automatische Spracherkennung veröffentlicht
Tankred Stachelhaus hat einen neuen Text hochgeladen
WOLK 1: Der LASAREWSKI-REPORT zum Wolf in Rußland. Über die Vernichtu...
Die Wolfsansiedlung und ihr Pr...
Alexander Brückner, Walter Rathgeber, Wasilij Matwejewitsch Lasarewski, Narcisse Seppey, Domenico Laffi, Alexander Theodor von Middendorf, Jürg Steiner, F. I. Walewskij, Knut Bengelmann, Giordano Cayetano Brunelli, Valentino Bonvicini, Claus Taaks, Claus Gampe, Irina Mironova
Formale Sprachen, abstrakte Automaten und Compiler
Lehr- und Arbeitsbuch für Grun...
Christian Wagenknecht, Michael Hielscher
Praktische Grammatik der englischen Sprache
Matthias Hutz, Kathryn Khairi-Taraki, Wolfgang Reumuth
0 Kommentare