Inhaltsverzeichnis
1 Einleitung 1
2 Sprachsyntheseverfahren 3
2.1 Systemarchitektur 3
2.2 Sprachsynthese nach Regeln 6
2.3 Datengesteuerte Sprachsynthese 8
2.3.1 Einheiten der konkatenativen Sprachsynthese 10
2.3.2 Anwendungen mit begrenztem Bausteininventar 13
2.3.3 Selektive konkatenative Synthese 15
2.4 Qualitätsanforderungen an die Sprachsynthese 19
2.4.1 Die Qualitätsmerkmale 20
2.4.2 Methoden zur Qualitätsmessung 22
3 Sprachliche Einheiten in langue und parole 25
3.1 Die abstrakten Einheiten des Sprachsystems 26
3.1.1 Der Satz 26
3.1.2 Das Wort 27
3.1.3 Das Morphem 30
3.1.4 Das Phonem 33
3.2 Lautsprachliche Korrelate abstrakter Spracheinheiten 34
3.2.1 Die Intonationsphrase 35
3.2.2 Die Wortform 35
3.2.3 Das Morph 37
3.2.4 Das Phon 40
4 Eine spezielle Einheitendefinition zur Generierung flektierter Wortformen 44
4.1 Erhebung von Daten 44
4.1.1 Erstellungskriterien für das Datenmaterial 45
4.1.2 Aufnahme der Daten 48
4.1.3 Aufbereitung des Korpus 48
4.2 Vorexperimente 49
4.2.1 Die Position der Schnittgrenze 49
4.2.2 Der phonetische Kontext der Schnittgrenze 50
4.2.3 Hypothese für einen Perzeptionstest 53
4.3 Evaluation durch einen Perzeptionstest 54
4.3.1 Auswahl der Testmethode 54
4.3.2 Auswahl der Stimuli 54
4.3.3 Auswahl der Testpersonen 55
4.3.4 Testergebnisse 56
4.4 Zusammenfassung 67
5 Diskussion 68
Literaturverzeichnis 71
Anhang A 76
Anhang B 78
Anhang C 84
1 Einleitung
Der Gegenstandsbereich der vorliegenden Arbeit ist die Sprachsynthese, d. h. die maschinelle Generierung lautsprachlicher Äußerungen. Spätestens seit der Erfindung des Computers fasziniert den Menschen die Idee, einer Maschine das Sprechen lehren oder sogar mit ihr kommunizieren zu können. In der bisherigen Geschichte der Sprachsynthese konnte die generierte Sprachausgabe immer nur so gut sein, wie der jeweils aktuelle Entwicklungsstand auf dem Gebiet der Informationselektronik es zuließ.
Die neuesten Verfahren und Methoden zur Sprachsynthese arbeiten auf der Basis umfangreichen Datenmaterials, das einerseits eine hervorragende Synthesequalität gewährleistet, andererseits aber an die Grenzen des bei der Aufbereitung der Daten tolerablen Arbeitsaufwandes geht. Die jüngsten Entwicklungen auf dem Gebiet der Sprachsynthese verlangen also nach ausgefeilten Strategien, den immens gewachsenen Arbeitsaufwand unter Aufrechterhaltung der hohen Synthesequalität zu reduzieren. Vorliegende Arbeit leistet einen solchen Beitrag zur Verbesserung der Ökonomie von Sprachsynthese auf der Basis großer Korpora.
Das im Zentrum der Arbeit stehende Sprachsynthesesystem des Instituts für Kommunikati-onsforschung und Phonetik (IKP) Bonn verwendet das Wort als zentralen Synthesebaustein. Die Struktur der Vielzahl an unterschiedlichen Einheiten zur Sprachsynthese wird in Kap. 2 erörtert. Im gleichen Kapitel wird eine kritische Gegenüberstellung der wichtigsten Verfahren der Sprachsynthese geleistet. Außerdem werden einige ausgewählte Beispiele spezieller Synthesesysteme vorgestellt, bis anschließend das Problem der Erfassbarkeit von Sprachsynthesequalität diskutiert wird.
In Kap. 3 wird im Wesentlichen das Wort als linguistische Einheit erörtert. Es stellt sich insbesondere die Frage nach der morphologischen Struktur des Wortes, da in vorliegender Arbeit versucht wird, Wortformen aus morphologischen Subeinheiten zu generieren. Ferner wird eine Wortdefinition vorgestellt, die unter anderen syntaktische und semantische Aspekte des Wortes berücksichtigt. Es wird gezeigt, dass das Wort in wechselseitiger Beziehung mit linguistischen Einheiten vom Satz bis hin zum Phonem steht. Des Weiteren werden in Kap. 3 die lautsprachlichen Korrelate abstrakter Spracheinheiten sowie das Problem ihrer
1
Abgrenzbarkeit skizziert. In Kap. 4 wird versucht, die in Kap. 2 angeführten Erörterungen zu den Einheiten der Sprachsynthese mit den Erläuterungen zum linguistischen Einheitenbegriff zusammenzuführen. Auf der Basis morphologischer Subeinheiten von Wörtern werden flektierte Wortformen generiert. Die ersten Erfahrungen mit der neuen Generierungsmethode werden vorgestellt. Schließlich wird ein Perzeptionsexperiment dargelegt, das die perzeptive Qualität der generierten Wortformen unter verschiedenen Bedingungen prüft. Daraus resultierend werden Kriterien aufgestellt, die bei einer Integration der Wortformengenerierung auf Basis flexionsmorphologischer Einheiten in ein Sprachsynthesesystem beachtet werden müssen. Kap. 5 schließt die Arbeit mit einer Diskussion der wesentlichen Ergebnisse der empirischen Studie ab.
2
2 Sprachsyntheseverfahren
In diesem Kapitel werden die wichtigsten Verfahren der Sprachsynthese erörtert. Innerhalb des Gebietes der Sprachsynthese stehen sich die beiden grundlegenden Ansätze der regelbasierten Systeme auf der einen Seite und der datenbasierten auf der anderen Seite gegenüber. Erstere werden zumeist als Formantsynthesesysteme oder aber als artikulatorische Syntheseverfahren implementiert, während Letztere die synthetische Sprache durch Konkatenation zuvor abgespeicherter Einheiten erzeugen.
Neben der Architektur der verschiedenen Synthesesysteme ist in der Sprachsynthese stets von Interesse, in welchen Punkten sich die resultierenden Sprachsignale qualitativ unterscheiden und welche Qualität man ihnen im Vergleich zu menschlicher Sprache zuschreiben kann. Nicht alle diesbezüglich relevanten Merkmale sind so ohne weiteres quantifizierbar. Es ist zu klären, welche Qualitätsparameter die größte Bedeutung haben und wie diese messbar sind. Die Qualitätsbeurteilung synthetisch erzeugter Sprache wird im weiteren Verlauf der Arbeit für die Durchführung eines Perzeptionsexperiments von Bedeutung sein.
Im Folgenden sollen die Grundcharakteristika der obig erwähnten Sprachsyntheseverfahren und ihrer qualitativen Beurteilung näher erläutert werden. Dabei liegt ein besonderes Gewicht auf der Erörterung der konkatenativen Ansätze, da die in Kap. 4 untersuchten speziellen Einheiten zur Generierung flektierter Wortformen in ein konkatenatives Synthesesystem integriert werden sollen.
2.1 Systemarchitektur
Ein akustischer Synthetisator (auf Basis von Formanten oder natürlichsprachlichen Einheiten) alleine macht noch kein komplettes Sprachsynthesesystem aus. Soll ein Synthetisator (vor allem bzgl. der Prosodie) sinnvolle Lautsprache erzeugen, so muss in einer vorherigen Stufe des Sprachsyntheseprozesses sprachliche Information verarbeitet werden. Diese linguistische Vorstufe kann dabei einer von zwei unterschiedlichen Strategien folgen. Entweder wird CTS (concept-to-speech) oder TTS (text-to-speech) verwendet (vgl. Hess, 1996).
3
Der wohl häufigere Fall ist TTS (s. Abb. 2.1). Hier wird die Synthese beliebigen orthographischen Textes ermöglicht. Es ergibt sich dabei eine Modularisierung des Sprachsyntheseprozesses in:
a) eine Symbolverarbeitungsstufe
b) eine Verkettungsstufe
c) eine Signalsynthesestufe
Die Symbolverarbeitung ist das wesentliche Kennzeichen eines TTS-Systems. Denn aus Text als Eingabe werden, nach einer Vorverarbeitung von Sonderzeichen, zunächst Informationen über Phrasengrenzen, Akzentuierung, Wortklassen, syntaktische Struktur und zum Teil auch Semantik gewonnen, um eine zumindest annähernd geeignete Prosodiesteuerung zu ermöglichen. Die Graphem-Phonem-Konversion liefert so, angereichert mit Phrasen- und Akzentin-formationen, den symbolischen Eingang für das Verkettungsmodul. Letzteres setzt den symbolischen Datenstrom um in einen akustisch-parametrischen, der seinerseits wiederum als Eingang des akustischen Synthetisators dient. Dieser ist somit in der Lage eine linguistisch wohlgeformte Sprachausgabe zu erzeugen. Das große Problem der TTS-Synthese ist die Generierung einer geeigneten Prosodie. Die starke Verhaftung von Semantik und Prosodie ver-bunden mit der nur rudimentären Möglichkeit orthographischen Text semantisch zu analysieren, führen zu diesem Umstand.
4
Oftmals ist jedoch eine orthographische Repräsentation von Sprache für die Synthese gar nicht notwendig, wie z. B. im Anwendungsfall der Auskunftssysteme. Damit entstand die Idee von CTS-Systemen, die die Symbole, die ein symbolverarbeitendes Modul der TTS aufwendig aus orthographischem Text gewinnen muss, direkt per Eingabe an das Prosodie- und Verkettungsmodul übergeben. Der entscheidende Vorteil dabei ist, dass auch die für die Prosodie so wichtige semantische Information in der Symbolfolge annotiert wird. CTS also umgeht, abgesehen vom Prosodiemodul, sämtliche Symbolverarbeitung.
2.2 Sprachsynthese nach Regeln
Im Bereich der regelbasierten Sprachsynthese ist einer der wohl wichtigsten Ansätze der der Formantsynthese (Klatt, 1980; Allen et al. 1987; Hirschfeld und Kordon, 1994). Hierbei wird das Quelle-Filter Modell (Fant, 1960) zugrundegelegt, d. h. die Sprachsignalerzeugung wird als ein den Vokaltrakt simulierendes Filter mit einer dazugehörigen Anregungsfunktion aufgefasst. Für den Fall der Formantsynthese bedeutet dieses, dass anregungsseitig ein Rausch-generator für die stimmlosen, sowie ein periodischer Impulsgenerator für die stimmhaften Signalanteile integriert ist. Filterseitig besteht eine Unterteilung in zwei verschiedene Typen von Formantfiltern für die Erzeugung von Formanten einerseits, sowie zur Generierung nasaler Antiformanten andererseits (s. Abb. 2.2). Die Amplitude der Anregungsfunktion, wie auch die jeweiligen Formantfrequenzen und ihre Bandbreiten, sind veränderlich und werden durch Parameter gesteuert, die aus Regeln abgeleitet werden. Die Regeln resultieren hier aus der Analyse zuvor aufgenommenen Sprachmaterials. Durch Vergleiche mit Originalsignalen zeigt sich die Qualität dieser Regeln, die zu einer weiteren Verbesserung experimenteller Studien bedürfen. Die besondere Stärke dieses Ansatzes liegt in der Glattheit der Signale, die in ihrer direkten Erzeugung begründet liegt. Für den Hörer wirkt sich die Glattheit auf den Qualitätsparameter Flüssigkeit aus (vgl. Portele, 1996a, Portele, 1996b). Außerdem können prosodische Parameter (Grundfrequenz, Dauer und Intensität) in weiten Grenzen variiert werden, ohne dass es dadurch zu Qualitätsverlust kommt. Des Weiteren kann man in einem solchen System linguistische Hypothesen direkt umsetzen und auf ihre Gültigkeit hin überprüfen. Nachteilig ist bei diesem Verfahren aber vor allem, dass es unter großem Aufwand ermittelte Regeln verwendet. Dadurch mangelt es der nach dieser Methode erzeugten Sprachausgabe noch immer an einer zufriedenstellenden Qualität.
6
Abb. 2.2 - Blockdiagramm des Formantsynthetisators von Klatt (aus Allen et al., 1987: 131). Die einzelnen Parameter sind in Anhang D einzusehen
Ebenfalls auf der Basis eines Regelwerkes arbeitet die artikulatorische Synthese (Heike, 1979; Kröger, 1996, Kröger et al., 2000). Sie erzeugt Sprache letztenendes auch durch Anregung
eines Filters (im Falle der Frequenzbereichsverfahren 1 als akustisches Modell), jedoch werden die hierzu nötigen Parameter nicht direkt angegeben, sondern sind das Ergebnis der Ausführung von Steuerkommandos in einem Steuermodell. Es sind im Falle der artikulatorischen Synthese also Regeln zur Steuerung von Artikulatorenbewegungen und damit verbundene Veränderungen der Vokaltraktquerschnittsfläche (nachgebildet im Artikulatormodell). Die Idee, die hierbei verfolgt wird, ist demnach die naheliegende, dass man bei der Modellierung
1 Im Gegensatz zu den Frequenzbereichsverfahren stehen die Zeitbereichsverfahren, die die Schallerzeugung an jedem Ort des Ansatzrohres ermöglichen (vgl. Kröger, 1996).
7
der menschlichen Lautsprache dort ansetzt, wo diese ursächlich erzeugt wird, nämlich bei den menschlichen Artikulationsorganen. Kröger (1996) sieht in der artikulatorischen Synthese infolgedessen ein großes Potential an Verbesserungsmöglichkeiten hinsichtlich der Qualität der erzeugten Sprache. Die äußerst hohe Komplexität solcher Systeme verhindert bislang eine befriedigende Qualität der synthetisierten Sprache, was gleichzeitig dazu führt, dass solche Verfahren im Anwendungsbereich (Vorlesegeräte für Blinde, Auskunftssysteme, Dialogsysteme usw.) nicht eingesetzt werden. Darüber hinaus gilt, wie schon für die Formantsynthese, dass ein artikulatorisches Synthesesystem sich gut als Forschungsplattform (in diesem Fall für Hypothesen im Bereich der artikulatorischen Phonetik) eignet.
2.3 Datengesteuerte Sprachsynthese
Gegenüber der regelbasierten Synthese unterscheidet man bei datengesteuerter oder auch
konkatenativer Synthese 2 nochmals zwei Fälle:
a) die Verwendung von natürchsprachlichen Einheiten in parametrischer Repräsenta-tion
b) die direkte Verwendung natürlichsprachlicher Einheiten
Im Fall a) wird in aller Regel das LPC-Verfahren (linear predictive coding) benutzt (vgl. Atal und Hanauer, 1971; Dutoit, 1997; Vary et al., 1998). Auf der Basis des bereits erwähnten Quelle-Filter Modells werden Sprachbausteine, die im Allgemeinen aus Trägersätzen gewonnen werden, analysiert. Bei einer LPC-Analyse wird davon ausgegangen, dass man einen Abtastwert s(n 0 ) eines digitalisierten Sprachsignals durch die gewichtete Summe einer Anzahl p vorangegangener Abtastwerte plus einem Fehler f(n 0 ) bestimmen kann. Diese Fehlerfunktion nennt man auch Residualsignal. Sie repräsentiert im Idealfall die Stimmlippenschwingung. Der Grad p der Analyse wird vorgegeben. Die variablen Koeffizienten a i (0
2 Datenbasierte Sprachsynthese impliziert stets, dass ein Sprachsignal durch Konkatenation zuvor gespeicherter Bausteine erzeugt wird.
8
einer solchen LPC-Analyse unterzogen wurden, werden getrennt als Anregungssignal und Filterkoeffizienten abgespeichert. Der Unterschied zum Formantsynthetisator liegt vor allem darin, dass ganze Signalabschnitte und nicht außschließlich Resonanzfrequenzen modelliert werden. Es sind hier keine Regeln, die etwa Formantfrequenzen und -bandbreiten vorgeben, sondern natürlichsprachliche Daten aus denen derartige Informationen automatisch errechnet werden. Außerdem müssen LPC-Einheiten noch geeignet konkateniert werden, um Sprachsignale zu synthetisieren. Daher fällt eben ein solcher LPC-Sprachsyntheseansatz in den Bereich datengetriebener Verfahren. Die Stärke dieses Verfahrens gegenüber der Formantsynthese liegt darin, dass natürliche Koartikulationseffekte großenteils in den Einhei-
ten abgebildet sind (gute Verständlichkeit von Konsonantenfolgen) 3 . Zugleich können aber auch die guten Signalmanipulationsmöglichkeiten, die sich durch die parametrische Darstellung der Einheiten ergeben, genutzt werden. Manipulationen sind notwendig für die Prosodiesteuerung, sowie zusätzlich für etwaige Signalglättungen an den Konkatenationsstellen der verschiedenen Sprachsynthesebausteine.
Im Fall b) (s. Unterscheidung eingangs dieses Abschnittes) werden Zeitbereichseinheiten, deren Struktur noch näher zu erörtern ist, direkt konkateniert. Die mangelnden prosodischen Modifikationsmöglichkeiten hatten diese Verfahrensweise lange Zeit verhindert. Hamon et al. (1989) entwickelten mit dem TD-PSOLA-Algorithmus (time domain pitch synchronous overlap add) ein Verfahren, dass es ermöglichte prosodische Manipulationen auch an
natürlichsprachlichen Zeitbereichseinheiten 4 vorzunehmen. Der Algorithmus setzt dabei eine Etikettierung der stimmhaften Anteile der Sprachsignalbausteine des Syntheseinventars mit
Pitchmarken 5 voraus. Diese Marken schließlich ermöglichen die Bildung von Fenstern über zwei Perioden, die durch eine Funktion derart gewichtet werden, dass sie, zentriert um ein Anregungsmaximum, zu den Rändern hin geglättet sind. Diese gewichteten Signalausschnitte bilden damit neue Elementarbausteine, die entlang der Zeitachse so verschoben bzw. dupliziert oder getilgt werden, dass sie sich stets überlappend zu einem Signal veränderter Grund-
3 Denhier angesprochenen qualitativen Vorsprung gegenüber der Formantsynthese besitzen Synthesen unter Verwendung von Zeitbereichseinheiten genauso wie Synthesen auf Basis von LPC-Einheiten.
4 Darüber hinaus existieren mit dem LP-PSOLA (Charpentier und Moulines, 1989) für LPC-kodierte Signale und einem ähnlichen Verfahren für den Spektralbereich zwei weitere Varianten des PSOLA-Algorihmus.
5 Der Zeitabschnitt zwischen 2 Pitchmarken entspricht einer Grundperiode des stimmhaften Sprachsignals.
9
frequenz bzw. Dauer aufaddieren. Die Intensität wird dabei durch die Gewichtungsfunktion gesteuert. Das PSOLA-Verfahren erst hat die unmittelbare Konkatenation von Synheseeinheiten, die aus natürlichsprachlichen Trägeräußerungen gewonnen wurden, möglich gemacht. Die Anwendung dieses Algorithmus zog eine weitere Qualitätsverbesserung der konkatenativen Sprachsynthese nach sich:
„Seit der Erfindung des PSOLA-Algorithmus (pitch synchronous overlap add; Hamon et al., 1989; Moulines und Charpentier, 1990), der die Manipulation von Dauer und Grundfrequenz (innerhalb gewisser Grenzen) ohne merkbare Qualitätsverluste direkt am Signal ermöglicht, wird die beste Qualität dann erreicht, wenn die Elementarbausteine so, wie sie aufgenommen wurden, als Sprachsignale gespeichert sind und, in einem einzigen Arbeitsschritt bezüglich Dauer und Grundfrequenz manipuliert, ausgegeben werden.“ (Hess et al., 1994: 106)
2.3.1 Einheiten der konkatenativen Sprachsynthese
Für den Ansatz der konkatenativen Sprachsynthese spielt die Struktur der Inventarseinheiten eine entscheidende Rolle sowohl für die resultierende Sprachqualität als auch für die Komplexität des Systems. Portele weist auf die große Bedeutung der Einheiten hin: „Mit der deutlich verbesserten Qualität der Konkatenationssynthese ist die Frage nach den Basiseinheiten erneut wichtig geworden; schon kleine Sprünge an den Einheitengrenzen sind mittlerweile hörbar und wirken sich störend auf die Gesamtqualität der synthetisierten Sprache aus.“ (Portele, 1996a: 13)
Zur Geschichte der Einheitendefinition für die konkatenative Sprachsynthese seien an dieser Stelle nur einige Meilensteine der Entwicklung erwähnt. Besonderes Gewicht soll dabei auf frühen Ansätzen der 50er und 60er Jahre liegen, die derzeit wieder an Aktualität gewonnen haben. Die in Kap. 4 noch zu diskutierenden speziellen Einheiten nämlich sind in ein aktuelles Sprachsynthesesystem zu integrieren, dessen Fundament schon in der frühen Zeit der Sprachsynthese zu finden ist.
Nachdem Harris (1953) in Experimenten mit der Konkatenation von Phonemeinheiten schlechte Verständlichkeitsraten feststellt, bemerken Küpfmüller und Warns (1956), dass sich Lauttransitionen erheblich besser für die Erzeugung synthetischer Sprache aus natürlichsprachlichen Einheiten, die zu der Zeit noch mühsam auf Tonbändern aufgezeichnet wurden, eignen. Die Dyade (vgl. Peterson et al., 1958a/b) bzw. das Diphon war damit ent-standen. Diese Einheit umfasst den Abschnitt von der Mitte des stationären Teils eines Lautes bis zur Mitte des folgenden Lautes. Die hierbei gemachte Annahme ist, dass jeder Laut einer
10
Sprache eine stationäre Phase besitzt 6 . Sivertsen nennt bereits alle wesentlichen building blocks der Sprache: „They may be phonemes, phoneme dyads, immediate constituents of the syllable, half-syllables, syllables, syllable dyads, or words.“ (Sivertson, 1961: 28). Die immediate constituents (IC) of the syllable sind definiert als eine Aufspaltung der Silbe in Onset, Nukleus und Koda, deren Einheitengrenzen mit den entsprechenden Lautgrenzen zusammenfallen. Die Einheit der Halbsilbe hingegen umfasst entweder den konsonantischen Onset einer Silbe plus der Hälfte des vokalischen Nukleus, oder aber den zweiten Teil des Nukleus zuzüglich der Koda.
Es ergeben sich somit die beiden Typen der Anfangs- und Endhalbsilbe. Die Silbe schließlich entbehrt, wegen des Problems ambisyllabischer Laute, einer eindeutigen linguistischen Definition. Dennoch sagt Sivertsen:
„It is assumed here as elsewhere in this study, that the syllable is a phonological and/or phonetic unit in English, and that it can be isolated and defined.“ (Sivertsen, 1961: 53)
In der Tat ergibt dieser Baustein als eine aus phonetischer Sicht grundlegende Einheit auch für das Deutsche einen Sinn. Viele Prosodie- und Koartikulationsphänomene (vgl. Campbell, 1997a) schlagen sich über die Spanne einer Silbe nieder. Solche Informationen können so im Datenbestand abgebildet werden und müssen nicht mühsam durch Regeln modelliert werden. Eine weitere von Sivertsen (1961) vorgestellte Einheit ist die Silbendyade, die so definiert ist, dass konsequent nur Schnitte in der stationären Phase eines Silbennukleus vorgenommen werden. Dieser Sprachbaustein enthält folglich den zweiten Teil eines Vokals, plus der gesamten Konsonantenfolge bis zum darauffolgenden Vokal, plus dem ersten Teil dieses Folgevokals. Eine Ausnahme hierbei bilden selbstverständlich Einheiten, die in einer Pause beginnen bzw. enden. Eine solche Silbendyade als VKV-Einheit (Vokal-Konsonant-Vokal) findet später z. B. im arabischen konkatenativen Sprachsyntheseinventar von El-Imam (1990) ihre Anwendung. Schließlich führt Sivertsen (1961) das Wort als den größten für die Sprachsynthese relevanten Baustein an. Als Unterscheidungsmerkmal für die Verschiedenheit von Wörtern soll dabei die phonologische Form, nicht aber der semantische Gehalt, dienen. Synonyme sind demnach also als verschiedene Wörter, Homophone hingegen als gleiche Wörter aufzufassen. Auch bezüglich der Diskussion des Wortes aber stellt sich die Frage nach der Definierbarkeit als linguistische Einheit. Sivertsen (1961) sieht als Grundlage für die Wortde-
6 InBezug auf Approximanten beispielsweise ist diese Annahme nicht ganz unproblematisch.
11
finition den Lexikoneintrag, wobei ihre Angaben zur Wortzahl des Englischen bzw. eines repräsentativen Wörterbuches zeigen, dass sie flektierte Formen desselben Wortes nicht zwingend als unterschiedliche Wörter ansieht. Die morphologische Problematik des Wortes wird in Kap. 2 noch näher erörtert.
Neben der Struktur der verschiedenen Sprachsyntheseeinheiten ist stets von Interesse, welche Zahl an Einheiten aus dieser resultiert. Während Sivertsen (1961) für das Amerikanische Englisch nur 37 Phoneme zählt, quadriert sich diese Zahl für die Verwendung von Dyaden schon. Je mehr Laute ein Einheitentypus also umfasst, desto größer ist die benötigte Zahl dieser Einheiten; es sei jedoch angemerkt, dass bei zunehmender Einheitenlänge die Phonotaktik die theoretisch nötige Zahl an Einheiten verstärkt eingrenzt.
Tab. 2.1 - Die wichtigsten Sprachsynthesebausteine mit Angaben für die Zahl der types und der Zahl der für die Synthese benötigten tokens jeden types (nach Sivertsen, 1961)
Des Weiteren postuliert Sivertsen (1961) die Erweiterung eines Sprachsyntheseinventars um mehrere Instanzen jeder Einheit in verschiedenen prosodischen Ausprägungen. Je nach Einheitentyp sieht sie bis zu 7 unterschiedliche prosodische Muster, die im Inventar abgebildet werden müssen. Tab. 2.1 gibt einen Überblick über die Zahl der benötigten Einheiten für jeden Segmenttyp. In Abschn. 2.3.3 wird sich zeigen, wie aktuell der Ansatz, Sprachsynthesebausteine variabler Länge als mehrere tokens verschiedener prosodischer Ausprägung zu verwenden, ist.
12
2.3.2 Anwendungen mit begrenztem Bausteininventar
Wie in den vorangegangenen Abschnitten erläutert wurde, ist die regelbasierte Sprachsynthese, sofern es sich um Formantsynthese handelt, zwar in der Lage, recht gute Sprachqualität zu erzeugen (vgl. Hess et al., 1994), jedoch verhindert vor allem der hohe Aufwand der Regelerstellung, dass das hohe Ziel einer natürlichen und verständlichen, d. h. den Äußerungen eines Menschen vergleichbaren, Sprachausgabe auch wirklich erreicht wird. Demgemäß haben sich konkatenative Sprachsynthesesysteme in der Anwendung (Vorleseautomaten, Dialogsysteme, Auskunftssysteme usw.) durchgesetzt. Eine ausgesprochen wichtige Rolle für die Konzeption eines Sprachsynthesesystems spielt dabei der Einsatz des Computers mit seinen mannigfaltigen digitalen Speicher- und Signalverarbeitungsmöglichkeiten:
„Since usually 60% of the computational effort of the total TTS system is spent on waveform synthesis, hardware constraints can be met most easily by trading off quality vs. complexity in the algorithms used by the synthesizer.“ (Möbius et al., 1996: 85)
Es ist hierbei insbesondere der aktuelle Entwicklungsstand im Bereich der Speichermedien, der die Rahmenbedingungen eines Sprachsynthesesystems festlegt. So arbeiteten konkatenative Sprachsynthesesysteme zunächst vorwiegend mit parametrischen Einheiten, bis sie aufgrund erhöhter Speicherkapazitäten und der Entwicklung des bereits diskutierten PSOLA-Algorithmus auf eine direkte Verwendung von Zeitbereichseinheiten umgestellt werden konnten. Die hierzu herangezogenen Synthesebausteininventare sind nach akustischphonetischen Gesichtspunkten (vgl. Portele, 1996a) definiert und bilden eine abgeschlossene Menge an Einheiten mit fester Länge und zumeist einmaligem Vorkommen eines jeden Bausteins. Im Fall von TTS-Synthesen mit unbeschränkter Domäne ist dieser Ansatz auch derzeit noch der am häufigsten verfolgte. Im Folgenden sind einige Beispiele derartiger Systeme erörtert.
Das an der ETH Zürich entwickelte TTS-Synthesesystem SVOX (Pfister, 1995; Pfister et al., 1998) setzt deutschen Text in Lautsprache um. Dabei stützt sich das Verfahren auf die Verwendung eines reinen Diphoninventars. Es existiert eine LPC-Version ebenso wie eine TD-PSOLA-Variante des Systems. Neben TTS werden außerdem Überlegungen zur Erstellung einer CTS-Vorverarbeitung angestellt.
Ein weiteres TTS-Synthesesystem für das Deutsche ist das Bonner HADIFIX (Halbsilben- Diphon-Suffix-Synthese). Esbasiert auf einem hybriden Bausteininventar aus Anfangshalbsilben, Diphonrudimenten (der längere zweite Teil des Vokals plus Transition hin zum Folge-
13
konsonanten) und Endkonsonantenfolgen 7 . Diese Einheitenstruktur (Dettweiler 1984; Dettweiler und Hess 1985) wurde zunächst für LPC-Synthese entworfen, bis Portele (1996a) ein phonetisch-akustisch austariertes Bausteininventar für die TD-PSOLA-Synthese definierte. Die Stärke dieses hybriden Ansatzes liegt vor allem in der guten Abdeckung antizipatorischer Koartikulation in den Anfangshalbsilben, sowie der Datenreduktion bedingt durch die Abspaltung von Konsonantensuffixen von Endhalbsilben. Portele (1996a) setzt dabei voraus, dass die betreffenden Suffixe nicht von persistenter Koartikulation beeinflusst sind.
Ein im Wesentlichen diphonbasiertes multilinguales Synthesesystem stellen Möbius et al. (1996) vor. Diese Sprachsynthese der AT&T Bell Laboratorien ist in streng hierarchische und sprachenunabhängige Verarbeitungsmodule untergliedert. Alles sprachenspezifische Wissen wird dabei in verschiedenen Wissensbasen abgelegt. Außerdem werden der Synthese die einzelnen Sprachbausteine in LPC-Repräsentation bereitgestellt.
Das SPRUCE-System (Speech Response from UnConstrained English) ist eine TTS-Anwendung, die in ihrer frühen Version mit parametrischen Silbeneinheiten arbeitet (Lewis und Tatham, 1991). Die Zahl der benötigten Silben beläuft sich dabei auf ca. 10.000 für das Englische. Die Synthese erfolgt durch eine Zerlegung des Eingangstextes in Silbeneinheiten und der Berechnung einer Zielprosodie. Die parametrischen Silbeneinheiten werden schließlich aus dem Silbeninventar entnommen und das der prosodischen Zielkontur dienlichste Anregungssignal wird aus einem speziellen Anregungsinventar bezogen. „It was found that the larger the unit (from whole sentence, through phrase, word and syllable, to allophone) the greater the resultant naturalness.“ (Lewis und Tatham, 1991: 1236), rechtfertigen Lewis und Tatham die Wahl der Silbe als elementaren Synthesebaustein. Die nächst größere Einheit, das Wort, hätte für den Rahmen des SPRUCE-Systems bereits zu viel Speicherplatz in Anspruch genommen.
7 Die Endkonsonantenfolge als Sprachsynthesebaustein bleibt in Abschn. 2.3.1 unerwähnt, da er nur für Sprachen mit langen Endkonsonantenfolgen sinnvoll ist; dieses gilt für das Deutsche.
14
Arbeit zitieren:
Dr. Jörg Bröggelwirth, 2000, Die Verwendung spezieller Einheiten zur Generierung flektierter Wortformen in der konkatenativen Sprachsynthese, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 35 Seiten
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 15 Seiten
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 20 Seiten
Erstellen einer schriftlichen Hausarbeit
Vorlagen, Muster, Formulare, Infobroschüren
Hausarbeit, 14 Seiten
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Vorlagen, Muster, Formulare, Infobroschüren
Skript, 46 Seiten
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 39 Seiten
Rhetorik / Phonetik / Sprechwissenschaft: Die Verwendung spezieller Einheiten zur Generierung flektierter Wortformen in der konkatenativen Sprachsynthese ist nun auf dem Buchmarkt erhältlich
Rhetorik / Phonetik / Sprechwissenschaft: neuer Titel erschienen: Die Verwendung spezieller Einheiten zur Generierung flektierter Wortformen in der konkatenativen Sprachsynthese
Jörg Bröggelwirth hat einen neuen Text hochgeladen
Ethische Aspekte der Forschung und Verwendung menschlicher Stammzellen
Der Text von der Stellungnahme
. Europäische Gruppe für Ethik der Naturwissenschaften und der Neuen Technologien, Europäische Kommission
Generierung und Transfer staatlichen Wissens im System des Verwaltungs...
Indra Döhmann, Peter Collin
Möglichkeiten zur Generierung von Präventionsanreizen in der Deutschen...
Eine ökonomische Analyse unter...
Oliver Riedel
0 Kommentare