Die Verwendung spezieller Einheiten zur Generierung flektierter Wortformen in der konkatenativen Sprachsynthese


Magisterarbeit, 2000

88 Seiten, Note: 1,0


Leseprobe

Inhaltsverzeichnis

1 Einleitung

2 Sprachsyntheseverfahren
2.1 Systemarchitektur
2.2 Sprachsynthese nach Regeln
2.3 Datengesteuerte Sprachsynthese
2.3.1 Einheiten der konkatenativen Sprachsynthese
2.3.2 Anwendungen mit begrenztem Bausteininventar
2.3.3 Selektive konkatenative Synthese
2.4 Qualitätsanforderungen an die Sprachsynthese
2.4.1 Die Qualitätsmerkmale
2.4.2 Methoden zur Qualitätsmessung

3 Sprachliche Einheiten in langue und parole
3.1 Die abstrakten Einheiten des Sprachsystems
3.1.1 Der Satz
3.1.2 Das Wort
3.1.3 Das Morphem
3.1.4 Das Phonem
3.2 Lautsprachliche Korrelate abstrakter Spracheinheiten
3.2.1 Die Intonationsphrase
3.2.2 Die Wortform
3.2.3 Das Morph
3.2.4 Das Phon

4 Eine spezielle Einheitendefinition zur Generierung flektierter Wortformen
4.1 Erhebung von Daten
4.1.1 Erstellungskriterien für das Datenmaterial
4.1.2 Aufnahme der Daten
4.1.3 Aufbereitung des Korpus
4.2 Vorexperimente
4.2.1 Die Position der Schnittgrenze
4.2.2 Der phonetische Kontext der Schnittgrenze
4.2.3 Hypothese für einen Perzeptionstest
4.3 Evaluation durch einen Perzeptionstest
4.3.1 Auswahl der Testmethode
4.3.2 Auswahl der Stimuli
4.3.3 Auswahl der Testpersonen
4.3.4 Testergebnisse
4.4 Zusammenfassung

5 Diskussion

Literaturverzeichnis

Anhang A

Anhang B

Anhang C

1 Einleitung

Der Gegenstandsbereich der vorliegenden Arbeit ist die Sprachsynthese, d. h. die maschinelle Generierung lautsprachlicher Äußerungen. Spätestens seit der Erfindung des Computers fasziniert den Menschen die Idee, einer Maschine das Sprechen lehren oder sogar mit ihr kommunizieren zu können. In der bisherigen Geschichte der Sprachsynthese konnte die generierte Sprachausgabe immer nur so gut sein, wie der jeweils aktuelle Entwicklungsstand auf dem Gebiet der Informationselektronik es zuließ.

Die neuesten Verfahren und Methoden zur Sprachsynthese arbeiten auf der Basis umfangreichen Datenmaterials, das einerseits eine hervorragende Synthesequalität gewährleistet, andererseits aber an die Grenzen des bei der Aufbereitung der Daten tolerablen Arbeitsaufwandes geht. Die jüngsten Entwicklungen auf dem Gebiet der Sprachsynthese verlangen also nach ausgefeilten Strategien, den immens gewachsenen Arbeitsaufwand unter Aufrechterhaltung der hohen Synthesequalität zu reduzieren. Vorliegende Arbeit leistet einen solchen Beitrag zur Verbesserung der Ökonomie von Sprachsynthese auf der Basis großer Korpora.

Das im Zentrum der Arbeit stehende Sprachsynthesesystem des Instituts für Kommunikationsforschung und Phonetik (IKP) Bonn verwendet das Wort als zentralen Synthesebaustein. Die Struktur der Vielzahl an unterschiedlichen Einheiten zur Sprachsynthese wird in Kap. 2 erörtert. Im gleichen Kapitel wird eine kritische Gegenüberstellung der wichtigsten Verfahren der Sprachsynthese geleistet. Außerdem werden einige ausgewählte Beispiele spezieller Synthesesysteme vorgestellt, bis anschließend das Problem der Erfassbarkeit von Sprachsynthesequalität diskutiert wird.

In Kap. 3 wird im Wesentlichen das Wort als linguistische Einheit erörtert. Es stellt sich insbesondere die Frage nach der morphologischen Struktur des Wortes, da in vorliegender Arbeit versucht wird, Wortformen aus morphologischen Subeinheiten zu generieren. Ferner wird eine Wortdefinition vorgestellt, die unter anderen syntaktische und semantische Aspekte des Wortes berücksichtigt. Es wird gezeigt, dass das Wort in wechselseitiger Beziehung mit linguistischen Einheiten vom Satz bis hin zum Phonem steht. Des Weiteren werden in Kap. 3 die lautsprachlichen Korrelate abstrakter Spracheinheiten sowie das Problem ihrer Abgrenzbarkeit skizziert. In Kap. 4 wird versucht, die in Kap. 2 angeführten Erörterungen zu den Einheiten der Sprachsynthese mit den Erläuterungen zum linguistischen Einheitenbegriff zusammenzuführen. Auf der Basis morphologischer Subeinheiten von Wörtern werden flektierte Wortformen generiert. Die ersten Erfahrungen mit der neuen Generierungsmethode werden vorgestellt. Schließlich wird ein Perzeptionsexperiment dargelegt, das die perzeptive Qualität der generierten Wortformen unter verschiedenen Bedingungen prüft. Daraus resultierend werden Kriterien aufgestellt, die bei einer Integration der Wortformengenerierung auf Basis flexionsmorphologischer Einheiten in ein Sprachsynthesesystem beachtet werden müssen. Kap. 5 schließt die Arbeit mit einer Diskussion der wesentlichen Ergebnisse der empirischen Studie ab.

2 Sprachsyntheseverfahren

In diesem Kapitel werden die wichtigsten Verfahren der Sprachsynthese erörtert. Innerhalb des Gebietes der Sprachsynthese stehen sich die beiden grundlegenden Ansätze der regelbasierten Systeme auf der einen Seite und der datenbasierten auf der anderen Seite gegenüber. Erstere werden zumeist als Formantsynthesesysteme oder aber als artikulatorische Syntheseverfahren implementiert, während Letztere die synthetische Sprache durch Konkatenation zuvor abgespeicherter Einheiten erzeugen.

Neben der Architektur der verschiedenen Synthesesysteme ist in der Sprachsynthese stets von Interesse, in welchen Punkten sich die resultierenden Sprachsignale qualitativ unterscheiden und welche Qualität man ihnen im Vergleich zu menschlicher Sprache zuschreiben kann. Nicht alle diesbezüglich relevanten Merkmale sind so ohne weiteres quantifizierbar. Es ist zu klären, welche Qualitätsparameter die größte Bedeutung haben und wie diese messbar sind. Die Qualitätsbeurteilung synthetisch erzeugter Sprache wird im weiteren Verlauf der Arbeit für die Durchführung eines Perzeptionsexperiments von Bedeutung sein.

Im Folgenden sollen die Grundcharakteristika der obig erwähnten Sprachsyntheseverfahren und ihrer qualitativen Beurteilung näher erläutert werden. Dabei liegt ein besonderes Gewicht auf der Erörterung der konkatenativen Ansätze, da die in Kap. 4 untersuchten speziellen Einheiten zur Generierung flektierter Wortformen in ein konkatenatives Synthesesystem integriert werden sollen.

2.1 Systemarchitektur

Ein akustischer Synthetisator (auf Basis von Formanten oder natürlichsprachlichen Einheiten) alleine macht noch kein komplettes Sprachsynthesesystem aus. Soll ein Synthetisator (vor allem bzgl. der Prosodie) sinnvolle Lautsprache erzeugen, so muss in einer vorherigen Stufe des Sprachsyntheseprozesses sprachliche Information verarbeitet werden. Diese linguistische Vorstufe kann dabei einer von zwei unterschiedlichen Strategien folgen. Entweder wird CTS (concept-to-speech) oder TTS (text-to-speech) verwendet (vgl. Hess, 1996).

Der wohl häufigere Fall ist TTS (s. Abb. 2.1). Hier wird die Synthese beliebigen orthographischen Textes ermöglicht. Es ergibt sich dabei eine Modularisierung des Sprachsyntheseprozesses in:

a) eine Symbolverarbeitungsstufe
b) eine Verkettungsstufe
c) eine Signalsynthesestufe

Die Symbolverarbeitung ist das wesentliche Kennzeichen eines TTS-Systems. Denn aus Text als Eingabe werden, nach einer Vorverarbeitung von Sonderzeichen, zunächst Informationen über Phrasengrenzen, Akzentuierung, Wortklassen, syntaktische Struktur und zum Teil auch Semantik gewonnen, um eine zumindest annähernd geeignete Prosodiesteuerung zu ermöglichen. Die Graphem-Phonem-Konversion liefert so, angereichert mit Phrasen- und Akzentinformationen, den symbolischen Eingang für das Verkettungsmodul. Letzteres setzt den symbolischen Datenstrom um in einen akustisch-parametrischen, der seinerseits wiederum als Eingang des akustischen Synthetisators dient. Dieser ist somit in der Lage eine linguistisch wohlgeformte Sprachausgabe zu erzeugen. Das große Problem der TTS-Synthese ist die Generierung einer geeigneten Prosodie. Die starke Verhaftung von Semantik und Prosodie verbunden mit der nur rudimentären Möglichkeit orthographischen Text semantisch zu analysieren, führen zu diesem Umstand.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2.1 - Blockdiagramm eines TTS-Systems (aus Portele, 1996a: 2)

Oftmals ist jedoch eine orthographische Repräsentation von Sprache für die Synthese gar nicht notwendig, wie z. B. im Anwendungsfall der Auskunftssysteme. Damit entstand die Idee von CTS-Systemen, die die Symbole, die ein symbolverarbeitendes Modul der TTS aufwendig aus orthographischem Text gewinnen muss, direkt per Eingabe an das Prosodie- und Verkettungsmodul übergeben. Der entscheidende Vorteil dabei ist, dass auch die für die Prosodie so wichtige semantische Information in der Symbolfolge annotiert wird. CTS also umgeht, abgesehen vom Prosodiemodul, sämtliche Symbolverarbeitung.

2.2 Sprachsynthese nach Regeln

Im Bereich der regelbasierten Sprachsynthese ist einer der wohl wichtigsten Ansätze der der Formantsynthese (Klatt, 1980; Allen et al. 1987; Hirschfeld und Kordon, 1994). Hierbei wird das Quelle-Filter Modell (Fant, 1960) zugrundegelegt, d. h. die Sprachsignalerzeugung wird als ein den Vokaltrakt simulierendes Filter mit einer dazugehörigen Anregungsfunktion aufgefasst. Für den Fall der Formantsynthese bedeutet dieses, dass anregungsseitig ein Rauschgenerator für die stimmlosen, sowie ein periodischer Impulsgenerator für die stimmhaften Signalanteile integriert ist. Filterseitig besteht eine Unterteilung in zwei verschiedene Typen von Formantfiltern für die Erzeugung von Formanten einerseits, sowie zur Generierung nasaler Antiformanten andererseits (s. Abb. 2.2). Die Amplitude der Anregungsfunktion, wie auch die jeweiligen Formantfrequenzen und ihre Bandbreiten, sind veränderlich und werden durch Parameter gesteuert, die aus Regeln abgeleitet werden. Die Regeln resultieren hier aus der Analyse zuvor aufgenommenen Sprachmaterials. Durch Vergleiche mit Originalsignalen zeigt sich die Qualität dieser Regeln, die zu einer weiteren Verbesserung experimenteller Studien bedürfen. Die besondere Stärke dieses Ansatzes liegt in der Glattheit der Signale, die in ihrer direkten Erzeugung begründet liegt. Für den Hörer wirkt sich die Glattheit auf den Qualitätsparameter Flüssigkeit aus (vgl. Portele, 1996a, Portele, 1996b). Außerdem können prosodische Parameter (Grundfrequenz, Dauer und Intensität) in weiten Grenzen variiert werden, ohne dass es dadurch zu Qualitätsverlust kommt. Des Weiteren kann man in einem solchen System linguistische Hypothesen direkt umsetzen und auf ihre Gültigkeit hin überprüfen. Nachteilig ist bei diesem Verfahren aber vor allem, dass es unter großem Aufwand ermittelte Regeln verwendet. Dadurch mangelt es der nach dieser Methode erzeugten Sprachausgabe noch immer an einer zufriedenstellenden Qualität.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2.2 - Blockdiagramm des Formantsynthetisators von Klatt (aus Allen et al., 1987: 131). Die einzelnen Parameter sind in Anhang D einzusehen

Ebenfalls auf der Basis eines Regelwerkes arbeitet die artikulatorische Synthese (Heike, 1979; Kröger, 1996, Kröger et al., 2000). Sie erzeugt Sprache letztenendes auch durch Anregung eines Filters (im Falle der Frequenzbereichsverfahren[1] als akustisches Modell), jedoch werden die hierzu nötigen Parameter nicht direkt angegeben, sondern sind das Ergebnis der Ausführung von Steuerkommandos in einem Steuermodell. Es sind im Falle der artikulatorischen Synthese also Regeln zur Steuerung von Artikulatorenbewegungen und damit verbundene Veränderungen der Vokaltraktquerschnittsfläche (nachgebildet im Artikulatormodell). Die Idee, die hierbei verfolgt wird, ist demnach die naheliegende, dass man bei der Modellierung der menschlichen Lautsprache dort ansetzt, wo diese ursächlich erzeugt wird, nämlich bei den menschlichen Artikulationsorganen. Kröger (1996) sieht in der artikulatorischen Synthese infolgedessen ein großes Potential an Verbesserungsmöglichkeiten hinsichtlich der Qualität der erzeugten Sprache. Die äußerst hohe Komplexität solcher Systeme verhindert bislang eine befriedigende Qualität der synthetisierten Sprache, was gleichzeitig dazu führt, dass solche Verfahren im Anwendungsbereich (Vorlesegeräte für Blinde, Auskunftssysteme, Dialogsysteme usw.) nicht eingesetzt werden. Darüber hinaus gilt, wie schon für die Formantsynthese, dass ein artikulatorisches Synthesesystem sich gut als Forschungsplattform (in diesem Fall für Hypothesen im Bereich der artikulatorischen Phonetik) eignet.

2.3 Datengesteuerte Sprachsynthese

Gegenüber der regelbasierten Synthese unterscheidet man bei datengesteuerter oder auch konkatenativer Synthese[2] nochmals zwei Fälle:

a) die Verwendung von natürchsprachlichen Einheiten in parametrischer Repräsentation
b) die direkte Verwendung natürlichsprachlicher Einheiten

Im Fall a) wird in aller Regel das LPC-Verfahren (l inear p redictive c oding) benutzt (vgl. Atal und Hanauer, 1971; Dutoit, 1997; Vary et al., 1998). Auf der Basis des bereits erwähnten Quelle-Filter Modells werden Sprachbausteine, die im Allgemeinen aus Trägersätzen gewonnen werden, analysiert. Bei einer LPC-Analyse wird davon ausgegangen, dass man einen Abtastwert s(n0) eines digitalisierten Sprachsignals durch die gewichtete Summe einer Anzahl p vorangegangener Abtastwerte plus einem Fehler f(n0) bestimmen kann. Diese Fehlerfunktion nennt man auch Residualsignal. Sie repräsentiert im Idealfall die Stimmlippenschwingung. Der Grad p der Analyse wird vorgegeben. Die variablen Koeffizienten ai (0<i<=p) werden abhängig von den Signaleigenschaften berechnet. Da Sprachsignale zeitvariant sind, reicht es nicht aus, einen Synthesebaustein (diese sind in aller Regel mind. 1 Phon lang) als Ganzes zu analysieren, sondern es werden Ausschnitte von etwa 20-30 ms Länge (Kurzzeitanalyse) betrachtet. In diesem Bereich ist aufgrund der Trägheit der menschlichen Artikulkation von einer Invarianz der relevanten Signaleigenschaften auszugehen. Sprachsyntheseeinheiten, die einer solchen LPC-Analyse unterzogen wurden, werden getrennt als Anregungssignal und Filterkoeffizienten abgespeichert. Der Unterschied zum Formantsynthetisator liegt vor allem darin, dass ganze Signalabschnitte und nicht außschließlich Resonanzfrequenzen modelliert werden. Es sind hier keine Regeln, die etwa Formantfrequenzen und -bandbreiten vorgeben, sondern natürlichsprachliche Daten aus denen derartige Informationen automatisch errechnet werden. Außerdem müssen LPC-Einheiten noch geeignet konkateniert werden, um Sprachsignale zu synthetisieren. Daher fällt eben ein solcher LPC-Sprachsyntheseansatz in den Bereich datengetriebener Verfahren. Die Stärke dieses Verfahrens gegenüber der Formantsynthese liegt darin, dass natürliche Koartikulationseffekte großenteils in den Einheiten abgebildet sind (gute Verständlichkeit von Konsonantenfolgen)[3]. Zugleich können aber auch die guten Signalmanipulationsmöglichkeiten, die sich durch die parametrische Darstellung der Einheiten ergeben, genutzt werden. Manipulationen sind notwendig für die Prosodiesteuerung, sowie zusätzlich für etwaige Signalglättungen an den Konkatenationsstellen der verschiedenen Sprachsynthesebausteine.

Im Fall b) (s. Unterscheidung eingangs dieses Abschnittes) werden Zeitbereichseinheiten, deren Struktur noch näher zu erörtern ist, direkt konkateniert. Die mangelnden prosodischen Modifikationsmöglichkeiten hatten diese Verfahrensweise lange Zeit verhindert. Hamon et al. (1989) entwickelten mit dem TD-PSOLA-Algorithmus (t ime d omain p itch s ynchronous o ver l ap a dd) ein Verfahren, dass es ermöglichte prosodische Manipulationen auch an natürlichsprachlichen Zeitbereichseinheiten[4] vorzunehmen. Der Algorithmus setzt dabei eine Etikettierung der stimmhaften Anteile der Sprachsignalbausteine des Syntheseinventars mit Pitchmarken[5] voraus. Diese Marken schließlich ermöglichen die Bildung von Fenstern über zwei Perioden, die durch eine Funktion derart gewichtet werden, dass sie, zentriert um ein Anregungsmaximum, zu den Rändern hin geglättet sind. Diese gewichteten Signalausschnitte bilden damit neue Elementarbausteine, die entlang der Zeitachse so verschoben bzw. dupliziert oder getilgt werden, dass sie sich stets überlappend zu einem Signal veränderter Grundfrequenz bzw. Dauer aufaddieren. Die Intensität wird dabei durch die Gewichtungsfunktion gesteuert. Das PSOLA-Verfahren erst hat die unmittelbare Konkatenation von Synheseeinheiten, die aus natürlichsprachlichen Trägeräußerungen gewonnen wurden, möglich gemacht. Die Anwendung dieses Algorithmus zog eine weitere Qualitätsverbesserung der konkatenativen Sprachsynthese nach sich:

„Seit der Erfindung des PSOLA-Algorithmus (pitch synchronous overlap add; Hamon et al., 1989; Moulines und Charpentier, 1990), der die Manipulation von Dauer und Grundfrequenz (innerhalb gewisser Grenzen) ohne merkbare Qualitätsverluste direkt am Signal ermöglicht, wird die beste Qualität dann erreicht, wenn die Elementarbausteine so, wie sie aufgenommen wurden, als Sprachsignale gespeichert sind und, in einem einzigen Arbeitsschritt bezüglich Dauer und Grundfrequenz manipuliert, ausgegeben werden.“ (Hess et al., 1994: 106)

2.3.1 Einheiten der konkatenativen Sprachsynthese

Für den Ansatz der konkatenativen Sprachsynthese spielt die Struktur der Inventarseinheiten eine entscheidende Rolle sowohl für die resultierende Sprachqualität als auch für die Komplexität des Systems. Portele weist auf die große Bedeutung der Einheiten hin:

„Mit der deutlich verbesserten Qualität der Konkatenationssynthese ist die Frage nach den Basiseinheiten erneut wichtig geworden; schon kleine Sprünge an den Einheitengrenzen sind mittlerweile hörbar und wirken sich störend auf die Gesamtqualität der synthetisierten Sprache aus.“ (Portele, 1996a: 13)

Zur Geschichte der Einheitendefinition für die konkatenative Sprachsynthese seien an dieser Stelle nur einige Meilensteine der Entwicklung erwähnt. Besonderes Gewicht soll dabei auf frühen Ansätzen der 50er und 60er Jahre liegen, die derzeit wieder an Aktualität gewonnen haben. Die in Kap. 4 noch zu diskutierenden speziellen Einheiten nämlich sind in ein aktuelles Sprachsynthesesystem zu integrieren, dessen Fundament schon in der frühen Zeit der Sprachsynthese zu finden ist.

Nachdem Harris (1953) in Experimenten mit der Konkatenation von Phonemeinheiten schlechte Verständlichkeitsraten feststellt, bemerken Küpfmüller und Warns (1956), dass sich Lauttransitionen erheblich besser für die Erzeugung synthetischer Sprache aus natürlichsprachlichen Einheiten, die zu der Zeit noch mühsam auf Tonbändern aufgezeichnet wurden, eignen. Die Dyade (vgl. Peterson et al., 1958a/b) bzw. das Diphon war damit entstanden. Diese Einheit umfasst den Abschnitt von der Mitte des stationären Teils eines Lautes bis zur Mitte des folgenden Lautes. Die hierbei gemachte Annahme ist, dass jeder Laut einer Sprache eine stationäre Phase besitzt[6]. Sivertsen nennt bereits alle wesentlichen building blocks der Sprache: „They may be phonemes, phoneme dyads, immediate constituents of the syllable, half-syllables, syllables, syllable dyads, or words.“ (Sivertson, 1961: 28). Die immediate constituents (IC) of the syllable sind definiert als eine Aufspaltung der Silbe in Onset, Nukleus und Koda, deren Einheitengrenzen mit den entsprechenden Lautgrenzen zusammenfallen. Die Einheit der Halbsilbe hingegen umfasst entweder den konsonantischen Onset einer Silbe plus der Hälfte des vokalischen Nukleus, oder aber den zweiten Teil des Nukleus zuzüglich der Koda.

Es ergeben sich somit die beiden Typen der Anfangs- und Endhalbsilbe. Die Silbe schließlich entbehrt, wegen des Problems ambisyllabischer Laute, einer eindeutigen linguistischen Definition. Dennoch sagt Sivertsen:

„It is assumed here as elsewhere in this study, that the syllable is a phonological and/or phonetic unit in English, and that it can be isolated and defined.“ (Sivertsen, 1961: 53)

In der Tat ergibt dieser Baustein als eine aus phonetischer Sicht grundlegende Einheit auch für das Deutsche einen Sinn. Viele Prosodie- und Koartikulationsphänomene (vgl. Campbell, 1997a) schlagen sich über die Spanne einer Silbe nieder. Solche Informationen können so im Datenbestand abgebildet werden und müssen nicht mühsam durch Regeln modelliert werden. Eine weitere von Sivertsen (1961) vorgestellte Einheit ist die Silbendyade, die so definiert ist, dass konsequent nur Schnitte in der stationären Phase eines Silbennukleus vorgenommen werden. Dieser Sprachbaustein enthält folglich den zweiten Teil eines Vokals, plus der gesamten Konsonantenfolge bis zum darauffolgenden Vokal, plus dem ersten Teil dieses Folgevokals. Eine Ausnahme hierbei bilden selbstverständlich Einheiten, die in einer Pause beginnen bzw. enden. Eine solche Silbendyade als VKV-Einheit (Vokal-Konsonant-Vokal) findet später z. B. im arabischen konkatenativen Sprachsyntheseinventar von El-Imam (1990) ihre Anwendung. Schließlich führt Sivertsen (1961) das Wort als den größten für die Sprachsynthese relevanten Baustein an. Als Unterscheidungsmerkmal für die Verschiedenheit von Wörtern soll dabei die phonologische Form, nicht aber der semantische Gehalt, dienen. Synonyme sind demnach also als verschiedene Wörter, Homophone hingegen als gleiche Wörter aufzufassen. Auch bezüglich der Diskussion des Wortes aber stellt sich die Frage nach der Definierbarkeit als linguistische Einheit. Sivertsen (1961) sieht als Grundlage für die Wortdefinition den Lexikoneintrag, wobei ihre Angaben zur Wortzahl des Englischen bzw. eines repräsentativen Wörterbuches zeigen, dass sie flektierte Formen desselben Wortes nicht zwingend als unterschiedliche Wörter ansieht. Die morphologische Problematik des Wortes wird in Kap. 2 noch näher erörtert.

Neben der Struktur der verschiedenen Sprachsyntheseeinheiten ist stets von Interesse, welche Zahl an Einheiten aus dieser resultiert. Während Sivertsen (1961) für das Amerikanische Englisch nur 37 Phoneme zählt, quadriert sich diese Zahl für die Verwendung von Dyaden schon. Je mehr Laute ein Einheitentypus also umfasst, desto größer ist die benötigte Zahl dieser Einheiten; es sei jedoch angemerkt, dass bei zunehmender Einheitenlänge die Phonotaktik die theoretisch nötige Zahl an Einheiten verstärkt eingrenzt.

Abbildung in dieser Leseprobe nicht enthalten

Tab. 2.1 - Die wichtigsten Sprachsynthesebausteine mit Angaben für die Zahl der types und der Zahl der für die Synthese benötigten tokens jeden types (nach Sivertsen, 1961)

Des Weiteren postuliert Sivertsen (1961) die Erweiterung eines Sprachsyntheseinventars um mehrere Instanzen jeder Einheit in verschiedenen prosodischen Ausprägungen. Je nach Einheitentyp sieht sie bis zu 7 unterschiedliche prosodische Muster, die im Inventar abgebildet werden müssen. Tab. 2.1 gibt einen Überblick über die Zahl der benötigten Einheiten für jeden Segmenttyp. In Abschn. 2.3.3 wird sich zeigen, wie aktuell der Ansatz, Sprachsynthesebausteine variabler Länge als mehrere tokens verschiedener prosodischer Ausprägung zu verwenden, ist.

2.3.2 Anwendungen mit begrenztem Bausteininventar

Wie in den vorangegangenen Abschnitten erläutert wurde, ist die regelbasierte Sprachsynthese, sofern es sich um Formantsynthese handelt, zwar in der Lage, recht gute Sprachqualität zu erzeugen (vgl. Hess et al., 1994), jedoch verhindert vor allem der hohe Aufwand der Regelerstellung, dass das hohe Ziel einer natürlichen und verständlichen, d. h. den Äußerungen eines Menschen vergleichbaren, Sprachausgabe auch wirklich erreicht wird. Demgemäß haben sich konkatenative Sprachsynthesesysteme in der Anwendung (Vorleseautomaten, Dialogsysteme, Auskunftssysteme usw.) durchgesetzt. Eine ausgesprochen wichtige Rolle für die Konzeption eines Sprachsynthesesystems spielt dabei der Einsatz des Computers mit seinen mannigfaltigen digitalen Speicher- und Signalverarbeitungsmöglichkeiten:

„Since usually 60% of the computational effort of the total TTS system is spent on waveform synthesis, hardware constraints can be met most easily by trading off quality vs. complexity in the algorithms used by the synthesizer.“ (Möbius et al., 1996: 85)

Es ist hierbei insbesondere der aktuelle Entwicklungsstand im Bereich der Speichermedien, der die Rahmenbedingungen eines Sprachsynthesesystems festlegt. So arbeiteten konkatenative Sprachsynthesesysteme zunächst vorwiegend mit parametrischen Einheiten, bis sie aufgrund erhöhter Speicherkapazitäten und der Entwicklung des bereits diskutierten PSOLA-Algorithmus auf eine direkte Verwendung von Zeitbereichseinheiten umgestellt werden konnten. Die hierzu herangezogenen Synthesebausteininventare sind nach akustisch-phonetischen Gesichtspunkten (vgl. Portele, 1996a) definiert und bilden eine abgeschlossene Menge an Einheiten mit fester Länge und zumeist einmaligem Vorkommen eines jeden Bausteins. Im Fall von TTS-Synthesen mit unbeschränkter Domäne ist dieser Ansatz auch derzeit noch der am häufigsten verfolgte. Im Folgenden sind einige Beispiele derartiger Systeme erörtert.

Das an der ETH Zürich entwickelte TTS-Synthesesystem SVOX (Pfister, 1995; Pfister et al., 1998) setzt deutschen Text in Lautsprache um. Dabei stützt sich das Verfahren auf die Verwendung eines reinen Diphoninventars. Es existiert eine LPC-Version ebenso wie eine TD-PSOLA-Variante des Systems. Neben TTS werden außerdem Überlegungen zur Erstellung einer CTS-Vorverarbeitung angestellt.

Ein weiteres TTS-Synthesesystem für das Deutsche ist das Bonner HADIFIX (Ha lbsilben- Di phon-Suf fix -Synthese). Es basiert auf einem hybriden Bausteininventar aus Anfangshalbsilben, Diphonrudimenten (der längere zweite Teil des Vokals plus Transition hin zum Folgekonsonanten) und Endkonsonantenfolgen[7]. Diese Einheitenstruktur (Dettweiler 1984; Dettweiler und Hess 1985) wurde zunächst für LPC-Synthese entworfen, bis Portele (1996a) ein phonetisch-akustisch austariertes Bausteininventar für die TD-PSOLA-Synthese definierte. Die Stärke dieses hybriden Ansatzes liegt vor allem in der guten Abdeckung antizipatorischer Koartikulation in den Anfangshalbsilben, sowie der Datenreduktion bedingt durch die Abspaltung von Konsonantensuffixen von Endhalbsilben. Portele (1996a) setzt dabei voraus, dass die betreffenden Suffixe nicht von persistenter Koartikulation beeinflusst sind.

Ein im Wesentlichen diphonbasiertes multilinguales Synthesesystem stellen Möbius et al. (1996) vor. Diese Sprachsynthese der AT&T Bell Laboratorien ist in streng hierarchische und sprachenunabhängige Verarbeitungsmodule untergliedert. Alles sprachenspezifische Wissen wird dabei in verschiedenen Wissensbasen abgelegt. Außerdem werden der Synthese die einzelnen Sprachbausteine in LPC-Repräsentation bereitgestellt.

Das SPRUCE-System (Speech Response from UnConstrained English) ist eine TTS-Anwendung, die in ihrer frühen Version mit parametrischen Silbeneinheiten arbeitet (Lewis und Tatham, 1991). Die Zahl der benötigten Silben beläuft sich dabei auf ca. 10.000 für das Englische. Die Synthese erfolgt durch eine Zerlegung des Eingangstextes in Silbeneinheiten und der Berechnung einer Zielprosodie. Die parametrischen Silbeneinheiten werden schließlich aus dem Silbeninventar entnommen und das der prosodischen Zielkontur dienlichste Anregungssignal wird aus einem speziellen Anregungsinventar bezogen. „It was found that the larger the unit (from whole sentence, through phrase, word and syllable, to allophone) the greater the resultant naturalness.“ (Lewis und Tatham, 1991: 1236), rechtfertigen Lewis und Tatham die Wahl der Silbe als elementaren Synthesebaustein. Die nächst größere Einheit, das Wort, hätte für den Rahmen des SPRUCE-Systems bereits zu viel Speicherplatz in Anspruch genommen.

2.3.3 Selektive konkatenative Synthese

Die jüngste Entwicklung auf dem Sektor der konkatenativen Sprachsynthese ist die Synthese durch eine spezielle Einheitenselektion. Die Grundidee bei diesem Ansatz ist, die Natürlichkeit der Sprache dadurch zu erhöhen, dass Signalmanipulationen weitestgehend vermieden werden und stattdessen natürlichsprachliche Einheiten variabler Länge samt ihrer beinhalteten Prosodie konkateniert werden. Von großer Bedeutung für die dabei resultierende Sprachqualität ist, dass die verwendeten Einheiten jeweils als mehrere tokens im Korpus vorkommen. Nur so kann man ohne Signalmanipulation die vielfältigen Koartikulationsphänomene und Prosodievariationen der Sprache abdecken. Diesbezüglich besinnt man sich also wieder der Zeiten vor dem PSOLA-Algorithmus, indem Sprachsynthese ähnlich der bereits erörterten Idee von Sivertsen (1961) realisiert wird. Der aktuelle Entwicklungsstand auf dem Gebiet der Computerhardware macht dieses letztlich möglich.

Alle Ansätze, die mit Sprachsynthese durch Einheitenselektion aus einem großen Korpus arbeiten, teilen im Wesentlichen das gleiche Grundkonzept. Zunächst wird eine Zielsymbolfolge mit einer Zielprosodie erzeugt (TTS oder CTS). Danach werden systematisch Teilketten der Symbolfolge im etikettierten Korpus gesucht. Alle vorhandenen tokens des jeweils geforderten type einer Symbolkette werden zurückgegeben. Der entscheidende Schritt ist nun die geeignete Auswahl von Einheiten unter diesen verschiedenen tokens im Korpus. Hierzu wird eine Kostenfunkton herangezogen, die vor allem zwei Kostenfaktoren berücksichtigt:

I) Distanz einer Instanz zur Zieleinheit (diese muss minimiert werden)
II) Ähnlichkeit aufeinanderfolgender tokens in der Umgebung der Konkatenationsstelle (diese muss maximiert werden)

Eine solche Kostenfunktion muss in der Lage sein, aus den verschiedenen systemabhängigen Prosodie- und Kontextparametern eine numerische Beschreibung der Kosten abzuleiten. So können die Kosten schließlich mit Verfahren der dynamischen Programmierung (vgl. Rabiner und Huang, 1993) optimiert werden, und dem Synthesekorpus kann die für die Zieläußerung optimale Segmentfolge entnommen werden.

Das Hauptunterscheidungsmerkmal der verschiedenen, noch zu skizzierenden, Verfahren zur Sprachsynthese durch Selektion von Einheiten ist die Art der Segmentierung des Korpus und die damit verbundene Auswahlstrategie der Segmente. Das Sprachsynthesesystem Laureate (vgl. Breen und Jackson, 1998) der Britischen Telekom (BT) verwendet beispielsweise einen Kontextbaum, der auf phonologischer Basis zusammenhängende Phonemketten bis zu einer vorgegebenen Maximallänge auswählt. Eine ähnliche Strategie verwendet auch das Sprachsynthesesystem Festival (vgl. Taylor und Black 1999; Black und Taylor, 1997) der Universität Edinburgh. Hier wird die längstmögliche Zielphonemfolge, ebenfalls nach phonologischen Kriterien, im entsprechend etikettierten Korpus aufgesucht:

„In a given sentence, units may represent a word (e.g. ‘nineteen’), a phrase (e.g. ‘nineteen twenty’) a syllable (‘nine’), a syllabic node (e.g. a onset as in (/t/ /w/)) or a single phone.“ (Taylor und Black, 1999: 624)

In einer früheren Version dieses Ansatzes waren die Einheiten der Konkatenation hingegen noch auf beliebig lange Phonemcluster auf Subwortebene beschränkt. Das Triphon als ein weiterer Synthesebaustein ist eine subphonemische Einheit, die das Phonem als Segment mit stationärem Mittelsegment, sowie einem linken und rechten Kontextbestandteil charakterisiert. Um zu einer solchen Beschreibung aller Phoneme einer Sprache in all ihren Kontexten zu gelangen, werden statistische Verfahren (Hidden Markov Modelle (HMM)), die zunächst nur in der Spracherkennung angewandt wurden, eingesetzt. Die einzelnen Triphonmodelle müssen also zunächst auf den Sprecherdaten trainiert werden, bevor sie zur Segmentierung des Synthesekorpus in Triphoneinheiten herangezogen werden können. Neben dem Sprachsynthesesystem MIMIC (vgl. Chen et al., 1998) arbeitet auch das Microsoft System Whistler (vgl. Huang et al., 1996) mit derartigen Bausteinen. Diese künftige Sprachsynthese der Windows-Betriebssysteme konkateniert jedoch Triphone nicht direkt, sondern in LPC-Repräsentation mit einer speziellen Anregungsfunktion. Zusätzlich bringen Huang et al. (1996) das Senone als eine subphonemische, den Zustand eines HMM repräsentierende Einheit ins Gespräch.

Die Silbe als Basiseinheit für die Synthese durch Einheitenselektion vom Korpus wird im System SPRUCE (s. Abschn. 2.3.2) bevorzugt (vgl. Tatham et al., 1999; Lewis und Tatham, 1999). Die Autoren schlagen ein Verfahren vor, Silbeneinheiten aus wortsegmentierten Korpora mit beschränkter Domäne zu extrahieren, um unter Verwendung der so gewonnenen Einheiten TTS auch in unbeschränkter Domäne realisieren zu können. Die gewonnenen Silben werden dabei erst konkateniert, nachdem sie abhängig vom phonetischen Kontext der Konkatenationsstelle modifiziert wurden. Mit Phonemen verwendet eine frühe Version des CHATR-Systems (vgl. Campbell, 1996a; 1997b) sehr kleine Basiseinheiten auf dem Gebiet der Synthese durch Einheitenselektion. Eine Weiterentwicklung des Systems aber geht ebenso zu der Verwendung von silbenbasierten Bausteinen über, da diese im wesentlichen die prosodische Information tragen und das Etikettieren selbiger so erheblich erleichtert wird (vgl. Campbell, 1997a). Ein besonders interessantes Merkmal bei diesem Ansatz ist, dass das Korpus nicht nach rein phonologischen, sondern zusätzlich nach akustischen, extralinguistischen Kriterien etikettiert wird. Denn Campbell (1996b) sieht Gelächter, Räuspern usw. in manchen Sprechsituationen als unabdingbar an, wenn die synthetisch erzeugte Sprache natürlich klingen soll. Basierend auf den Ideen der Systeme Festival und CHATR konzipieren Beutnagel et al. (1999) die AT&T Next-Gen TTS-Sprachsynthese. Der fundamentale Synthesebaustein ist hier allerdings das Halbphon, welches das kleinste Basissegment auf dem Gebiet der Sprachsynthese durch Einheitenselektion aus großen Korpora darstellt. Ähnlich dem Triphon berücksichtigt das Halbphon den linken und rechten Kontext eines Phons. Ein Halbphon allerdings wird gewonnen, indem ein Triphon durch einen Schnitt in seiner stationären Phase in einen linken und rechten Teil aufgespalten wird. Darüber hinaus arbeitet dieses Verfahren auf der Ebene der Sprachsignalerzeugung mit dem HNM-Verfahren (H armonic plus N oise M odel). Die Sprachbausteine werden dabei unter dem Gesichtspunkt parametrisiert, dass sich ein Sprachsignal in einen tieffrequenten (bis zu einer zu berechnenden oberen Grenzfrequenz) harmonischen Teil, sowie einen hochfrequenten stochastischen Rauschanteil zerlegen läßt. Unter geeigneter Anregung können diese beiden Komponenten bei der Einheitenkonkate-nation wieder zu einem Sprachsignal aufaddiert werden.

Die empirische Analyse in Kap. 4 ist durch die korpusbasierte Sprachsynthese des Instituts für Kommunikationsforschung und Phonetik (IKP) Bonn motiviert. Im Rahmen des Projektes Verbmobil (vgl. Wahlster, 1993) zur wechselseitigen automatischen Simultanübersetzung zwischen amerikanischem Englisch, Japanisch und Deutsch ist dieses System für die deutsche Sprachausgabe verantwortlich. Da die Domäne von Verbmobil im Bereich der Terminabsprachen liegt, kann die verwendete Sprachsynthese dementsprechend domänenbeschränkt sein. Folglich bietet sich für den gegebenen Anwendungszweck ein Korpussyntheseansatz an. Stöber et al. (1999; 2000) stellen bei der Konzeption ihres Synthesekorpus das Wort ins Zentrum des Interesses, wenngleich auch das hier verwendete Korpus bei Bedarf kleinere Einheiten bis hinunter zum Halbphon zur Verfügung stellt. Es werden also Äußerungen aus der Domäne der Terminabsprachen aufgenommen und in wortsegmentierter Form im Korpus repräsentiert. Stöber et al. (1999) betrachten jedes der orthographischen Wörter gemäß der objektorientierten Programmierung als class. Jede davon repräsentiert eine Menge an Vertretern mit unterschiedlichen akustischen Ausprägungen. Ein solcher Vertreter heißt in diesem Zusammenhang instance. Auch dieser Ansatz versucht also, ein Wort in möglichst vielen verschiedenen prosodischen und kontextuellen Variationen im Korpus abzulegen. Für die Auswahl der besten instance für jede class ergibt sich ein Graph, dessen Knoten jeweils eine instance der entsprechenden class repräsentieren (s. Abb. 2.3). Bei einer Abfolge mehrerer classes ergeben sich dabei Übergänge zwischen den Knoten, die als Kanten im Graphen dargestellt werden. Diese Kanten werden mit Gewichten besetzt, die die Konkatenationskosten zwischen zwei instances beschreiben. Die für die Sprachausgabe verwendete Folge von instances wird dabei durch den Pfad minimaler Kosten (optimaler Pfad) bestimmt.

[...]


[1] Im Gegensatz zu den Frequenzbereichsverfahren stehen die Zeitbereichsverfahren, die die Schallerzeugung an jedem Ort des Ansatzrohres ermöglichen (vgl. Kröger, 1996).

[2] Datenbasierte Sprachsynthese impliziert stets, dass ein Sprachsignal durch Konkatenation zuvor gespeicherter Bausteine erzeugt wird.

[3] Den hier angesprochenen qualitativen Vorsprung gegenüber der Formantsynthese besitzen Synthesen unter Verwendung von Zeitbereichseinheiten genauso wie Synthesen auf Basis von LPC-Einheiten.

[4] Darüber hinaus existieren mit dem LP-PSOLA (Charpentier und Moulines, 1989) für LPC-kodierte Signale und einem ähnlichen Verfahren für den Spektralbereich zwei weitere Varianten des PSOLA-Algorihmus.

[5] Der Zeitabschnitt zwischen 2 Pitchmarken entspricht einer Grundperiode des stimmhaften Sprachsignals.

[6] In Bezug auf Approximanten beispielsweise ist diese Annahme nicht ganz unproblematisch.

[7] Die Endkonsonantenfolge als Sprachsynthesebaustein bleibt in Abschn. 2.3.1 unerwähnt, da er nur für Sprachen mit langen Endkonsonantenfolgen sinnvoll ist; dieses gilt für das Deutsche.

Ende der Leseprobe aus 88 Seiten

Details

Titel
Die Verwendung spezieller Einheiten zur Generierung flektierter Wortformen in der konkatenativen Sprachsynthese
Hochschule
Rheinische Friedrich-Wilhelms-Universität Bonn  (Institut für Kommunikationsforschung und Phonetik (IKP))
Note
1,0
Autor
Jahr
2000
Seiten
88
Katalognummer
V161324
ISBN (eBook)
9783640808342
ISBN (Buch)
9783640809103
Dateigröße
1104 KB
Sprache
Deutsch
Schlagworte
verwendung, einheiten, generierung, wortformen, sprachsynthese
Arbeit zitieren
Dr. Jörg Bröggelwirth (Autor), 2000, Die Verwendung spezieller Einheiten zur Generierung flektierter Wortformen in der konkatenativen Sprachsynthese, München, GRIN Verlag, https://www.grin.com/document/161324

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Die Verwendung spezieller Einheiten zur Generierung flektierter Wortformen in der konkatenativen Sprachsynthese



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden