Ein rhythmisch-prosodisches Modell lyrischen Sprechstils


Doktorarbeit / Dissertation, 2007

129 Seiten, Note: 1,7


Leseprobe

Inhaltsverzeichnis

1 Einleitung

2 Zum Sprechrhythmus
2.1 Isochronie
2.2 Akustische Korrelate des Sprechrhythmus
2.3 Perzeption von Sprechrhythmus
2.4 Sprechrhythmus und Lyrik
2.4.1 Motivation
2.4.2 Ergebnisse
2.5 Fazit

3 Zum Begriff der Prosodie
3.1 Definierbarkeit
3.2 Funktion
3.3 Fazit

4 Lyrik und Metrik

5 Korpuserstellung
5.1 Textauswahl
5.2 Aufnahme
5.3 Annotation
5.3.1 GToBI-Etikettierung
5.4 Zusammenfassung

6 Datenanalyse
6.1 Dauerphänomene
6.1.1 Silbendauern
6.1.2 Fußdauern
6.1.3 Die Dauerrelation unakzentuiert zu akzentuiert
6.1.4 Phrasen- und Versdauern
6.1.5 Zusammenfassung
6.2 Intonationsphänomene
6.2.1 Höhe der Grundfrequenz
6.2.2 Phonologische Beschreibung der Intonation
6.2.3 Zusammenfassung

7 Rhythmisch-prosodische Modelle
7.1 Dauermodelle
7.1.1 Lineare Regression
7.1.2 Silbendauern bei isochronen Fußdauern
7.2 Intonationsmodell
7.3 Zusammenfassung

8 Evaluation der Dauermodelle
8.1 Verfahren der perzeptiven Beurteilung von Sprachstimuli
8.1.1 Der Faktor Mensch
8.1.2 Testmethoden
8.1.3 Diskussion
8.2 Delexikalisierung
8.3 Modellevaluation
8.3.1 Ergebnisse der Lyrik/Prosa Unterscheidung bei delexikalisierten Stimuli
8.3.2 Ergebnisse der Lyrik/Prosa Unterscheidung bei nicht-delexikalisierten Stimuli
8.3.3 Ergebnisse der Rhythmuserkennung bei delexikalisierten Stimuli
8.3.4 Zusammenfassung

9 Abschließende Zusammenfassung und Ausblick

Literatur

Anhänge

1 Einleitung

Der sprachliche Rhythmus erfüllt Funktionen im Bereich Gliederung und Hervorhebung auf allen linguistischen Ebenen. Silben- und Wortgrenzen sowie Wortbetonungen werden durch ihn markiert, syntaktische Phrasen und semantisch zusammengehörige Einheiten werden rhythmisch gegliedert. Ohne diese rhythmische Gliederung wäre der Sprachwahrnehmungsprozess sicherlich um einiges erschwert. Neben der direkten Beziehung zwischen Rhythmus und linguistischen Einheiten existieren ferner situationsspezifische Rhythmen, welche mit einem bestimmten Sprechstil verknüpft sind. So hat schnelle Sprache vermutlich einen anderen Rhythmus als langsame, eine Predigt wiederum einen anderen Rhythmus als ein Fußballkommentar. Welche Rolle der Sprechrhythmus auf den einzelnen linguistischen und paralinguistischen Ebenen im Detail spielt, ist jedoch noch weitestgehend ungeklärt. Eine relativ große Übereinstimmung besteht in der Meinung, dass es auch sprachspezifische rhythmische Unterschiede gibt, genauer gesagt gibt es die Annahme, dass sich Sprachen in so genannte akzentzählende und silbenzählende Sprachen unterteilen.

Überdies ist der Sprechrhythmus für die Sprachsynthese, d.h. den sprechenden Computer, von Bedeutung. Die häufigste Anwendung in diesem Bereich ist die Überführung von Text in ein entsprechendes Sprachsignal (T ext- T o- S peech). Auch in den neueren korpusbasierten Synthesesystemen ist eine ausgefeilte Prosodieprädiktion unerlässlich. Diese Vorhersage ist in den meisten Fällen jedoch noch verbesserungswürdig. Leider zielen TTS-Sprachsynthesesysteme im Allgemeinen ausschließlich auf eine prosaische Textdomäne ab, so dass spezielle Domänen, wie etwa die Lyrik, außer Acht gelassen werden. Die vorliegende Arbeit wird unter anderem dadurch motiviert, dass die Grundlagen für eine Erweiterung der Textdomäne von TTS-Systemen um das Feld der Lyrik mit festgelegtem Metrum fehlen und somit erst noch geschaffen werden müssen. Der prominente Rhythmus von Lyrik mit festgelegtem Metrum soll dabei in zwei Dauermodellen abgebildet werden. Es wird angenommen, dass Rückschlüsse von der Rhythmizität der Lyrik im Deutschen auf die deutsche Sprache allgemein möglich sind.

Kapitel 2 gibt einen Überblick über den aktuellen Stand der Forschung im Bereich Sprechrhythmus mit besonderer Berücksichtigung von Rhythmus und Lyrik. Die Darlegungen umfassen etwa den Zeitraum der letzten 60 Jahre. Der größte Teil der skizzierten Arbeiten befasst sich dabei mit der zeitlichen Struktur des Sprechrhythmus. Der Bericht zeigt jedoch auf, dass bezüglich Rhythmus auch intonatorische, ja sogar segmentale Phänomene eine Rolle spielen. Die an dieser Stelle gemachten Skizzierungen unterstreichen die Vielfältigkeit der verschiedenen Ansätze in der Sprechrhythmusforschung, sowohl auf akustischer als auch perzeptiver Ebene.

Das Kapitel 3 diskutiert kurz den Begriff der Prosodie, da Prosodie und Sprechrhythmus eng miteinander verknüpft sind. Vor allem der Parameter der Dauer ist hier als bedeutend anzuführen. Es werden die Definierbarkeit und die Funktion von Prosodie erläutert.

Im Kapitel 4 dieser Arbeit wird der literaturwissenschaftliche Begriff der Metrik in der Lyrik erörtert. Es wird insbesondere Bezug auf verschiedene Versmaße und rhythmische Prinzipien genommen. Zudem wird kurz der Aufbau und die Struktur eines Verses skizziert.

Das Kapitel 5 befasst sich mit der Erstellung eines Korpus deutscher Lyrik. Es wird vor allem diskutiert, welche Texte aus welchem Grund ausgewählt wurden. Darüber hinaus wird die Wahl der Sprecher näher erläutert. Schließlich wird das Thema der Korpusannotation behandelt. Der Etikettierformalismus GToBI für die Intonation des Deutschen wird hier besonders ausführlich dargestellt.

Im Kapitel 6 wird die Analyse des umfangreichen Korpus erörtert. Es werden vor allem Statistiken über die prosodischen Parameter von Intonation und Dauer dargelegt. Im Fokus der Analyse stehen vor allem Dauern auf den linguistischen Ebenen von Silbe, Fuß und Phrase bzw. Vers.

Das Kapitel 7 der vorliegenden Arbeit stellt die Modellbildung von Silbendauern im lyrischen Sprechstil vor. Es werden dabei die beiden unterschiedlichen Ansätze der linearen Regression und der Fußisochronie verfolgt. Ersteres Modell prädiziert dabei Silbendauern, die durch eine lineare Regression berechnet werden, letzteres Modell geht von einer konstanten Dauer eines Fußes aus und berechnet so die Dauern der im Fuß beinhalteten akzentuierten und nichtakzentuierten Silben. Darüber hinaus wird eine GToBI-Beschreibung der Intonation von Silben im Korpus angeführt.

Im Kapitel 8 werden schließlich die beiden verschiedenen Ansätze der Dauermodellierung bezüglich ihrer rhythmischen Diskriminationsleistung geprüft. In drei Perzeptionstests wird den Hörern eine Sprechstilunterscheidung sowie eine Unterscheidung verschiedener Metren abverlangt. Hierbei sind gezielt manipulierte Stimuli verwandt worden.

In Kapitel 9 werden die verschiedenen Analyse- und Testergebnisse abschließend zusammengefasst und diskutiert. Dabei wird auch versucht, ungelöste Probleme der vorliegenden Arbeit von verschiedenen Seiten zu beleuchten. Zudem wird ein Ausblick auf künftige Arbeiten gegeben.

2 Zum Sprechrhythmus

In diesem Kapitel wird der aktuelle Stand der Sprechrhythmusforschung näher erörtert. Die Darlegungen reichen von der Isochroniehypothese aus der Mitte des letzten Jahrhunderts bzw. der Unterscheidung zwischen akzentzählenden und silbenzählenden Sprachen (2.1), über akustische Korrelate des Sprechrhythmus (2.2) und die Perzeption des Sprechrhythmus (2.3) bis zum Zusammenhang von Sprechrhythmus und Lyrik (2.4). Der Diskussion der wichtigsten Literatur wird ein kurzes Fazit nachgestellt (2.5).

2.1 Isochronie

Das in der Sprechrhythmusforschung wohl am kontroversesten diskutierte Prinzip ist das der Isochronie. Pike (1945) propagiert erstmals die Unterscheidung von akzentzählenden und silbenzählenden Sprachen, wobei die akzentzählenden Sprachen das Interakzentintervall als isochrone Einheit, die silbenzählenden Sprachen hingegen die Silbe als isochrone Einheit besitzen sollen. Abercrombie (1967) schließt sich dieser Isochroniehypothese an und sieht jede Sprache der Welt einer dieser beiden Rhythmusklassen zugehörig. Seiner Ansicht nach ist dieser Unterschied physiologisch in der Existenz zweier verschiedener muskulärer Aktivitäten begründet, nämlich der für die Periodizität der Silben verantwortlichen chest-pulses bzw. der für die Periodizität der Akzente verantwortlichen stress-pulses. Diese Begründung wurde jedoch von Ladefoged (1967) anhand elektromyographischer Messungen an den respiratorischen Muskeln widerlegt.

In der Folge ist in zahlreichen Studien, vor allem für das Englische, versucht worden, die Existenz isochroner Einheiten akustisch nachzuweisen (Bolinger, 1965; Allen, 1972; Lea, 1974; Lehiste, 1977; Uldall, 1978; Dauer, 1983). Für die gemessenen Interakzentintervalle[1], d.h. das Zeitintervall zwischen zwei Akzenten, konnte zumindest keine strenge Isochronie ermittelt werden. Es zeigte sich vielmehr, dass ein linearer Zusammenhang zwischen der Dauer von Interakzentintervallen und der Anzahl der Silben im Intervall besteht. Dauer (1983) stellt zum Interakzentintervall, das hier von Vokalonset zu Vokalonset gemessen wird, des Weiteren fest, dass für das Englische keine stärkere Tendenz zur Produktion von Interakzentintervallen mit konstanter Dauer besteht als für andere Sprachen. Letztere Vermutung lag nahe, da das Englische als akzentzählende Sprache gilt. Dauer zieht damit den Schluss:

„Consequently, we can conclude that the difference between English, a stress-timed language, and Spanish, a syllable-timed language, has nothing to do with the durations of interstress intervals.“ (Dauer, 1983: 54)

Darüber hinaus beobachtet Dauer, dass es eine reguläre Rate von Interakzentintervallen pro Sekunde, nicht aber eine reguläre Rate an Silben pro Sekunde gibt. Zudem vermutet sie, dass es im Planungsprozess der Sprachproduktion eine Einheit mindestens von der Größe eines Interakzentintervalls geben muss. Über das Wesen des Interakzentintervalls stellt die Autorin ferner fest:

„I would like to propose that the rhythmic differences we feel to exist between languages such as English and Spanish are more a result of phonological, phonetic, lexical, and syntactic facts about that language than any attempt on the part of the speaker to equalize interstress or intersyllable intervals.“ (Dauer, 1983: 55)

Überdies sollen die akzentzählenden Sprachen aufgrund ihrer größeren Zahl möglicher Silbentypen stärker bezüglich ihrer Silbenlänge variieren als die silbenzählenden Sprachen. Außerdem seien in akzentzählenden Sprachen schwere Silben häufiger akzentuiert als leichte Silben. Darüber hinaus maximiere die Zentralisierung unakzentuierter Silben den Unterschied zwischen akzentuierten und unakzentuierten Silben in akzentzählenden Sprachen weiter. Zudem bewahren akzentzählende Sprachen trotz Reduktion die Silbizität. In silbenzählenden Sprachen dagegen können Silben miteinander verschmelzen. Silbenzählende Sprachen haben im Normalfall keine reduzierten Vokale in unakzentuierter Position. Dennoch hält Dauer es für möglich, dass alle Sprachen mit identifizierbarem Akzent ein gewisses Maß an Regularität bezüglich der Dauer von Interakzentintervallen zeigen werden. Auf jeden Fall aber macht Dauer für die akzentzählenden Sprachen folgendes geltend:

„In addition, the greater the effects of stress on the linguistic system, in both its phonetic realization and in the number of stress-related rules that are necessary in a grammar of the language, the more likely it is to be stress-timed.“ (Dauer, 1983: 58)

Für das Deutsche hat Kohler (1982; 1983) die akustische Isochronie untersucht. Er hält es nämlich für möglich, dass die Identifikation der Isochronie im Englischen aus methodischen Gründen, z.B. durch das Silbengrenzproblem, gescheitert ist. Der Autor hat jedoch nicht die bloße Existenz der Isochronie in Sprachdaten überprüft, sondern ein Experiment mit Nonsensstimuli durchgeführt, in welchem das Potential zur Isochronie gemessen wurde. Es sollte demnach die Kompressionsfähigkeit von Silben getestet werden. Hierbei sollten Sprecher innerhalb eines vorgegebenen Zeittaktes einen Akzentfuß (1 akzentuierte Silbe plus 0-2 unakzentuierte Silben) realisieren. Die geforderte Kompression der im Fuß enthaltenen Silben gelang bis auf die Ausnahme von Dreisilbern mit komplexer Silbenstruktur. Ein weiterer interessanter Effekt war, dass die Mehrsilber im gleichen Zeitrahmen artikuliert schneller gesprochen erschienen als die Einsilber. Gleichzeitig erschienen unkomprimierte Dreisilber jedoch langsamer als Einsilber. Daraus folgt, dass innerhalb der beiden Extreme kompletter Isochronie einerseits und zur Silbenzahl proportionaler Expansion andererseits komprimiert werden muss, um das Sprechtempo konstant zu halten. Außerdem konnte Kohler zeigen, dass die Dauer eines Akzentfußes nicht nur linear von seiner eigenen segmentalen Komplexität, sondern zusätzlich von der Komplexität des vorangehenden Akzentfußes abhängt. Damit hat das Deutsche eine Tendenz zur Isochronie, die durch artikulatorische Verschleifungen, die Bildung schwacher Formen und Dauerkompression erreicht wird. Aus diesen Ergebnissen leitet Kohler eine zeitliche Organisationshierarchie der Sprachproduktion ab. In einem ersten Planungsschritt werden demnach Fußintervalle sprechratenabhängig absolut isochron festgesetzt. Im zweiten Schritt erfahren die Dauern der Fußintervalle eine Modifikation durch Informationsstrukturierung und Fokussierung. Die dritte Stufe der zeitlichen Sprechorganisation expandiert die Fußdauern gemäß ihrer Silbenzahl und Silbenkomplexität. Auf der vierten Stufe schließlich vollzieht sich die temporale Strukturierung der Silben innerhalb eines Fußes bzw. der Dyaden, welche auch Diphone genannt werden, und Phone innerhalb einer Silbe. Die geschilderten Beobachtungen Kohlers beziehen sich allesamt auf zeitliche Phänomene. Er mutmaßt aber, dass auch die Grundfrequenzvariation für die temporale Strukturierung der Sprache maßgebend ist. An dieser Stelle besteht noch Klärungsbedarf.

2.2 Akustische Korrelate des Sprechrhythmus

Nachdem sich die (strenge) Isochronie von Akzentfüßen bzw. Silben nicht als akustisches Korrelat der Rhythmusklassenunterscheidung erwiesen hat (s. 2.1), ist die rhythmische Klassifikation von Sprachen als akzentzählend bzw. silbenzählend dennoch nicht verworfen worden. Es ist vielmehr versucht worden, diesbezüglich alternative akustische Korrelate auszumachen. So kritisieren Ramus, Nespor & Mehler (1999):

„Although researchers have measured many speech signal properties, they have failed to identify reliable acoustic characteristics for language classes.“ (Ramus, Nespor & Mehler: 265)

Ramus, Nespor & Mehler (1999) stellen so die Maße %V, DC and DV als akustische Korrelate der Rhythmusklassen vor. %V misst dabei den prozentualen Anteil vokalischer Intervalldauern an der gesamten Äußerungsdauer, DC ist die Standardabweichung der konsonantischen Intervalldauern und DV die Standardabweichung der vokalischen Intervalldauern. Trägt man die Messpunkte für einzelne Sprachen in der %V/DC Ebene auf, bilden die Sprachen Cluster gemäß ihrer klassischen Rhythmusklassenzugehörigkeit. Hierbei nimmt das konsonantische Maß Bezug auf die Silbenkomplexität einer Sprache, das vokalische Maß hingegen bezieht sich auf die Vokalreduktion (Ramus, 2002). Außerdem korreliert nach Ramus, Nespor & Mehler die Rhythmusart mit der Segmentiereinheit einer Sprache, nämlich dem Fuß bei akzentzählenden Sprachen und der Silbe bei silbenzählenden Sprachen. Die Autoren führen zudem das dritte Segment der Mora für morazählende Sprachen an. Die Mora ist eine virtuelle Einheit, welche die Dauern verschiedener Phone zusammenfasst. Es handelt sich hierbei jedoch um eine Randerscheinung, welche an dieser Stelle nicht weiter vertieft werden soll. Duarte et al. (2001) und Wagner & Dellwo (2004) bestätigen die Leistungsfähigkeit des %V/DC Maßes zur Rhythmusklassenunterscheidung, kritisieren aber, dass darin nicht alle rhythmischen Eigenschaften der Sprache enthalten sind. Diese Skepsis teilt auch Cummins indem er äußert:

“Of all prosodic variables used to classify languages, rhythm has proved most problematic. Recent attempts to classify languages based on the relative proportion of vowels or obstruents have had some success, but these seem only indirectly related to perceived rhythm.” (Cummins, 2002: 121)

Fant, Kruckenberg & Nord (1991) untersuchten die akzentinduzierte Längung von Segmenten im Englischen, Schwedischen und Französischen. Es stellte sich dabei heraus, dass die Längung im als silbenzählend geltenden Französisch deutlich geringer ist als im als akzentzählend geltenden Englisch und Schwedisch. Zudem sind unakzentuierte Silben in allen drei Sprachen segmental etwa gleich komplex, die akzentuierten Silben dagegen sind im Englischen und Schwedischen komplexer als im Französischen. Für den akzentzählenden Charakter einer Sprache leiten Fant, Kruckenberg & Nord daraus eine Verbindung der segmentalen und suprasegmentalen Ebene ab, indem Silbenkomplexität und akzentinduzierte Längung einen Beitrag zur relativen Schwere einer Silbe leisten. Der akzentzählende Eindruck einer Sprache ergibt sich demzufolge aus der quasiperiodischen Abfolge schwerer Silben. Ein silbenzählender Eindruck entsteht nach Fant, Kruckenberg & Nord durch die Reduktion der Differenz zwischen akzentuierten und unakzentuierten Silben. Die Bedeutung der Kombination von segmentaler und suprasegmentaler Ebene für die Unterscheidbarkeit von Rhythmusklassen zeigen auch Pellegrino et al. (2002). Sie erzielten anhand automatischer Klassifikationsverfahren gute Sprachdiskriminationsergebnisse unter Verwendung sowohl segmentaler Eigenschaften als auch Energie- und Grundfrequenzwerten als Eingabeparameter.

Obwohl keine konstanten Dauern für Interakzentintervalle in der Sprache nachgewiesen werden konnten, wurde weiter nach Regelmäßigkeiten bezüglich der zeitlichen Organisation von Sprachsegmenten geforscht. So ermittelten Fant & Kruckenberg (1996) eine mittlere Dauer von 0,5 s für Akzentfüße im Schwedischen. Dieses Intervall stellte sich dabei gleichzeitig als Referenzquantum für Pausendauern heraus, d. h. Pausen besitzen als Dauern ganzzahlige Vielfache des Referenzquantums. Außerdem zeigte sich, dass bezogen auf mittlere Dauern eine 1, 1/2, 1/4 bzw. 1/8 Relation in der zeitlichen Ausdehnung von Interakzentintervallen, akzentuierten Silben, unakzentuierten Silben und Phonen besteht. Analog zu dieser Beobachtung propagieren Cummins & Port (1998) die Betrachtung des Sprechrhythmus als hierarchische Organisation zeitlich koordinierter prosodischer Einheiten. Danach manifestiert sich der Rhythmus als zeitliche Bindung von Ereignissen an spezifische und prädizierbare Phasen eines übergeordneten Zyklus. Zu diesem Phänomen stellten Cummins & Port eine Untersuchung auf Basis eines speech cycling task an. Bei diesem Experiment wurden Sprecher gebeten, eine kurze zweiakzentige Phrase in Korrespondenz mit einem auditiven Stimulus fortlaufend zu wiederholen. Es wurden dazu zwei Töne kurzer Dauer mit unterschiedlicher Frequenz dargeboten. Das Zeitintervall zwischen hoher und tiefer Frequenz war konstant, das Intervall zwischen tiefer und folgender hoher Frequenz dagegen wurde von Phrase zu Phrase variiert, so dass der tiefe Ton den Zyklus zu verschiedenen Phasen teilte. Die Sprecher wurden instruiert, den ersten Akzent der zu artikulierenden Phrase mit dem hohen Ton, den zweiten Akzent hingegen mit dem tiefen Ton zu synchronisieren. Es stellte sich heraus, dass die Sprecher nicht frei darin waren, den zweiten Akzent zu platzieren. Sie bevorzugten vielmehr bestimmte Zielphasen innerhalb des Wiederholungszyklus, an denen sich die zu synchronisierenden Akzente kumulierten. Es bildeten sich dabei drei Attraktoren auf der Zeitachse zu Zyklusphasen von 1/3, 1/2 und 2/3 heraus. Dieses Phänomen nennen die Autoren harmonic timing effect. Damit sind die Einheiten des Fußes und des Phrasenzyklus als zwei miteinander gekoppelte Oszillatoren (vgl. O’Dell & Nieminen, 1999; Barbosa, 2002) zu verstehen. Sprache unterliegt folglich den allgemeinen Gesetzmäßigkeiten zyklisch bzw. rhythmisch agierender motorischer oder kognitiver Systeme (Port, Tajima & Cummins, 1999). Es besteht hierbei die Möglichkeit, dass die Oszillatoren demselben physischen System angehören und so die Kopplung dem Prinzip des self-entrainment folgt. Beim self-entrainment besteht kein rhythmischer Impulsgeber außerhalb des oszillierenden Systems. Nach Port, Tajima & Cummins liegt diese sprecherinhärente Kopplung von Oszillatoren in der Sprache unter den linguistischen Hierarchieebenen von Silbe, Akzentfuß und prosodischer Phrase vor. Zusammenfassend lässt sich zu den akustischen Korrelaten des Sprechrhythmus allerdings kritisch äußern:

„However, although many characteristics of the speech signal have been measured, reliable acoustic characteristics of language classes have not been identified.“ (Ramus, Nespor & Mehler, 1999: 287)

2.3 Perzeption von Sprechrhythmus

Zum besseren Verständnis der psychoakustischen Qualität von Rhythmus sollen in diesem Abschnitt zunächst einige grundlegende Erkenntnisse bezüglich der Perzeption von Rhythmus dargelegt werden. Allen (1975) berichtet, dass lange Zeitintervalle zwischen zwei akustischen Stimuli perzeptiv unterschätzt, kurze Zeitintervalle dagegen überschätzt werden, was bedeutet, dass ein Hörer stets versucht, wahrgenommenen Schallen Rhythmizität aufzuerlegen, selbst wenn sie physikalisch nicht vorhanden ist. Dieses Phänomen schließlich veranlasste einige Forscher, das Isochroniekonzept (s. 2.1) als perzeptives Phänomen zu betrachten (Cooper & Meyer, 1960; Lehiste, 1977; Couper-Kuhlen, 1993;). Auer & Uhmann (1988) äußern dazu:

„Isochronie – und Rhythmus überhaupt – sind in erster Linie nicht im physikalischen Sprachsignal zu untersuchen, sondern in der Perzeption und Interpretation des Sprachsignals durch den Sprachbenutzer.“ (Auer & Uhmann, 1988: 254)

Die subjektive Wahrnehmung von Isochronie muss hiernach auf einem abstrakten Konstrukt beruhen, ähnlich der Beziehung zwischen zugrundeliegenden Schlägen und Oberflächenrhythmus in der Musik (Cooper & Meyer, 1960). Ferner nehmen Hörer äquidistante nichtsprachliche akustische Stimuli als rhythmische Zweiergruppen wahr, wenn jeder zweite Stimulus bezüglich Lautstärke, Tonhöhe oder Dauer vom benachbarten Stimulus abweicht (Allen, 1975). Ist dabei jeder zweite Stimulus lauter, so werden Trochäen perzipiert. Bei Längung jedes zweiten Stimulus werden Jamben wahrgenommen. Für die Variation der Tonhöhe gilt der gleiche Effekt wie für die Lautstärke. Darüber hinaus gilt, dass sich bei Veränderung nur jedes dritten Stimulus rhythmische Dreiergruppen herausbilden. Wie Oberfeld (2000) zeigt, ist aber nicht nur die akustische Gestalt eines Stimulus für dessen Akzentuierungswahrnehmung verantwortlich, sondern unabhängig davon die Dauer des Inter-Onset-Intervalls zweier Stimuli. Ein Stimulus vor einem langen Intervall wird eher als akzentuiert wahrgenommen als vor einem kurzen Intervall.

In Bezug auf die Erforschung der Perzeption von Rhythmus gesprochener Sprache müssen zwei Untersuchungsfelder unterschieden werden. Der größte Teil der Sprechrhythmusforschung widmet sich der Diskrimination von verschiedenen Sprachen gemäß der Klassifikation akzentzählend/silbenzählend. Die zweite Forschungsrichtung dagegen betrachtet den Ereignischarakter des Sprechrhythmus. Im Bereich der sprachtypologischen Unterscheidung, so zeigen Ramus, Nespor & Mehler (1999), können Neugeborene zwischen Äußerungen aus der eigenen Muttersprache und Äußerungen einer anderen Rhythmusklasse unterscheiden. Die akzentzählend/silbenzählend Dichotomie scheint demnach im menschlichen Perzeptionssystem verankert zu sein. Überdies hat Miller (1984) die Sprachen Arabisch, Polnisch, Spanisch, Finnisch, Japanisch, Indonesisch und Yoruba untersucht. Die Klassifikation der Sprachen nach den Rhythmusklassen akzentzählend/silbenzählend erfolgte von den am Perzeptionstest beteiligten englischen und französischen Phonetikern und Nichtphonetikern sehr uneinheitlich. Miller folgert, dass jede Sprache Merkmale beider Rhythmusklassen zu verschiedenen Anteilen besitzen muss. Probleme bei der Sprachenunterscheidung anhand natürlicher Sprachstimuli konnten auch bei Versuchen mit Neugeborenen beobachtet werden (Ramus, 2000). Da sich manipulierte Stimuli dabei als geeigneter zur Diskrimination herausstellten, untersuchten Ramus et al. (2000) das Sprachunterscheidungsverhalten erwachsener Probanden anhand von Stimuli, deren konsonantische Anteile sämtlich auf /s/ und deren vokalische Anteile sämtlich auf /a/ abgebildet wurden (sasasa-Verfahren). Diese Stimuli ermöglichten den Versuchspersonen eine bessere Unterscheidung verschiedener Sprachen insbesondere dann, wenn zusätzlich eine flache Intonation verwendet wurde. Ramus et al. schließen daraus, dass Hörer das Sprachsignal in konsonantische und vokalische Intervalle zerlegen und die Statistiken %V, DC und DV berechnen, um verschiedene Rhythmusklassen zu unterscheiden. Auch wenn damit geklärt ist, welche Sprachsignaleigenschaften primär für die perzeptive Unterscheidung verschiedener Sprachen sind, bleibt doch die Frage offen, ob diese Diskrimination, wie in Kapitel 2.2 bereits erörtert, wirklich auf der Basis als rhythmisch zu bezeichnender Eigenschaften erfolgt.

Bezüglich des Ereignischarakters gesprochener Sprache stellt sich die Frage, wo auf der Zeitachse des Sprachsignals die rhythmischen Schläge dem Hörerempfinden nach liegen und welche akustischen Parameter ihre Wahrnehmung bestimmen. Allen (1972) ermittelte durch Mittast- und Klickplatzierungsexperimente bei Stimuli des Englischen den Vokalonset einer Silbe als Ort des rhythmischen Schlages, wobei diese Position bei Zunahme der Zahl der silbeninitialen Konsonanten leicht nach vorne rückte. Die Versuchspersonen reagierten dabei so, als ob der Silbenschlag kein Punkt, sondern ein breites Intervall von etwa 200 ms wäre. Allen vermutet, dass die ballistischen Impulse akzentuierter Silben wahrscheinlich die grundlegenden Ereignisse sind, um die herum ein Sprecher den Sprechrhythmus organisiert. Des Weiteren wurde beobachtet, dass die Schlagposition mit größerer Übereinstimmung gesetzt wurde, je stärker die Akzentuierung der betreffenden Silbe war. Diesen Effekt sieht Allen als wesentlichstes Kennzeichen des englischen Akzentrhythmus an. Akzentuierte Silben sind somit die Schläge des Englischen. Mit den Ergebnissen, so vermutet der Autor, können Veränderungen der Länge rhythmischer Intervalle als Funktion der Veränderung der lexikalischen, phonetischen oder prosodischen Struktur innerhalb und außerhalb der Intervalle gemessen werden. Der Akzentuierung kommt hier die duale Rolle der syntaktischen Disambiguierung (Kompetenz) und Rhythmusbildung (Performanz) zu, wobei beide Bereiche sich überlagern. Den Begriff des Rhythmus schließlich definiert der Autor kurz als „Rhythm is the structure of intervals in a succession of events.” (Allen, 1972: 72).

Morton, Marcus und Frankish (1976) stellten fest, dass onset-isochrone Sprachstimuli nicht als isochron wahrgenommen werden, was sie zu der Annahme führte, dass es einen Zeitpunkt des psychologischen Auftretens eines Sprachstimulus geben muss, der vom physikalischen Onsetzeitpunkt abweicht. Für diesen Ort im Signal prägten sie den Begriff des P-center. Es zeigte sich, dass das P-center im Wesentlichen mit der von Allen (1972) ermittelten Schlagposition im Konsonant-Vokal Übergang einer Silbe korrespondiert. In der Folgezeit sind Versuche unternommen worden, das P-center anhand verschiedener Modelle zu prädizieren. Marcus (1981) macht die P-center Position von der Dauer der initialen Konsonanz und des Silbenreims abhängig, Howell (1984; 1988) sieht die Amplitudenverteilung innerhalb einer Silbe als bestimmenden Faktor an (Center of Gravity Modell) und Pompino-Marschall (1989) versucht das P-center anhand eines auf der Berechnung spezifischer Lautheiten basierenden psychoakustischen Modells vorherzusagen. Janker (1995) hat diese drei Prädiktionsmodelle anhand der Ergebnisse seiner selbst ermittelten Mittast- und Adjustierungsergebnisse bezüglich ihrer Vorhersageleistung evaluiert. Die beste Prädiktionsleistung erbrachte dabei das Center of Gravity Modell von Howell. Dennoch konnte keines der drei Modelle die P-center Position hinreichend erklären. Daraufhin untersuchte Janker die prosodischen Eigenschaften seiner Daten an der P-center Position mit dem Schluss, dass Veränderung im Allgemeinen ereignisbildende Funktion hat, sowohl was den Amplituden- als auch den Grundfrequenzverlauf betrifft. Den Begriff des Ereignisses definiert Janker wie folgt:

„Ein Vorgang, der von einem, wie auch immer gearteten, wahrnehmenden System registriert und von diesem durch Gewichtung erkennbarer Eigenschaften in benennbarer, systematischer Weise einer Kategorie oder Klasse zugeordnet wird. Das Ereignis ist damit an die diskriminativen Fähigkeiten des Systems gebunden.“ (Janker, 1995: 16)

Überdies definiert der Autor hieran anknüpfend ebenfalls den Begriff des Rhythmus, indem er schreibt:

„Rhythmus konstituiert sich als vom wahrnehmenden System erkannte Struktur einer Folge von Ereignissen. Er ist damit an die für Ereignisse geltenden Einschränkungen gebunden und die Abfolge der Ereignisse muss eine dem wahrnehmenden System vermittelbare Struktur aufweisen. Das heißt, die einzelnen Ereignisse müssen hinreichend nahe beieinander liegen, damit eine Gruppierung stattfinden kann, und das zugrundeliegende Abfolgemuster darf nicht zu komplex sein.“ (Janker, 1995: 16)

Janker merkt an dieser Stelle kritisch an, dass ein Notationsmodell für den Sprechrhythmus bislang noch fehlt.

Dass Rhythmus perzeptiv jedoch kein von der segmentalen Ebene unabhängiger Parameter ist, zeigt Martin (1979). Er manipulierte die Dauern einzelner Segmente von Nonsenssätzen in der Art, dass eine Tempoänderung und damit auch eine rhythmische Änderung der gesamten Äußerung wahrgenommen werden konnte. Bei Hörtests zeigte sich, dass Probanden eine gegenüber den nicht manipulierten Stimuli verlängerte Reaktionszeit auf ein vorher definiertes Zielsegment hatten. Dieser Effekt erstreckte sich über eine Spanne von bis zu vier Silben zwischen manipuliertem Segment und Zielsegment. Ein Hörer erwartet demnach akustisch intaktes Sprachmaterial, wobei er seine Hörerwartung schon bei Wahrnehmung der ersten Silbe einer Äußerung aufbaut. Eine Trennung von prosodischer und segmentaler Ebene findet dabei nicht statt[2].

Bei einer tempobezogenen Betrachtung des Sprechrhythmus hängt dessen Wahrnehmung im Wesentlichen von der Sprechrate ab. Es stellt sich dabei die Frage, wie die Sprechrate definiert werden soll. Nach Pfitzinger (1996) läßt sich die globale Sprechrate (Segmentzahl pro Zeit bezogen auf die gesamte Äußerung) von der lokalen Sprechrate (Segmentzahl pro Zeit bezogen auf ein Fenster innerhalb der Äußerung) abgrenzen. Als geeignete Segmente zur Sprechratenbestimmung werden im Allgemeinen Silben bzw. Phone herangezogen. Pfitzinger (1998; 1999) zeigt, dass die lokale Sprechrate (bezogen auf Fenster mit 625 ms Breite) weder ausschließlich auf Basis von Phonen noch ausschließlich auf Basis von Silben bestimmt werden kann, sondern dass Silbenrate und Phonrate trotz ihrer hohen Korrelation untereinander einen voneinander unabhängigen Beitrag zur Sprechrate leisten. Hierzu maß Pfitzinger zunächst die wahrgenommene lokale Sprechrate, um sie ins Verhältnis zur Silben- und Phonrate zu setzen. Die höchste Korrelation mit der wahrgenommenen Sprechrate erzielte dabei eine Linearkombination aus Phon- und Silbenrate. Zudem erwies sich die mittlere Grundfrequenz des jeweiligen Stimulus als zusätzlicher Faktor, um die Prädiktion der wahrgenommenen Sprechrate zu verbessern. Die Tempobezogenheit des Sprechrhythmus halten Duarte et al. (2001) allerdings für vernachlässigbar. In ihrer Studie zeigte sich, dass die Sprechrate, zumindest im untersuchten Sprachmaterial, kein wichtiger Faktor für den Rhythmus von Sprachen ist. Bezogen auf das Maß %V/DC zeigte sich jedoch ein Einfluß der Sprechrate auf die Dimension DC (Dellwo & Wagner, 2003). Die Dimension %V dagegen bleibt weitestgehend unbeeinflusst von der Sprechrate.

Benkwitz (2004) hat eine kontrastive phonetische Untersuchung zum Rhythmus mit Britischem Englisch als Ausgangssprache und Deutsch als Zielsprache durchgeführt. Sie geht dabei von der folgenden Rhythmusdefinition aus:

„Daher verstehe ich in dieser Arbeit unter Rhythmus die Schwer-Leicht-Struktur, die bei der Produktion sowie der Rezeption des Sprechflusses durch die Abfolge miteinander kontrastierender Silben einschließlich Pausen entsteht. […] Rhythmuskonstitutiv sind also die Position und Art der Realisierung aller Silben, unabhängig von zeitlich regelmäßiger Platzierung. Realisation und Position der Akzente werden von sprach - sowie textsortenspezifischen, situativen und individuellen Gegebenheiten bestimmt.“ (Benkwitz, 2004: 42)

Ferner geht Benkwitz davon aus, dass Rhythmus für einen Hörer dann entsteht, wenn er einen Kontrast bzw. eine Veränderung des Abstandes zwischen den Silben des Sprechflusses wahrnimmt und ihn dadurch als gegliedert empfindet. Zudem stellt die Autorin fest, dass die Akzentwahrnehmung nicht rein phonetisch ist, sondern zusätzlich grammatisch-semantisch determiniert ist. Außerdem unterscheiden sich Länge und Häufigkeit von Pausen zwischen deutschen und englischen Sprechern beim Lesen von Prosa nur geringfügig bzw. gar nicht. Darüber hinaus sind die Ketten unbetonter Silben im Englischen kürzer als im Deutschen. Des Weiteren ist die Akzentisochronie textsortenabhängig: die Regelmäßigkeit der zeitlichen Verteilung der Akzente ist bei Spontansprache am geringsten, bei den untersuchten Limericks (metrisch gebundene Rede) am größten und liegt bei den ausgewerteten Prosatexten (metrisch ungebundene Rede) im mittleren Bereich. Benkwitz betont dabei, dass Rhythmus nicht rein temporal zu verstehen ist, sondern ein Komplexphänomen ist, zu dem auch melodische und dynamische Erscheinungen gehören. Für ihre eigenen empirischen Untersuchungen geht Benkwitz (2004) davon aus, dass beim Rhythmus auditive Analysen messphonetischen vorzuziehen sind. Somit untersuchte Benkwitz die Akzenthäufigkeit, die zeitliche Verteilung der Akzente, die Beteiligung der Lautstärkevariation, Tonhöhenvariation und Dehnung an der Akzentuierung. Diese Phänomene wurden dabei auf einer 6-stufigen Skala von sehr schwach (1) bis sehr stark (6) perzeptiv beurteilt. Eine erste Versuchsreihe zum Vergleich der Rhythmisierung deutscher und englischer Muttersprachler prüfte dabei unter Zuhilfenahme statistischer Signifikanztests fünf Hypothesen:

- Hypothese 1/I: Die englischen Muttersprachler setzen generell mehr Akzente als die deutschen Sprecher.
- Hypothese 2/I: Die englischen Sprecher setzen Akzente in perzeptuell gleichmäßigeren zeitlichen Abständen als die deutschen Muttersprachler.
- Hypothese 3/I: Lautstärkevariationen spielen in beiden Sprachen eine gleich große Rolle für die Akzentwahrnehmung.
- Hypothese 4/I: Tonhöhenvariationen tragen in beiden Sprachen in gleichem Maße zur Wahrnehmung der Akzente bei.
- Hypothese 5/I: Die englischen Probanden dehnen Akzentsilben generell mehr als die deutschen.

Die Hypothesen 1/I und 5/I konnten durch die Untersuchungen in vollem Umfang bestätigt werden. Die Hypothese 4/I ist lediglich für Prosatexte (mit Einschränkungen) und Spontansprache bestätigt worden. Die Hypothesen 2/I und 3/I schließlich sind durch die Tests abgelehnt worden. Des Weiteren ist eine zweite Versuchsreihe zum Vergleich der Rhythmisierung bei deutschen Muttersprachlern und britischen Deutsch Lernern durchgeführt worden. Dabei sind die folgenden sechs Hypothesen getestet worden:

- Hypothese 1/II: Die englischen Deutsch Lernenden bilden beim Lesen von Prosatexten in deutscher Sprache im Durchschnitt kleinere Rhythmusgruppen als die deutschen Sprechern.
- Hypothese 2/II: Die englischen Studenten setzen beim Lesen von Prosatexten mehr Akzente als die deutschen Muttersprachler. Beim Lesen von Prosatexten und Limericks sowie bei spontan produzierten Äußerungen wird die Akzentzahl von den deutschen Hörern als zu hoch empfunden.
- Hypothese 3/II: Der Lautstärkekontrast zwischen betonten und unbetonten Silben wird beim Lesen von Prosatexten von den englischen Deutsch Lernenden stärker realisiert als von den deutschen Probanden und bei allen drei Textsorten von den deutschen Hörern als zu groß beurteilt.
- Hypothese 4a/II: Bei den Studierenden sind Tonhöhenvariationen bei gelesenen Texten (Prosatexte und Limericks) in qualitativer Hinsicht zu stark an der Akzentuierung beteiligt.
- Hypothese 4b/II: Bei spontan produzierten Äußerungen hingegen sind Tonhöhenvariationen qualitativ nicht zu stark an der Akzentuierung beteiligt.
- Hypothese 5/II: Die Deutsch Lernenden dehnen Akzentsilben mehr als die deutschen Sprecher. Das kann bei kurzen (offenen) Vokalen zu segmentalen Fehlern führen.
- Hypothese 6/II: Die englischen Studenten produzieren reduzierte Vokale z.T. an Stellen, an denen es im Deutschen nicht üblich ist.

Die Hypothesen 1/II, 2/II, 4b/II, 5/II und 6/II konnten bestätigt werden. Die Hypothesen 3/II und 4a/II dagegen mussten abgelehnt werden. Benkwitz folgert, dass eine globale Zuordnung von Sprachen zu den Rhythmustypen nicht ausreichend für ihre Beschreibung und die Arbeit im Phonetikunterricht für Sprachlerner ist. Der Klang einer Sprache wird wesentlich durch z.B. die Häufigkeit der (Äußerungs-)Akzente und Akzentsilbendehnungen geprägt. Außerdem ist die Akzentisochronie textsorten- und sprecherabhängig. Es zeigte sich überdies, dass es sehr wohl zu Interferenzen im Bereich der Rhythmisierung kommt, wenn Briten Deutsch sprechen. Es fiel besonders auf, dass die Lerner signifikant weniger Akzente als die englischen Probanden, jedoch mehr Akzente als die deutschen Muttersprachler setzten. Für die Arbeit mit Briten im Fremdsprachenunterricht Deutsch sollten demnach vier Schwerpunkte besondere Aufmerksamkeit erfahren: die Rhythmusgruppengröße, die Akzenthäufigkeit und –lokalisation sowie die Länge und Qualität der Vokale in Akzentsilben.

2.4 Sprechrhythmus und Lyrik

Wie die Darstellungen in den Abschnitten 2.1, 2.2 und 2.3 gezeigt haben, gibt es zum Teil sehr unterschiedliche Interpretationen und Betrachtungsperspektiven des Sprechrhythmus. Daher ist das Aufstellen einer prosodischen Taxonomie nirgendwo so schwierig wie im Bereich Rhythmus (Cummins, 2002). Eine mögliche Ursache für die schlechte Erfassbarkeit von Sprechrhythmus ist, dass das rhythmische Prinzip der Sprache zwar produktiv stets beachtet wird, sich jedoch anderen Organisationsprinzipien unterordnet. Es stellt sich demnach die Frage, ob es Sprechsituationen oder Sprechstile gibt, die der Rhythmik der Sprache eine höhere Priorität einräumen. Als geeigneter Kandidat für eine solche rhythmische Sprechweise wird vielfach der lyrische Sprechstil betrachtet.

2.4.1 Motivation

Kohler urteilt über das rhythmische Prinzip der Sprache:

„Beim Lesen tritt es viel deutlicher hervor als im freien Sprechen, und schließlich erfährt es seine weiteste Stilisierung und strikteste Befolgung in der Poesie. Für Metrik und Verslehre eröffnet sich damit eine interessante Sichtweise und ein neuer Forschungsansatz.“ (Kohler, 1982: 103)

Lehiste (1990) vertieft diese Sichtweise noch, indem sie davon ausgeht, dass sich das prosodische System einer Sprache in der metrischen Struktur seiner traditionellen Lyrik kristallisiert. Danach manifestiert sich in der Lyrik das suprasegmentale System einer Sprache mit seinen optimalen Oppositionen. Auf Grundlage dieser Hypothese betrachtet Lehiste die Lyrik als wesentlichen Gegenstandsbereich für die Sprechrhythmusforschung:

„To understand better the rhythm of spoken language, one should look at the rhythmic structure of poetry developed in that language over the years; patterns that may be imperfectly realized in prose may be manifested in a more regular fashion in poetry.“ (Lehiste, 1990: 123)

Demgemäß wird propagiert, dass eine Reihe von für die Rhythmusforschung wichtigen Phänomenen anhand lyrischer Daten zu untersuchen sind. Allen (1972) sieht in der Lyrik den nächstgelegenen Ort für die Auffindung von Evidenz bezüglich der rhythmischen Schläge von Sprache:

„The most obvious place to look for evidence concerning the beats of speech rhythm is poetry, since we can paraphrase Orwell’s pigs and say ‘Poetry is like speech, only more so’. Poets use naturally occurring phenomena to their artistic advantage; one of those phenomena is speech rhythm, which they creatively select to fit some metrical scheme.” (Allen, 1972: 73)

Auch das in Abschnitt 2.2 skizzierte entrainment Phänomen sowie der damit einhergehende harmonic timing effect sollen in der Lyrik besonders augenscheinlich sein (Port, Tajima & Cummins, 1999). Zudem erwartet Kohler (1983), dass die Kompression von Akzentfüßen beim Lesen rhythmisch stilisierter Lyrik stärker ist als bei Prosa. Schließlich wird die rhythmische Analyse lyrischer Sprechweise zusätzlich durch die Beobachtung motiviert, dass die Dauer von Verszeilen in der gleichen Größenordnung liegt wie biologische action units, die eine Dauer von etwa 1-4 s besitzen (Kien & Kemp, 1994). Eine action unit wird dabei auf Basis ihrer unmittelbaren Zielsetzung als Gruppe von motorischen Bewegungen mit funktionaler Beziehung zueinander verstanden. Diese semantische Definition legt nahe, dass action units die grundlegenden semantischen Einheiten menschlichen Verhaltens allgemein darstellen. Demgemäß betrachten Turner & Pöppel (1983) die lyrische Verszeile als eine semantische Einheit mit innerer Kohärenz. Ihre Analyse eines Korpus von 200 Gedichten des Deutschen zeigte, dass 73% der untersuchten Verszeilen innerhalb des Zeitintervalls von 2-3 s lagen. Daraufhin verifizierten Kien & Kemp (1994) dieses Ergebnis und ermittelten für die Versdauern von 6 deutschsprachigen Gedichten Werte zwischen 0.5 s und 2.5 s mit einem Median von 1.7 s. Kien & Kemp (1994) folgern, dass die Verszeile als eine Einheit äquivalent zu den action units von Lebewesen gesehen werden kann, wobei die enge Verwandtschaft zwischen Lyrik und Handlung zeigt, dass sich das Sprachsystem sowohl phylogenetisch als auch ontogenetisch aus dem motorischen System entwickelt hat.

2.4.2 Ergebnisse

Trotz der starken Motivation für die Analyse der Rhythmizität lyrischer Sprache sind hierzu bislang nur wenige Untersuchungen durchgeführt worden. Nord, Kruckenberg & Fant (1990) formulieren als wesentliche Fragestellungen einer solchen Untersuchung, welches die rhythmischen Entitäten sind, wie groß die zeitliche Akkuratheit bezüglich der Produktion und Perzeption eines rhythmischen Impulses ist, welche Korrespondenz zwischen Rhythmus und Metrum besteht und welche Relevanz steigende und fallende Metren (jambischer vs. trochäischer Fuß) haben. Nach Fónagy (1960) kann die Unterscheidung von Metrum und Rhythmus in Analogie zur Dichotomie langue vs. parole betrachtet werden. So werden die beiden Begriffe auch im Fortlauf dieser Arbeit verwendet. Um diesen Fragen nachzugehen beschränken sich Nord, Kruckenberg & Fant (1990) jedoch zunächst auf eine akustische Analyse der Dauer. Ein Vergleich zwischen Prosa, Lyrik und Gesang strich als einziges bemerkenswertes Ergebnis für die Lyrik heraus, dass die schwache Silbe eines trochäischen Fußes relativ zur starken Silbe länger ist als die schwache Silbe eines jambischen Fußes. Hiermit wird eine Beobachtung bestätigt, die auch schon Newton (1981) anführt. Darüber hinaus legt Newton dar, dass die Dauern jambischer Füße insgesamt länger sind als die Dauern trochäischer Füße. Die größere Dauer des akzentuierten Segments des jambischen Fußes ist dabei entscheidend für seine Perzeption als Endsegment der jeweiligen rhythmischen Einheit. Dieser Effekt korrespondiert mit der allgemein in Endsegmenten auftretenden finalen Längung. Für die Perzeption des akzentuierten Segments des Trochäus als Anfangssegment hingegen ist seine erhöhte akustische Intensität von entscheidender Bedeutung. Diese Erkenntnis steht damit in Einklang mit den in Abschnitt 2.3 dargelegten perzeptiven Gruppierungsphänomenen nichtsprachlicher akustischer Stimuli. Lehiste (1990) kann für das Lettische und Estnische bestätigen, dass die Gedichtzeile eine Einheit der zeitlichen Organisation darstellt, innerhalb derer zeitliche Kompensation stattfindet. Für das Lettische kann sie sogar zeigen, dass die Dauern metrischer Füße annähernd konstant, d. h. isochron gehalten werden.

Die akustisch-phonetischen Charakteristika lyrischen Sprechstils haben Kruckenberg & Fant (1993) untersucht. Sie gehen davon aus, dass ein Sprecher beim Wissen, Lyrik zu rezitieren, eine spezielle sich akustisch manifestierende Attitüde entwickelt. In der Untersuchung wurde ein Vergleich zwischen Gedichten des Schwedischen für Jambus und Trochäus jeweils in prosaischem und lyrischem Sprechstil vorgenommen. Es zeigte sich, dass lyrischer Sprechstil vor allem durch ein deutlich geringeres und stabileres Sprechtempo, höhere Grundfrequenz- und Intensitätswerte sowie eine geringere Modulationstiefe bei lokalen Grundfrequenzvariationen gekennzeichnet ist. Zudem fällt die Grundfrequenz bei lyrischer Leseweise versfinal nicht ab. Bezüglich der einzelnen Versfüße stellen Kruckenberg & Fant heraus, dass die Fußdauern von Jambus und Trochäus trotz des geringeren Sprechtempos etwa den Dauern prosaischer Füße entsprechen. Außerdem besitzen die metrischen Fußdauern eine geringere Streuung als die entsprechenden prosaischen Einheiten. Überdies sinkt die Dauer eines metrischen Fußes linear mit der Position innerhalb des Verses. Beim Wechsel vom prosaischen zum lyrischen Sprechstil steigt die Dauerrelation von unakzentuierter zu akzentuierter Silbe beim Jambus gegenüber dem Trochäus an. Analog dazu ist auch der Grundfrequenzkontrast zwischen unakzentuierter und akzentuierter Silbe beim Jambus größer als beim Trochäus. Darüber hinaus wirkt sich eine Emphase beim Trochäus auf einen Anstieg von Grundfrequenz, Dauer und Intensität auf der unakzentuierten Silbe, beim Jambus dagegen auf der akzentuierten Silbe aus. Auch der Rhythmus[3] lyrischen Sprechstils erwies sich als regelmäßiger als bei Prosa mit einer Tendenz zur Isochronie, was sich insbesondere anhand der rhythmischen Kontinuität über Gedichtzeilen hinweg zeigte. Die Kontinuität besteht dabei darin, dass sich die Dauern von eine Pause umfassenden Interakzentintervallen als ganzzahlige Vielfache der mittleren Dauer von Interakzentintervallen am Ende eines Verses ergeben, wobei die Pausendauer mit zunehmender Phonzahl im Intervall sinkt (vgl. Abschn. 2.2).

Barney (1999) weist auf das Problem der prosodischen Auswertung von Gedichten hin. Er konstatiert, dass bei der Analyse des rhythmischen Schlages zumeist die Intonationsmuster vernachlässigt werden, bei der Analyse der Melodie hingegen der Takt außer Acht gelassen wird. Es gibt Versuche, die Intonation als Mittel zur Disambiguierung lyrischer Verse zu benutzen. Allerdings ist die Bedeutung von Intonation in wesentlich stärkerem Maße ambig als die verbale Bedeutung bzw. Wortbedeutung. Die poetische Intonation ist aber durchaus als spezielle Variante der Prosodie zu verstehen. Die Toneinheiten entsprechen dabei in der Lyrik den Verszeilen, die etwa gleiche Länge besitzen. Barney stellt fest, es müsse eine neue Formel für die poetische Intonation gefunden werden. Es soll dabei die poetische Intonation von einem generellen mündlichen Performanzstil unterschieden werden. In diesem Rahmen schlägt der Autor vor, dass die Einheiten der nucleus group (vom Onset bzw. Akzent bis zum finalen Akzent bzw. Nukleus) und des tune (eine Grundfrequenzkontur mit einer oder mehr nucleus groups) Verwendung finden. Darüber hinaus beobachtet Barney in der Studie lyrischer Vorträge das Phänomen der zeitlichen Diskontinuität, d.h. am Ende einer Zeile oder Halbzeile stehen Pausen und finale Längung. Des Weiteren beobachtet er, dass Schauspieler Gedichte mit einer weiteren Grundfrequenzspanne vortragen als dieses etwa bei den Autoren selbst oder bei Studenten der Fall ist. Zudem sind Echos, d.h. die Wiederholung von Grundfrequenzmustern zur Bindung paralleler Segmente, zu beobachten. Insgesamt zeigt sich die Stilisierung der poetischen Intonation als klares Merkmal. Dabei bringen die spezifisch poetischen Merkmale die formale prosodische Struktur der Lyrik zum Ausdruck. Barney unterscheidet Merkmale der Performanz, nämlich eine langsame Sprechrate, eine tiefe durchschnittliche Grundfrequenz und einen engen Grundfrequenzumfang, von spezifisch lyrischen Merkmalen. Letztere sind im einzelnen kurze Toneinheiten, mehr Pausen, relativ gleich lange Einheiten und Echos zwischen Grundfrequenzmustern. Ein Echo wird hier als die Wiederholung von Grundfrequenzmustern z.B. zur Bindung paralleler Segmente verstanden. Beide oben genannten Merkmalskategorien verbindet das Auftreten von einfachen fallenden Melodien und einfachen fallenden Nuklei.

Tsur (1997; 2002a) stellt eine perzeptionsorientierte Theorie der Metrik und der rhythmischen Performanz von Lyrik vor. Er stellt die zentrale Frage, wie wir zwei Verszeilen, die sehr unterschiedlich in ihrer Struktur sind, als Instanzen desselben abstrakten Musters (z.B. jambischer Pentameter) erkennen, und wie wir eine metrische von einer unmetrischen Zeile unterscheiden. Das äußerste Limit der Rhythmikalität ist die Fähigkeit oder der Wille des Lesers die Verszeile rhythmisch darzustellen. Ein großes Problem besteht, wenn das Akzentmuster und das Metrum in Konflikt miteinander stehen. In diesem Fall bringt der Leser beides in einem dritten Muster der Performanz zusammen. Tsur sieht es als die elegante Lösung an, sowohl das Akzentmuster als auch das Metrum hörbar zu realisieren. Die messbare Zeit hat dem Autor zufolge wenig zu bieten, um den poetischen Rhythmus näher zu beleuchten. Danach basiert der poetische Rhythmus nicht auf gleichen oder proportionalen Zeitintervallen, er basiert vielmehr auf einem abstrakten Muster, welches irgendwie im wahrnehmenden Bewusstsein existiert. Manchmal wird es durch wahrgenommene Akzente bestätigt, manchmal auch nicht. Zur Korrespondenz zwischen Metrum und Rhythmus sei an dieser Stelle erneut auf Fónagy (1960) verwiesen. Ein essentieller Teil von Tsurs Theorie ist die Überartikulation. Viele Prädiktionen der perzeptionsorientierten Theorie werden im Sinne von Gruppierung und Überartikulation gemacht. Eine Gruppierung impliziert Kontinuität, Überartikulation dagegen weist auf Diskontinuität hin. Hierbei ist der stärkste Verursacher der Gruppierung ein später Gipfel in der Intonationskontur. Darüber hinaus ist die rhythmische Performanz aufeinanderfolgender Akzente und Akzentmaxima in schwacher Position wichtig für die perzeptionsorientierte Theorie von Tsur. Letzten Endes kann jedoch nur durch Hören herausgefunden werden, was die Qualität des Ganzen ist, kontinuierlich, diskontinuierlich oder eben beides. Wenn ein Leser gebeten wird eine Zeile rhythmisch zu lesen, so dass sowohl das Akzentmuster als auch das Metrum so gut es eben geht bewahrt werden, neigt der Leser dazu, die letzten vier Silben emphatisch zu gruppieren und die Gruppe vom vorhergehenden Kontext abzusetzen. Diese perzeptive Gruppe heißt Akzenttal (stress valley). Es zeichnet sich dadurch aus, dass zwei unakzentuierten Silben eine akzentuierte Silbe vorausgeht und eine weitere akzentuierte Silbe nachfolgt. Ein Akzenttal kann dazu dienen, ein Akzentmaximum in einer schwachen Position anzupassen. Zum Begriff des Akzentes ist dabei zu sagen, dass Tsur (1997) den akustischen Parameter der Dauer als effektives Merkmal für Akzentuierung ansieht.

Außerdem diskutiert Tsur (2002b) Aspekte der kognitiven Lyrik (cognitive poetics). Die kognitive Lyrik geht davon aus, dass lyrische Texte nicht nur Bedeutung oder Gedanken transportieren, sondern auch emotionale Qualitäten, die der Leser perzipiert, aufweisen. Die Lyrik nutzt für ästhetische Zwecke kognitive Prozesse, welche sich ursprünglich für nichtästhetische Zwecke entwickelt haben. Tsur untermauert nochmals, dass die rhythmische Performanz von Lyrik eine Aktivität der Problemlösung ist. Wenn das linguistische Muster und das Versifikationsmuster in Konflikt miteinander stehen, wird ein drittes Muster der Performanz akkomodiert, d.h. beide Muster sind gleichzeitig wahrnehmbar. Das Muster der Versifikation existiert dabei nur im kognitiven System als ein metrischer Satz (metrical set), d.h. einer Erwartung. Der poetische Rhythmus besteht folglich aus drei gleichzeitigen Mustern: Versifikationsmuster, linguistisches Muster und Performanz. Tsur versucht, akustische Korrelate dieser Theorie aufzuzeigen. Leider wird seine Theorie dadurch nicht völlig plausibilisiert. Es kann dazu nur soviel geäußert werden, dass Tsur die phonetische Manifestation der Performanz, zumindest für das Englische, in gelängten Frikativen und dem Vorhandensein von Glottalverschlüssen vor Vokalen vermutet.

2.5 Fazit

Obiger Überblick zeigt, dass schon seit Jahrzehnten auf dem Gebiet des Sprechrhythmus geforscht wurde. Während dieser Zeit ist die Existenz der strengen Isochronie, zumindest als produktives Phänomen, widerlegt worden. Außerdem sind mit %V/DC akustische Korrelate zur Rhythmusklassenunterscheidung gefunden worden. Es bleibt aber die Frage offen, welche akustischen Merkmale die Perzeption von Rhythmus bestimmen. An dieser Stelle muss noch Forschungsarbeit geleistet werden. Abschnitt 2.4 legt dar, dass der lyrische Sprechstil möglicherweise eine leichtere Erfassbarkeit des Sprechrhythmus zulässt und deshalb einen besonders geeigneten Forschungsgegenstand darstellt. An dieser Stelle knüpfen die empirischen Untersuchungen der vorliegenden Arbeit an.

3 Zum Begriff der Prosodie

Wie bereits Kapitel 2 gezeigt hat, manifestiert sich der Sprechrhythmus, auch wenn er nicht vollkommen unabhängig von der segmentalen Ebene ist, vor allem in der Prosodie der Sprache. Deshalb soll an dieser Stelle auf den Begriff der Prosodie eingegangen werden. In diesem Kapitel soll jedoch kein allgemeiner Literaturüberblick zu Arbeiten im Bereich der Prosodieforschung gegeben werden. Da der Begriff der Prosodie in der Literatur nicht einheitlich verwandt wird, soll stattdessen vielmehr versucht werden, den Begriff der Prosodie inhaltlich von verschiedenen Seiten zu beleuchten. In Abschnitt 3.1 wird die Definierbarkeit des Begriffes Prosodie erörtert. In Abschnitt 3.2 wird die Funktion der Prosodie diskutiert.

3.1 Definierbarkeit

Sonntag (1999) weist darauf hin, dass die Prosodie zumeist als Teilbereich der Metrik gesehen wird. Zur Metrik von Prosa und dem damit einhergehenden Prominenzbegriff sei auf Wagner (2002) verwiesen. Es beschäftigen sich Vertreter der verschiedensten Fachrichtungen vom Phonetiker über den Psychologen bis hin zum Ingenieur mit dem Gebiet der Prosodie. Sonntag (1999) macht das Problem der Definition von Prosodie aber vor allem an drei Punkten fest:

1. Vorhandensein ausschließender Definitionen und wechselseitige Verweise der Begriffe Prosodie, Intonation und Suprasegmentalia
2. komplexes Zusammenspiel von artikulatorischen, akustischen und auditiven Komponenten
3. prosodische Relevanz: prosodische Funktionen werden in der Definition oft nur implizit angesprochen

Klarheit hingegen herrscht darüber, dass die akustischen Größen Grundfrequenz, Dauer und Intensität die drei Wahrnehmungsgrößen Tonhöhe, subjektive Dauer und Lautheit beim Hörer hervorrufen.

Des Weiteren stellt sich das Problem, ob der Prosodie ausschließlich linguistische oder auch para- und extralinguistische Phänomene zuzuordnen sind. Dabei ist noch nicht einmal klar, welche Phänomene welcher der drei Kategorien zuzuordnen sind. Man könnte beispielsweise annehmen, dass Räuspern, Lachen oder Seufzen extralinguistischen Charakter haben. Gleichzeitig kann aber durchaus geltend gemacht werden, dass die genannten Phänomene intentional vom Sprecher eingesetzt werden können. Damit lägen sie im Bereich der linguistischen Funktionalität. Eine Trennung der sich so überlagernden Bereiche kann nur theoretisch geschehen. Somit gelangt man zur Dichotomie von Phonetik und Phonologie, wobei jedes der beiden Gebiete einen anderen Prosodiebegriff hat. Die Phonologie hat eine abstrakte Sichtweise, die Phonetik dagegen eine konkrete Sichtweise auf die Prosodie. Sonntag (1999) betont allerdings, dass in jüngerer Zeit die Phonologie Evidenz in der Phonetik und die Phonetik ihren theoretischen Überbau in der Phonologie sucht. Dadurch wird die Abgrenzung dieser beiden Gebiete erschwert.

Abschließend für diesen Abschnitt seien zwei Definitionen von Prosodie unter den oben gemachten Einschränkungen angeführt. Die erste Definition ist einem Nachschlagewerk von Bußmann (1983) entnommen:

„Untersuchung sprachlicher Eigenschaften wie Akzent, Intonation, Sprechpausen u. a., die sich auf größere Einheiten als einzelne Phoneme beziehen bzw. diese überlagern. Man bezeichnet sie daher auch als suprasegmentale Merkmale. Die P. kann als Verbindung zwischen Phonologie und Syntax bezeichnet werden, insofern Silben, Wörter und Sätze ihr Untersuchungsgegenstand sind.“ (Bußmann, 1983: 417)

Die zweite Definition von Prosodie lautet nach Sonntag:

„Prosodie ist das gestalthafte Perzept, das durch die ’klassischen’ akustischen prosodischen Parameter Grundfrequenz, Dauer und Intensität evoziert wird.“ (Sonntag, 1999: 8)

Letztere Definition nach Sonntag soll wegen ihrer Konzentration auf die perzeptive Seite der Prosodie die für die vorliegende Arbeit maßgebende sein.

3.2 Funktion

Bezüglich der Funktion von Prosodie lässt sich feststellen, dass es auf der einen Seite sprecher- und sprachspezifisch unterschiedliche Formen mit zum Teil gleicher Funktion gibt, und auf der anderen Seite aber auch sprecher- und sprachunabhängige Normen existieren. Die sprecherunabhängigen Normen sind dabei eine notwendige Bedingung für die linguistische Funktionalität von Prosodie (Sonntag, 1999). Hierbei können inhaltliche, situative und sprecherbezogene prosodische Funktionen unterschieden werden. Die inhaltlichen Funktionen werden dabei in Akzentuierung und Phrasierung unterteilt, die situativen Funktionen untergliedern sich in Sprechereinstellung und Emotionen, und die sprecherbezogenen Funktionen schließlich geben Auskunft über den Sprecher. Es ist dabei jedoch wichtig, dass der Prosodie in den meisten Fällen lediglich eine unterstützende und keine allein disambiguierende Rolle zukommt.

3.3 Fazit

Kapitel 3 hat aufgezeigt, dass die Definition von Prosodie sehr schwierig ist. Dieser Umstand liegt vor allem in den wechselseitigen Verweisen zwischen Prosodie, Intonation und Suprasegmentalia sowie dem komplexen Zusammenspiel von artikulatorischen, akustischen und auditiven Komponenten begründet. Zudem ist strittig, ob der Prosodie ausschließlich linguistische oder aber auch para- und extralinguistische Sprachphänomene zuzuordnen sind. Für die Funktion von Prosodie sind die sprecher- und sprachunabhängigen Normen von großer Bedeutung. Inhaltliche, situative und sprecherbezogene prosodische Funktionen müssen unterschieden werden.

[...]


[1] Als Übersetzung des englischen Wortes stress wird an dieser Stelle der Begriff Akzent statt Betonung verwendet. Es wird damit der begrifflichen Übersetzung von Bußmann (1983) Folge geleistet. Sie betrachtet den englischen Terminus stress als dynamischen Akzent.

[2] Martin nimmt eine begriffliche Trennung von segmentaler und rhythmischer (hier also prosodischer) Ebene vor.

[3] Rhythmus wird von Kruckenberg & Fant (1993) als rein zeitliches Phänomen verstanden.

Ende der Leseprobe aus 129 Seiten

Details

Titel
Ein rhythmisch-prosodisches Modell lyrischen Sprechstils
Hochschule
Rheinische Friedrich-Wilhelms-Universität Bonn  (Institut für Kommunikationsforschung und Phonetik (IKP) - heute: Institut für Kommunikationswissenschaften (IfK))
Note
1,7
Autor
Jahr
2007
Seiten
129
Katalognummer
V160129
ISBN (eBook)
9783640737857
ISBN (Buch)
9783640737895
Dateigröße
2062 KB
Sprache
Deutsch
Schlagworte
Modell, Sprechstils
Arbeit zitieren
Jörg Bröggelwirth (Autor), 2007, Ein rhythmisch-prosodisches Modell lyrischen Sprechstils, München, GRIN Verlag, https://www.grin.com/document/160129

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Ein rhythmisch-prosodisches Modell lyrischen Sprechstils



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden