Grenztöne im Deutschen - eine empirische Studie spontansprachlicher Texte


Magisterarbeit, 2005

118 Seiten, Note: 1,1


Leseprobe


Inhalt

1 Einleitung

2 Zur Konstitution von Intonationsphrasen in gesprochener Sprache
2.1 Prosodie vs. Intonation
2.2 Die Intonationsphrase
2.3 Zu den Segmentierungskriterien
2.3.1 Reset, Pause, Sprechtempo
2.3.2 IP-finaler Grenzton
2.3.3 Weitere Segmentierungskriterien
2.4 Abbrüche und ambige IPen

3 Autosegmental-Metrische Phonologie
3.1 Die Grundannahmen der AM-Phonologie
3.2 Zu den Unterschieden der AM-Modelle für das Deutsche
3.2.1 Intermediärphrase vs. IP
3.2.2 Einige AM-Modelle für das Deutsche im Vergleich

4 Zur Verteilung der Grenztöne
4.1 IPen mit spezifischen Grenztönen – H% vs. L%
4.2 IPen mit unspezifischen Grenztönen
4.2.1 Gleichbleibende Grenztöne
4.2.2 Grenzakzente
4.3 Zuordnungsprobleme bei den Grenztönen
4.4 Zur Verteilung von Abbrüchen und ambigen IPen

5 Zusammenfassung

Literatur

Abbildungen und Tabellen

Abkürzungen und Symbole

1 Einleitung

Gesprochene Sprache wird vom Sprechenden in bestimmten Einheiten produziert. Diese Einheiten nimmt der Hörer aufgrund perzipierbarer prosodischer Signale als voneinander abgrenzbar und in sich kohärent wahr. Man bezeichnet diese Signale deshalb auch als Grenzsignale. Es sind in erster Linie intonatorische Phänomene wie Veränderungen im Tonhöhenverlauf und Variationen den Sprechrhythmus betreffend, die die Grenzsignale bilden. Aufgrund dieser Grenzsignale kann gesprochene Sprache in sogenannte Intonationsphrasen oder Intonationseinheiten segmentiert werden.

Eines der Grenzsignale, oder auch Segmentierungskriterien, ist die Veränderung der Tonhöhe auf einer unbetonten Silbe. Eine Tonhöhenbewegung auf einer unbetonten Silbe hat häufig zur Folge, dass man an dieser Stelle das Ende einer Äußerungseinheit empfindet. Demgegenüber werden Tonhöhebewegungen auf betonten Silben seltener als eingrenzendes Signal perzipiert. Abbildung 1 zeigt eine Äußerungseinheit, in der ein Anstieg der Tonhöhe auf einer unbetonten Silbe stattfindet (dieses Beispiel wird in Kap. 2.3.2 ausführlicher erörtert).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: krankenschwester 1:17-fertig

Die Äußerung bin ich um halb vier endlich fertig wird u. a. aufgrund des Tonhöhenanstiegs auf fertig als in sich kohärent und abgeschlossen empfunden. Eine daran angeschlossene Äußerung würde nicht mehr als zu dieser Einheit gehörig sondern als neuer, eigener Äußerungsabschnitt wahrgenommen werden, insbesondere dann, wenn diese Folgeäußerung mit einem Tonhöhenunterschied zum vorangehenden fertig beginnt. Der Tonhöhenanstieg auf der unbetonten Silbe in fertig kann als Grenzton – genauer, intonationsphrasenfinaler Grenzton – bezeichnet werden. Die Äußerung in Abbildung 1 wird also als eine Intonationsphrase definiert, die mit einer wahrnehmbaren spezifischen Tonhöhenbewegung auf einer unbetonten Silbe – daher als hörbarer Grenzton klassifizierbar – abgeschlossen wird. Intonationsphrasen können ebenso mit absinkenden Grenztönen enden.

Daneben können Intonationsphrasen auch aufgrund anderer Grenzsignale definiert werden, wie z. B. Pausen oder Variationen in der Sprechgeschwindigkeit an bestimmten Stellen, ohne dass ein hörbar steigender oder fallender Ton auf der finalen unbetonten Silbe der Intonationseinheit vorhanden ist: entweder realisiert der Sprecher einen konstant verlaufenden intonationsphrasenfinalen Tonhöhenverlauf, oder er akzentuiert die finale Silbe, sodass die intonationsphrasenfinale Tonhöhenbewegung nicht auf einer unbetonten Silbe stattfindet. In beiden Konstellationen ist keine spezifische Tonhöhenbewegung vorhanden, die von der vorangehenden Silbe bzw. von dem Akzentton unterscheidbar wäre. Das heißt, es ist kein eindeutig phonetisch begründbarer Grenzton im Sinne einer Tonhöhenbewegung auf einer unbetonten Silbe gegeben.

In den verschiedenen Theorien zur Beschreibung deutscher Intonation werden unterschiedliche Annahmen darüber gemacht, ob und in welchen Konstellationen man einen Grenzton postulieren muss. Zum einen wird für alle (nicht unterbrochenen) Intonationsphrasen ein Grenzton angenommen, unabhängig davon, ob dieser wahrnehmbar steigend/fallend ist, oder ob keinerlei perzipierbare spezifische Tonhöhenveränderung auf einer unbetonten intonationsphrasenfinalen Silbe vorhanden ist, wie z. B. bei konstant verlaufender Tonhöhe. Andere Modelle gehen wiederum davon aus, dass man den Intonationsphrasengrenzen mit gleichbleibendem Tonhöhenverlauf keinen Grenzton zuweisen sollte, und dass darüber hinaus nur in bestimmten Fällen ein steigender/fallender Grenzton anzunehmen ist.

Die vorliegende Arbeit differenziert zwischen den Intonationsphrasengrenzen mit spezifischem und unspezifischem finalem Tonhöhenverlauf und zeigt deren Verteilung in einem spontansprachlichen Korpus narrativer Monologe des Deutschen. Dabei werden einige der unterschiedlichen Beschreibungsmodelle für bestimmte intonationsphrasenfinale phonetische Konstellationen kritisch diskutiert. Es wird gezeigt, dass diese finalen Tonhöhenverläufe unterschiedlich erklärt werden können, wobei jedoch nur wenige dieser Erklärungsmodelle als endgültig empirisch nachgewiesen zu betrachten sind (Kap. 4.1 und 4.2). Aus diesem Grund soll die Beschreibung der Tonhöhenverläufe in der vorliegenden Studie möglichst wenige theoretische Implikationen über zugrunde liegende tonale Kategorien beinhalten. Darüber hinaus werden einige andeutungsweise vorhandene empirische Tendenzen hinsichtlich der Verwendung der jeweiligen Grenztöne herausgearbeitet. Bei einigen der in dem vorliegenden Korpus vorkommenden Intonationsphrasengrenzen ist deren Beschreibung mit gewissen Schwierigkeiten verbunden. Hier werden verschiedene bereits vorhandene Ansätze gegenübergestellt und anschließend ein eigener Lösungsvorschlag präsentiert (Kap. 4.3). Darüber hinaus werden unterbrochene Äußerungseinheiten von den standardgemäß abgeschlossen realisierten Intonationsphrasen abgegrenzt. Die unabgeschlossen anmutenden Einheiten werden ferner aufgrund des jeweilig unterschiedlich wahrnehmbaren Charakters tentativ in zwei Typen differenziert. Diese unterbrochenen Äußerungen klingen zwar unabgeschlossen, dennoch kann man sie in den meisten Fällen als eigene Intonationsphrase betrachten, da bestimmte Segmentierungskriterien vorhanden sind, die diese Einheiten als abgrenzbar von den adjazenten Äußerungsteilen erscheinen lassen (Kap. 4.4).

Als Grundlage für die Diskussionen in Kapitel 4 werden zunächst einige zentrale Begriffe der Intonationsforschung eingeführt sowie anschließend die wichtigsten Grenzsignale ausführlich anhand von Beispielen erläutert (Kap. 2). In Kapitel 2.4 werden die unterbrochenen Äußerungseinheiten definiert. Im Anschluss daran werden in Kapitel 3 die Prämissen und Beschreibungskategorien erläutert, auf denen die in Kapitel 4 verwendete formale Beschreibung der Tonhöhenverläufe basiert. Dabei werden die wesentlichen Unterschiede einiger Theorien, insbesondere die Divergenzen zwischen einer Auswahl neuerer Modelle zur Beschreibung der Intonation des Deutschen herausgestellt (Kap. 3.2). Diese Modelle dienen als Grundlage für die verschiedenen in Kapitel 4 diskutierten Ansätze zur Beschreibung bestimmter intonationsphrasenfinaler Tonhöhenverläufe.

2 Zur Konstitution von Intonationsphrasen in gesprochener Sprache

Zunächst werden einige der zentralen Begriffe aus der Intonationsforschung eingeführt. Einleitend wird die in der Literatur nicht immer übereinstimmende Differenzierung zwischen prosodie und intonation skizziert (Kap. 2.1). Von zentraler Bedeutung ist die intonationsphrase, eine Einheit, in die man gesprochene Sprache segmentiert. Sie gilt als eine grundlegende (prosodische) Einheit, ähnlich wie der Satz als grundlegende syntaktische Einheit in der Schriftsprache gesehen wird. Die Berechtigung der Intonationsphrase liegt darin, dass gesprochene Sprache in Einheiten produziert und perzipiert wird, die aufgrund von gewissen perzipierbaren Unterschieden in der Kohärenz jeweils voneinander abgrenzbar und identifizierbar sind. Diese Kohärenzunterschiede werden durch bestimmte prosodische Manifestationen bewirkt, bei denen Tonhöhenverlauf und Sprechrhythmus von entscheidender Bedeutung sind. Die prosodischen Manifestationen stellen die entscheidenden Kriterien dar, nach denen gesprochene Äußerungseinheiten in Intonationsphrasen segmentiert werden (segmentierungskriterien, siehe Kap. 2.3). Bei der Segmentierung gesprochener Sprache in Intonationsphrasen darf der Aspekt der Reliabilität einer Transkription nicht außer Acht gelassen werden, denn bei aller empirischer Rechtfertigung, die diese Segmentierungskriterien aufweisen, verläuft die Segmentierung eines Textes keinesfalls immer mit hundertprozentiger Sicherheit in absoluter Übereinstimmung zwischen verschiedenen Transkribenten untereinander. Zuweilen sind die prosodischen Kriterien, die die Kohärenzunterschiede bewirken, weniger deutlich vorhanden, sodass eine Intonationsphrase nicht immer eindeutig abgrenzbar erscheint.

Eine Intonationsphrase kann auch als "unvollständige" Einheit wahrgenommen werden, wenn eine Äußerung unterbrochen wird. Die Vollständigkeit einer Intonationsphrase wird zwar von vielen Intonationsforschern relativ klar definiert, aber es stellt sich heraus, dass diese Definition in spontansprachlichen Korpora nicht immer haltbar ist (siehe Kap. 2.4). Daher werden die Begriffe '(Un-)Vollständigkeit' fortan unter Vorbehalt verwendet.

2.1 Prosodie vs. Intonation

prosodie und intonation werden teilweise uneinheitlich definiert. Selting (1995) fasst prosodie zusammen als

[...] Oberbegriff für diejenigen suprasegmentalen Aspekte der Rede, die sich aus dem Zusammenspiel der akustischen Parameter Grundfrequenz (F0), Intensität und Dauer in silbengroßen oder größeren Domänen ergeben. (S. 1)

Akustische Parameter werden als physikalische, messbare Parameter verstanden. Nach Schuetze-Coburn (1994) sind die auditiven, also perzipierten Korrelate der Grundfrequenz F0, der Intensität und der Zeit die Tonhöhe ('pitch'), Lautheit/Lautstärke ('loudness') und Dauer ('duration') (S. 54). Vergleicht man Schuetze-Coburns und Seltings Zusammenfassungen, zeigt sich, dass die Dichotomie akustische vs. auditive Parameter nicht immer einheitlich gesehen wird ('Dauer' wird von Selting als akustischer Parameter gesehen). Ladd (1996) sieht die Parameter Grundfrequenz (F0), Intensität und Dauer in ihrer Eigenschaft als Suprasegmentalia als wesentliche Parameter der Intonation (Ladd 1996:6).[1] Auch in Trask (1996) werden u. a. diese Parameter für die Definition von Intonation verwendet. Intonation wird zusammengefasst als

[t]he use of pitch, and possibly of additional prosodic phenomena such as loudness, tempo and pauses over a stretch of utterance generally longer than a single word for the purpose of conveying meaning. (S. 184).

Selting (1995) ordnet also dem Begriff prosodie als Oberbegriff, der Intonation als untergeordnet umfasst, die gleichen Parameter zu, die u. a. Ladd (1996) für seine Definition des Begriffs intonation verwendet. Inwieweit die Termini prosodie und intonation jeweils als Ober- und Unterbegriff verstanden werden müssen, soll hier nicht weiter problematisiert werden. Im folgenden wird prosodie hyperonymisch verwendet und schließt intonation als den Bereich mit ein, in dem der Tonhöhenverlauf als der wichtigste Parameter gilt. Ungeachtet der leicht divergierenden Sichtweisen sieht man weitestgehend übereinstimmend die suprasegmentalen Parameter Grundfrequenz (F0)/Tonhöhe, Intensität/Lautstärke, Zeit/Dauer (mit den Kriterien Pause und Sprechgeschwindigkeit) als die wichtigsten Parameter in der Intonationsforschung (Schuetze-Coburn 1994:54).

2.2 Die Intonationsphrase

Gesprochene Sprache wird oft nicht in schriftsprachlich wohlgeformten Sätzen realisiert, sondern es werden bestimmte Einheiten produziert und perzipiert, die nicht immer als syntaktisch abgeschlossen gelten. Diese Einheiten sind als natürlich bedingte produzierte (und perzipierte) Segmente des Sprachflusses zu sehen, da sie durch die z. T. biologisch bedingte Notwendigkeit von Unterbrechungen gebildet werden. Diese Unterbrechungen sind zum einen durch die Atmung des Sprechenden bedingt, zum anderen – vereinfacht formuliert – durch die kognitiv konditionierte Notwendigkeit, die gesamte Information einer Äußerung sukzessive in etwa 1-2 Sekunden langen Segmenten zu produzieren (Schuetze-Coburn 1994:69). Das heißt, es ist für den Sprecher "einfacher", die Information auf diese Weise zu übermitteln, und dem Hörer erleichtert es das Erfassen und Verstehen der Äußerung. Diese Segmente werden vom Sprecher durch bestimmte rhythmische Regelmäßigkeiten (z. B. Pausen) und Tonhöhenbewegungen kenntlich gemacht. Mit anderen Worten, der Sprecher kodiert die Information in bestimmten phonetischen Mustern, die der Hörer wahrnimmt und die es ihm erleichtern, die Äußerung in der vom Sprecher intendierten Weise zu verstehen.[2] Schuetze-Coburn (1994) sagt, dass genau diese phonetischen Muster darauf hinweisen, wie natürlich gesprochene Sprache segmentiert werden sollte:

[T]he phonetic regularities inherently present in spoken language provide sufficient clues as to what kind of unit(s) should be established for the analysis of natural discourse. In general terms, this regularity includes recurrent patterns of prosodic features which help structure the discourse in various ways [...].

(S. 57)

Weiterhin sagt er, dass es sich bei dieser Art der Einheit um "the unit reflecting the local organization of connected speech which is based on some of the perceived properties of the acoustic signal" (ebd.) handelt. Es sollte also das "akustische Signal", genauer, die Prosodie sein, die bei der Identifizierung und Konstitution dieser Einheiten entscheidend ist; die Syntax spielt demnach eine untergeordnete Rolle. Bei diesen prosodischen Kriterien ist die Intonation von besonderer Relevanz. In der neueren Diskurs- und Intonationsforschung hat sich diese Sichtweise durchgesetzt. Man segmentiert gesprochene Sprache in intonationseinheiten oder auch intonationsphrasen[3] (fortan IPen) primär aufgrund prosodischer Kriterien, wie es z. B. auch Tao (1996) in seiner Studie zum Chinesischen, einer Tonsprache, vollzieht. Tao betont die Unabhängigkeit der IP (bei ihm 'intonation unit') von der syntaktischen und semantischen Struktur der zu segmentierenden Äußerung:

The intonation unit proposed for natural discourse [...] is a perceptual, auditory unit that can be identified in naturally-occurring speech. In other words, the speech data on which intonation units are to be identified presuppose no restrictions whatsoever with regard to content or grammatical structure. [...] [A]n intonation unit can range from a lexically vacuous noise, i.e., an interjection [...] to a full-fledged clause [...]

(Tao 1996:9f.)

Obwohl, wie Féry (1993:59) bemerkt, es noch keine einheitliche Definition der IP gibt, kann man die IP zunächst wie in Trask (1996:184) als "phonological unit of intonational structure, the longest stretch of speech to which a single intonation pattern applies" beschreiben. Trask definiert jedoch nicht, was genau ein "single intonation pattern", also ein festes kohärentes Intonationsmuster, ausmacht. Dieses einzugrenzen, ist schwierig: "[...] the exact acoustic or perceptual correlates of coherent intonation contours have never been described in detail [...]" (Schuetze-Coburn 1994:88). Die Frage nach bestimmten phonologischen Beschränkungen einer Intonationskontur wird später in Kapitel 2.4 kurz erörtert. Neben der Intonationskontur – d. h. dem Tonhöhenverlauf – sind, wie bereits angedeutet, weitere prosodische Kriterien bei der Abgrenzung einzelner IPen von Bedeutung.

Man kann also zusammenfassen, es sind in erster Linie bestimmte prosodische Kriterien – insbesondere Tonhöhenverlauf und Rhythmus –, mittels derer eine Äußerungseinheit als eigenständig (nämlich als IP) markiert und empfunden wird. Gesprochene Sprache wird daher aufgrund dieser prosodischen Kriterien in IPen segmentiert. Die wichtigsten prosodischen Segmentierungskriterien werden im folgenden Unterkapitel zusammenfassend aufgeführt.

2.3 Zu den Segmentierungskriterien

Die in Kapitel 2.1 aufgeführten prosodischen Parameter, insbesondere Tonhöhe und Zeit/Dauer, bilden die wichtigsten prosodischen Kriterien bei der Segmentierung gesprochener Sprache in IPen (siehe z. B. Cruttenden 1986, Féry 1988, 1993, Wunderlich 1988, Selting 1995, Chafe 1994, Ladd 1996, Grabe 1998, Tao 1996, Rabanus 2001 u. a.). Sie tragen wesentlich zum Empfinden von Kohärenz zwischen Äußerungseinheiten bei (Schuetze-Coburn 1994:passim). Bestimmte Variationen im Tonhöhenverlauf (z. B. Tonsprünge auf unbetonten Silben, reset, s. u.) sowie beispielsweise eine Erhöhung des Sprechtempos (s. u.) bewirken beim Hörer den Eindruck, dass die Äußerung an diesen Stellen weniger kohärent klingt. Man hat den Eindruck, der Sprecher beginnt eine neue Einheit. Schuetze-Coburn (1994) führt zudem die Stimmqualität als einen weiteren Aspekt an, der bei der Abgrenzung von IPen eine Rolle spielen kann. So können bestimmte Variationen in der Stimmqualität des Sprechers, wie zum Beispiel ein laryngalisierter Laut (knarrstimme, 'creaky voice'), Verzögerungen oder Veränderungen beim Planungsprozess einer Äußerung widerspiegeln, was sich wiederum auf das Kohärenzempfinden auswirken kann. Demzufolge unterteilt Schuetze-Coburn (1994:93) die Segmentierungskriterien (oder auch grenzsignale) nach den Parametern Tonhöhenverlauf, Zeit/Rhythmus und Stimmqualität in drei Typen. Überdies unterscheidet Schuetze-Coburn (1994:146) zwischen primären und sekundären Segmentierungskriterien. Bei den primären Kriterien handelt es sich um prosodische Merkmale, als sekundär nennt Schuetze-Coburn syntaktische und semantische Kriterien, die bei der Identifikation einer IP-Grenze eine Rolle spielen können. Die Einteilung der einzelnen Grenzsignale nach den prosodischen Parametern wird in der folgenden Darstellung nicht übernommen; es werden nur diejenigen Kriterien ausführlich behandelt, die bei der Segmentierung des vorliegenden Korpus wesentlich von Bedeutung waren (Kap. 2.3.1). Außerdem wird das Segmentierungskriterium grenzton, als Schwerpunkt dieser Studie, gesondert erörtert (Kap. 2.3.2).

Die im folgenden beschriebenen Segmentierungskriterien treten oft in Kombination miteinander und jeweils in unterschiedlicher Ausprägung auf. Eine sehr lange Pause (z. B. 1 Sek.) und ein relativ großer Tonhöhensprung zwischen unbetonten Silben bedeuten jeweils eine deutliche IP-Grenze, während kleinere Tonhöhenbewegungen oft nur in Kombination mit anderen Kriterien als Grenzsignal gedeutet werden können. Darüber hinaus ist die IP-Grenze umso deutlicher, je mehr Kriterien in Kombination miteinander auftreten: geht ein Tonhöhensprung mit einer Pause und einer darauffolgenden Erhöhung der Sprechgeschwindigkeit einher, bedeutet dies eine klare IP-Grenze, unabhängig von der syntaktischen oder semantischen Struktur des Äußerungsabschnitts. Ist hingegen nur eine Pause an einer bestimmten Stelle vorhanden, mit nur einem geringen Tonhöhenunterschied zwischen den Silben vor und nach der Pause, kann man nicht immer zweifelsfrei von einer IP-Grenze sprechen. In letzterem Fall muss man bei der Transkription zum einen eventuelle 'sekundäre' Kriterien (siehe Kap. 2.3.3) beachten, zum anderen muss man den allgemeinen Stil des Sprechers hinsichtlich dessen Realisierung von Pausen (z. B. Länge und Häufigkeit der realisierten Pausen) in anderen Äußerungseinheiten sowie deren Tonhöhenverläufe berücksichtigen. Das alleinige Vorkommen eines Segmentierungskriteriums bedeutet also nicht notwendigerweise eine IP-Grenze. Aber es ist ein mehr oder minder deutlicher Indikator für ein mögliches Ende einer IP. Ein gewisses Maß an "unsicheren" IPen in einem Transkript kann man trotz dieser Kriterien nicht vermeiden.

2.3.1 Reset, Pause, Sprechtempo

Eine IP-Grenze wird häufig durch einen relativ deutlichen Tonhöhenunterschied zwischen zwei unbetonten Silben markiert. Dieser Tonhöhenunterschied spiegelt mitunter in gewissem Maße Planungsprozesse bei der Sprachproduktion wider (Schuetze-Coburn 1994:95); es findet an dieser Stelle ein geplanter Neueinsatz einer Äußerungseinheit statt, eine "neue Idee" wird vom Sprecher kontextualisiert. Ein solcher Tonhöhensprung in tiefere oder höhere Tonlagen wird in der englischsprachigen Literatur 'reset' genannt (Schuetze-Coburn 1994). Dieser Begriff wird im folgenden aus dem Englischen übernommen. Ein Reset in eindeutig grenzmarkierender Funktion ist zum einen in den Fällen vorhanden, in denen weder auf der als IP-final betrachteten Silbe (offset) noch auf der folgenden IP-initialen Silbe (onset) ein Akzent vorhanden ist, d. h. wenn der Tonhöhensprung nicht durch Akzentuierungen auf der letzten bzw. ersten Silbe der jeweiligen IP erreicht wird. Tonhöhenunterschiede, die durch Akzentuierung entstehen, kann man nicht per se als Grenzsignal betrachten, denn Akzente vermindern meist nicht die empfundene Kohärenz zwischen Äußerungsteilen. Sie bilden vielmehr einen wichtigen Bestandteil innerhalb einer IP,[4] indem sie als ein Indikator hinsichtlich des Informationsstatus von Entitäten in einer Äußerung fungieren: beispielsweise kann ein Gegenstand oder eine Person als neu oder besonders relevant markiert werden, indem es durch einen Akzent auf dem jeweilig denotierenden Lexem hervorgehoben wird.[5] Als Grenzsignal sind sie jedoch nicht per se zu betrachten.[6] Zum anderen muss man bei der Identifikation eines Resets berücksichtigen, dass auch segmentale Einflüsse Tonhöhenunterschiede bewirken können. So haben beispielsweise stimmhafte Vokale im Vergleich zu anderen Lauttypen eine relative spezifische Tonhöhe. Ein [i] und ein [u] sind in ihrer Grundfrequenz (F0) höher als ein [a], und "[...] F0 on vowels following voiceless stops is higher than that on vowels following their voiced counterparts [...]" (Schuetze-Coburn 1994:95).[7] Beträgt der F0-Unterschied nicht mehr als 5-15 Hz, ist der Tonhöhenunterschied zwischen zwei unbetonten Silben möglicherweise auf diese segmentalen Einflüsse zurückzuführen, und man kann nicht eindeutig von einem Grenzsignal sprechen (Schuetze-Coburn 1994:97). Die Identifikation von Resets wird also zum einen durch IP-finale oder IP-initiale Akzente erschwert, zum anderen können kleinere Tonhöhenunterschiede mitunter durch segmentale Einflüsse erklärt werden. Ein Beispiel für ein Reset ist im folgenden zu sehen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: aschenputtel 0:57-aschenputtel_das

(1) aschenputtel 0:57-das

38. also gingen diese \ (0.4)

39. Stief (0.8)

40. schwestern und Mutter \ (=)

41. immer dahin / (0.7)

42. wollten aber das: - (0.5)

43. Aschenputtel / (0.4)

44. das zum Küchenmädchen degradiert worden war ; (0.9)

45. nicht mitnehm(en) \

Interessant ist hier der Übergang zwischen Zeile 43 und 44. Die Notation "... / (0.4)" bedeutet steigender/hoher IP-finaler Tonhöhenverlauf mit darauffolgender Pause der Länge 0.4 ms.[8] In Abbildung 2[9] sieht man einen deutlichen Tonhöhensprung zwischen der unbetonten Silbe Aschenputtel und dem darauffolgenden ebenfalls unbetonten das. Das Lexem Aschenputtel endet bei einer Frequenz von knapp 290 Hz, die folgende Silbe das beginnt bei etwa 220 Hz. Hier kann man eindeutig von einem Reset sprechen.

Wie bereits oben angedeutet, werden häufig weitaus kleinere Tonhöhensprünge zwischen zwei unbetonten Silben realisiert. Das Hauptproblem besteht in diesen Fällen darin zu entscheiden, "what degree of pitch change constitutes a reset" (Schuetze-Coburn 1994:99). Es ist nicht möglich, ein bestimmtes Ausmaß an Tonhöhenunterschied als definierenden Grenzwert für einen Reset zu nennen. Man muss die Abweichungen in F0 immer in Relation zu dem vom Sprecher allgemein verwendeten Tonhöhenumfang sehen sowie den Tonhöhenverlauf von benachbarten Äußerungsteilen in Betracht ziehen (siehe Kap. 2.1). Ist die Sprechweise eines Sprechers im Allgemeinen durch geringe Tonhöhenveränderungen ('flacher' Tonhöhenverlauf) gekennzeichnet, kann man zuweilen schon bei relativ kleinen Tonhöhensprüngen (etwa ab 10 Hz) von einem Reset sprechen. Denn wenn die Äußerungen eines Sprechers typischerweise sehr geringe Tonhöhenunterschiede aufweisen (was etwas monoton klingen mag), können bereits relativ kleine Tonhöhensprünge eine Veränderung der Kohärenz zwischen zwei Äußerungsabschnitten bewirken, da die zuvor empfundene "Monotonie" unterbrochen erscheint.

Trotz der gewissen Unsicherheit bei der Identifikation eines Resets gilt dieses Kriterium als relativ verlässliche Grenzmarkierung (Cruttenden 1986:41, Schuetze-Coburn 1994:96). Schuetze-Coburn klassifiziert Resets als initiale Grenzmarkierung, da ein Reset in erster Linie einen Neubeginn einer IP signalisiert. Selting (1995:passim) bezeichnet die Segmentierungskriterien, die den Beginn einer neuen IP signalisieren, als retrospektive Abgrenzungssignale; das Ende einer IP wird als solches erst "rückblickend" durch die Markierung eines Neubeginns einer folgenden IP erkannt. Dies ist der Fall, wenn beispielsweise der Tonhöhenverlauf einer Äußerung durchweg relativ flach verläuft, also ohne eine spezifische Tonhöhenbewegung auf einer unbetonten Silbe, und nach einer kurzen Pause, die nicht notwendigerweise eine Grenzmarkierung darstellt (s. u.), ein Tonhöhensprung folgt.[10] In Beispiel (1) liegt ein solcher Fall jedoch nicht vor, da die vorangehende IP (Aschenputtel) bereits eine spezifische (steigende) Tonhöhenbewegung auf der unbetonten finalen Silbe (-tel) aufweist (siehe Abbildung 2). Die IP-Grenze wird nicht ausschließlich aufgrund des Resets retrospektiv signalisiert. Eine strikte Klassifikation der Segmentierungskriterien in retrospektive oder initiale Kriterien soll im folgenden unterbleiben.

Ein weiteres wichtiges Kriterium zur Bestimmung von IP-Grenzen ist die pause. Eine Pause wird – oft in Kombination mit anderen Segmentierungskriterien (siehe Abbildung 2) – häufig am Ende einer IP realisiert. Dennoch bedeutet nicht jede Unterbrechung des Redeflusses notwendigerweise eine IP-Grenze: "[...] pauses do not always mark intonation boundaries, nor are intonation boundaries always marked by pauses" (Cruttenden 1986:39). Denn, so meint auch Schuetze-Coburn (1994:121ff.), Pausen werden aus vielen unterschiedlichen Gründen realisiert. Was aber ist nun eine (segmentierungs)relevante Pause?

Schuetze-Coburn (ebd.) weist auf die Unterscheidung zwischen 'gefüllten' und 'nicht-gefüllten' Pausen ('un-/filled pauses') hin. Mit gefüllten Pausen werden Verzögerungssignale, wie zum Beispiel äh oder ähm im Deutschen,[11] gemeint, während nicht-gefüllte Pausen "Ruhe" bedeuten, also das Ausbleiben jeglichen sprachlichen Signals. Diese Unterscheidung sieht Schuetze-Coburn (ebd.) aber als nicht hinreichend für die Identifikation von relevanten Pausen, da "Ruhe" auch durch Faktoren hervorgerufen werden kann, die für die Konstitution von IPen weniger relevant sind. Zum Beispiel kann bei der Produktion von Verschlusslauten eine kurze Pause entstehen. Im folgenden Beispiel ist eine solche Pause mit einer Dauer von 0,3 Sekunden relativ lang.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: fußboden 0:22-reinpacken

(2) fußboden 0:22-reinpacken (Z. 12)

12. und wir überlegen halt grade ob wir Laminat rein pak (0.3)=kn solln ; (=)

In Abbildung 3 sieht man, wie der Sprecher vor der letzten Silbe von reinpacken kurz ins Stocken gerät. Bei der Realisierung des velaren Verschlusslautes [k] entsteht eine Pause von 0,3 Sek., und es entsteht ein glottaler Verschluss; die letzte Silbe (hier mit -kn transkribiert) beginnt mit einem glottalen Plosiv. Derartige Pausen werden als 'artikulatorische Pausen' bezeichnet (Schuetze-Coburn 1994:122). Ein weiteres Problem bei der Identifikation einer Pause bildet die Atmung. Schuetze-Coburn (1994:123) ist der Ansicht, dass man Atmung als separates Ereignis von der eigentlichen Pause abgrenzen sollte. Das heißt, man sollte beispielsweise eine Sequenz mit einer Dauer von 0,5 Sek. wahrnehmbarer "Ruhe", in der der Sprecher aber 0,2 Sek. lang einatmet, dieses mit 0,3 Sek. für die Sprechpause bzw. 0,2 Sek. für die Atmung separat voneinander kenntlich machen. Dies ist oftmals jedoch kaum möglich, da das Einatmen (oder auch Ausatmen) meist nur schwer hörbar stattfindet. Außerdem ist eine präzise Abgrenzung von Atmung und Pause für die Bestimmung von IP-Grenzen nicht notwendig, da, wie Schuetze-Coburn (1994:123-4) selbst sagt, die Atmung per se als Segmentierungskriterium dienen kann (siehe auch Kap. 2.3.3). Es ist also ausreichend, wenn man innerhalb einer Pause die Atmung kennzeichnet, ohne die genaue Dauer zu bestimmen.

Zusammenfassend kann man festhalten, dass Pausen ein weiterer Indikator für eine vorliegende IP-Grenze sind. Sie tragen wesentlich zur Perzeption einer IP-Grenze bei (Schuetze-Coburn 1994:125). Betrachtet man die Transkriptionen des vorliegenden Korpus (überwiegend narrative Monologe, siehe Kap. 4), stellt man eine hohe Korrelation zwischen dem Vorkommen von Pausen und den festgestellten IP-Grenzen fest. Aber eine Pause bedeutet nicht notwendigerweise eine IP-Grenze. Wenn nämlich ein Sprecher eine relativ kurze Pause macht, ohne dass Veränderungen im Tonhöhenverlauf oder in der Sprechgeschwindigkeit auftreten, kann man dies oft nicht als eine IP-Grenze definieren (wie z. B. in Abbildung 3).[12]

Neben Pausen und Resets spielen Variationen im Sprechtempo bei der Perzeption von IP-Grenzen eine wichtige Rolle. Eine Verlangsamung des Sprechtempos (Dehnung/Längung einzelner Silben) ist dabei ein Signal für das Ende einer IP, eine Erhöhung des Sprechtempos signalisiert hingegen oft den Beginn einer neuen IP (Schuetze-Coburn 1994:129, Cruttenden 1986:24, 39). Da Sprechgeschwindigkeit, wie die Tonhöhe, relativ zum phonetischen Kontext empfunden wird, ist eine grobe Dreiteilung der Geschwindigkeit in 'erhöht' ('accelerated'), 'normal' ('modal') und 'verzögert' oder 'gedehnt' ('lengthened') hinreichend (Schuetze-Coburn, ebd.). Ein vom Sprecher realisiertes Segment wird also als schneller, normal oder verzögert im Vergleich zu einer oder mehreren adjazenten Silben empfunden. Präzise Messungen, wie sie in der vorliegenden Arbeit bei der Tonhöhe vorgenommen werden, sind hier nicht notwendig.

Die Erhöhung des Sprechtempos am Beginn einer IP – allgemeiner, am Beginn einer Äußerung – wird als anakrusis bezeichnet (Cruttenden 1986:24, Trask 1996:22). Der Begriff 'Anakrusis' kann demnach aber nur dann verwendet werden, wenn der Beginn einer Äußerung oder einer IP bereits identifiziert worden ist. Um eine zirkuläre Argumentation zu vermeiden, sollte man den Ausdruck 'erhöhtes Sprechtempo' o. ä. verwenden, das als ein Signal für den Neubeginn einer IP betrachtet werden kann (Schuetze-Coburn 1994:133), oder wie Cruttenden (1986) sagt, eine plötzliche Erhöhung des Sprechtempos auf einer unbetonten Silbe " [...] indicates that these syllables are anacrustic and hence that a new intonation-group [i.e. IP, eigene Anm. ] is beginning." (S. 39). Cruttenden (1986:24) konstatiert überdies für das Englische, dass anakrusische Silben oft reduziert realisiert werden. Dies gilt mitunter auch für das Deutsche. Im folgenden Beispiel werden die ersten vier Silben (un dann werd ich) in erhöhtem Sprechtempo realisiert. Auf den darauf folgenden Silben normalisiert sich das Tempo.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4: krankenschwester 0:40-lernen

(3) krankenschwester 0:40-lernen

24. da erfahr ich dann ein Tach vorher / (0.5)

25. der drei (0.4)

26. Unterfächer ich geprüft werde / (1.2)

27. un dann werd ich das Fach schön ers Donnerstach lern(en) \

Das erhöhte Sprechtempo auf den ersten Silben dieser IP ist in Abbildung 4 durch die Abgrenzung (vertikale Abgrenzungslinien) der einzelnen Silben zu erkennen. Die Segmente un dann werd ich sind jeweils kürzer als die folgenden Silben. Insbesondere die ersten beiden Silben (un dann) werden sehr schnell gesprochen, und, wie man an der Intensität erkennen kann (direkt unterhalb der Textzeile), relativ leise realisiert.

Es kommt auch vor, dass ein Sprecher eine gesamte IP in erhöhtem Sprechtempo realisiert. Dies ist typischerweise in parenthetischen Äußerungen der Fall (Schuetze-Coburn 1994:133). Diese Einschübe werden überdies meist auch durch einen spezifischen Tonhöhenverlauf und durch reduzierte Intensität von den adjazenten IPen abgegrenzt (Cruttenden 1986:passim, siehe auch Kap. 2.3.3).

Eine Verlangsamung der Sprechgeschwindigkeit ('prosodic lengthening') kann ein Signal für das Ende einer IP sein. Die langsamer realisierte(n) Silbe(n) wird/werden dabei mitunter deutlich hörbar gedehnt. Zwar, so fasst Schuetze-Coburn (1994:134f.) zusammen, konnte in früheren experimentellen Studien mit rigide fremdgesteuerter Sprache gezeigt werden, dass Silbendehnungen auf verschiedenen strukturellen Ebenen vorkommen können, nämlich jeweils an einer Wort- und (syntaktischen) Phrasengrenze bis hin zum Satz- und Abschnittsende, aber diese Korrelationen der Sprechgeschwindigkeit mit den jeweiligen syntaktischen Grenzen lassen sich nicht auf spontansprachliche Daten übertragen. Mit anderen Worten, es sind nicht in erster Linie die syntaktischen Grenzen, die in spontaner Sprache Variationen des Sprechtempos determinieren. Vielmehr scheinen Silbendehnungen u. a. bestimmte Planungsprozesse bei der Sprachproduktion widerzuspiegeln (z. B. überlegen, Planen einer neuen Äußerungseinheit, siehe auch Cruttenden 1986:40), was für die Konstitution einer IP von Relevanz ist und was nicht notwendigerweise mit syntaktischen Grenzen einhergeht. Demnach kann nach Schuetze-Coburn (1994:135) Silbendehnung als "[...] very important feature in the identification of I[P] boundaries" gesehen werden. Cruttenden (1986:40) nennt als wichtigste Funktion von Silbenlängungen eine Art "Tonträger"-Funktion: Silben werden häufig gelängt, da sie eine spezifische Tonhöhenbewegung tragen, die eine IP-Grenze signalisiert (Grenzton, siehe Kap. 2.3.2). Darüber hinaus sieht Cruttenden (ebd.) Silbendehnungen als gefüllte Pausen (s. o.) und somit als "pause-substitute", sofern ihnen keine Pause folgt, oder als Ergänzung zu einer Pause. Insbesondere in der Interpretation als gefüllte Pause und als Ergänzung zu einer Pause sind Silbendehnungen als klares Grenzsignal zu betrachten (Cruttenden, ebd.). Allerdings, so Cruttenden weiter, werden Silben nicht selten auch innerhalb einer IP gedehnt (S. 41).

Auch in dem vorliegenden Korpus erweist sich Silbendehnung als Indikator für eine finale IP-Grenze. Jedoch scheint dieses Kriterium in größerem Maße sprecher-spezifisch zu sein, als es bei Anakrusis der Fall ist, denn Silbendehnungen treten bei den verschiedenen Sprechern in sehr unterschiedlicher Häufigkeit und in unterschiedlicher Ausprägung auf. Das folgende Beispiel (Abbildung 5) zeigt eine deutliche Dehnung der IP-finalen unbetonten Silbe (super)lässig sowie der finalen Silbe der vorangehenden IP (irgendwie).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5: bordell 0:36-superlässig

(4) bordell 0:36-superlässig (Z. 24-26)[13]

24. und alles irgendwie: ((.h)) (0.3)

25. total superläs si:g;

26. und un un ...

In Abbildung 5 ist zu sehen, dass die IP-finale Silbe lässig insbesondere im Vergleich zur unmittelbar vorangehenden Silbe deutlich länger realisiert wird. Auch die anderen innerhalb dieser IP (Z. 25) vorangehenden Silben werden in einem höheren Sprechtempo artikuliert. Beide gedehnten Silben bilden jeweils eine deutliche IP-Grenze.

Zusammenfassend lässt sich festhalten, dass die Segmentierungskriterien Reset, Pause und Sprechgeschwindigkeit bei der Bestimmung der IPen in dem vorliegenden Korpus zu den relevantesten Grenzsignalen zählen. Im folgenden wird nun ein weiteres Segmentierungskriterium erörtert, das, wie das Reset, über den Tonhöhenverlauf bestimmt wird, nämlich der IP-finale Grenzton.

2.3.2 IP-finaler Grenzton

Ein weiteres Merkmal, das häufig mit dem Ende einer IP korreliert, ist ein spezifischer Tonhöhenverlauf auf einer unbetonten Silbe einer IP. Ein solcher Tonhöhenverlauf signalisiert oft das Ende einer IP und wird in diesem Fall als (IP-finaler) grenzton[14] ('boundary tone') bezeichnet (Trask 1996:56). Schuetze-Coburn (1994:108) definiert einen Grenzton als die tonale Konfiguration, die dem letzten Akzent der IP (nukleus, nuklearer akzent, siehe Kap. 2.3.3 und 3.1) folgt. Das heißt, ein Grenzton kann sich nach dieser Definition über mehrere Silben erstrecken, denn dem letzten Akzent einer IP folgen oft mehrere Lexeme.[15] Unabhängig davon, welche der beiden obigen Sichtweisen zugrunde liegen, besteht das Problem des Grenztons als Segmentierungskriterium darin, diesen als solchen zu identifizieren. Mit anderen Worten, man muss bereits die IP-Grenze identifiziert haben, um zu wissen, was der letzte Akzent und somit die letzte(n) Silbe(n) einer IP ist/sind, um den Grenzton als solchen zu erkennen. Ähnlich wie bei dem Terminus 'Anakrusis' (siehe Kap. 2.3.1) birgt diese Argumentation also eine gewisse Zirkularität: ein Grenzton ist nur dann ein Grenzton, wenn die IP-Grenze bereits identifiziert wurde. Da ein Grenzton[16] über eine Tonhöhenbewegung auf unbetonter Silbe definiert wird,[17] sind es die Tonhöhenbewegungen auf genau diesen Silben, die man während der Transkription als mögliches Grenzsignal betrachten muss. Dabei besteht allerdings das Problem, dass in einer IP sehr häufig mehrere Akzente realisiert werden, denen eine unbetonte Silbe mit steigendem oder fallendem Tonhöhenverlauf folgt und bei denen man allein mithilfe des Tonhöhenverlaufs nicht eindeutig bestimmen kann, ob dies nun ein IP-finales Absinken (oder IP-finaler Anstieg) ist oder nicht. Schuetze-Coburn (1994:110) meint zwar, dass Grenztöne aufgrund des Tonhöhenunterschieds ihres Abfalls zum vorangehenden Akzent von den grenzton-ähnlichen Tonhöhenbewegungen innerhalb einer IP unterscheidbar sind. Denn es sei die vorangehende Akzenttonhöhe in Kombination mit dem folgenden Tonhöhenabfall, was einen finalen Tonhöhenabfall (Grenzton) von einem nicht-finalen unterscheidet. Mit Blick auf das vorliegende Korpus muss man jedoch feststellen, dass diese Einschätzung nicht immer zutrifft. Das bedeutet, die IP-finalen und die IP-internen Tonhöhenbewegungen auf unbetonten Silben sind nicht immer deutlich voneinander unterscheidbar (siehe auch Kap. 4.1). Das heißt also, das Auftreten des Segmentierungskriteriums Tonhöhenbewegung auf einer unbetonten Silbe bedeutet nicht notwendigerweise eine IP-Grenze, da dieses Phänomen nicht selten innerhalb einer IP vorkommt – vergleichbar z. B. mit dem Kriterium Silbendehnung (siehe Kap. 2.3.1).

Die folgenden Beispiele[18] zeigen eine IP mit fallendem finalen Tonhöhenverlauf (Abbildung 6, Beispiel (5)) bzw. mit steigendem finalen Tonhöhenverlauf (Abbildung 7, Beispiel (6)). Beide Äußerungen stammen von der gleichen Sprecherin (S1 in 'krankenschwester').

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 6: krankenschwester 0:56-rennt_du

(5) krankenschwester 0:56-rennt_du (Z. 33-36 )

33. S1: ab Montag wollt ich mit Psychologie anfang(en) ; (0.3)

34. Ernährungslehre hab ich zum Glück schon ; (0.9)

35. ja die Zeit rennt du \ (0.3)

36. S2: m:ja s=kenn ich \ (0.4)

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 7: krankenschwester 1:17-fertig

(6) krankenschwester 1:17 - fertig (Z. 45-48)

45. Krankheitslehre / (=)

46. geht als letztes um halb zwei los / (=)

47. also denk ich ma ; (=)

48. bin ich um halb vier endlich fertig / (.)

Abbildung 6 zeigt einen deutlich fallenden Tonhöhenverlauf auf einer unbetonten Silbe nach einem Akzent. Dabei ist der ton[19] auf du mit Blick auf den gesamten Tonhöhenverlauf dieser Äußerung relativ stark fallend, während er in sich betrachtet auf der Silbe du nur unwesentlich abfällt. Man kann hier von einem sogenannten level-ton sprechen, einem Ton, der in sich gleichbleibend verläuft, jedoch durchaus höher oder tiefer als adjazente Töne sein kann (siehe auch Kap. 4.2.2). Dieser tiefe Ton auf du ist aufgrund seiner Ausgeprägtheit in dieser Äußerung ein starkes Signal für eine IP-Grenze. Die nachfolgende Pause sowie der anschließende Sprecherwechsel sind weitere eindeutige Signale für eine IP-Grenze. Ähnliches gilt für den Ton auf fertig, der sowohl höher ist als die vorangehende Silbe als auch in sich steigend[20] (kontur-ton). Dieser Ton hebt sich im Vergleich zu den vorangehenden Tonhöhenbewegungen deutlich ab und bedeutet, besonders da er auf einer unbetonten Silbe realisiert wird, ein deutliches Grenzsignal. Dem Lexem fertig folgt eine Minimalpause (symbolisiert durch "(.)"), was in Kombination mit dem Tonhöhenanstieg auf der Silbe -tig ebenfalls auf eine mögliche IP-Grenze hindeutet. Diese minimale Pause ist die erste Unterbrechung des Redeflusses nach mehreren IPen.[21] In diesem Falle kann selbst eine derart kurze Pause ein Grenzsignal bedeuten.

In einigen Theorien wird jeder IP-Grenze ein Grenzton zugewiesen (siehe auch Kap. 3.2.2). Dazu gehören auch IP-finale Tonhöhenverläufe, die über mehrere Silben flach (gleichbleibend) verlaufen.[22] Flache Tonhöhenverläufe als Segmentierungskriterium zu betrachten, ist jedoch, unabhängig von der jeweiligen Tonhöhe, relativ schwierig. Denn wenn über mehrere Silben keine besonderen Tonhöhenbewegungen festzustellen sind, aufgrund derer man Kohärenzunterschiede empfinden und so eine IP-Grenze feststellen könnte, ist es nicht plausibel, allein mithilfe dieses Tonhöhenverlaufs das Ende einer IP zu bestimmen. Dies ist nur dann möglich, wenn dem gleichbleibenden Tonhöhenverlauf beispielsweise ein Tonhöhensprung (Reset) folgt, der als Neubeginn einer IP identifiziert werden kann. So kann ein gleichbleibender Tonhöhenverlauf retrospektiv als IP-final und somit als Grenzton definiert werden. Siehe dazu folgendes Beispiel, in dem die gleiche Sprecherin aus den beiden vorangehenden Beispielen ((5) und (6)) eine gleichbleibende (hohe) Tonhöhenbewegung über mehrere Silben realisiert: In Abbildung 8 ist zu sehen, dass die Tonhöhe von Psychologie bis anfang auf einem relativ hohen Niveau liegt. Sieht man von den Perturbationen in der F0-Kurve durch konsonantische Laute (insbesondere Frikative) ab, ist der Tonhöhenverlauf weitgehend gleichbleibend. Dies entspricht auch dem auditiven Eindruck, nach dem man den Tonhöhenverlauf als weitgehend flach verlaufend annehmen kann. Ab der letzten Silbe von Psychologie bis zur zweiten Silbe von anfang zeigt die F0-Extraktion (grafische Darstellung des Tonhöhenverlaufs) die geringsten Schwankungen.[23] Es findet sich also keine spezifische Tonhöhenbewegung auf der/den letzten Silbe(n), die das Ende der IP markiert. Die IP-Grenze ist einzig aufgrund des deutlichen Resets (auf Ernährungslehre) und der Pause zu erkennen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 8: krankenschwester 0:51-psychologie_ernlehre

(7) krankenschwester 0:51 - psychologie_ernlehre (Z. 33/34)

33. ab Montag wollt ich mit Psychologie anfang(en); (0.3)

34. Ernährungslehre hab ich zum Glück schon ; (0.9)

Im folgenden Ausschnitt (Beispiel (8)) ist ebenfalls ein relativ flacher Tonhöhenverlauf über mehrere Silben realisiert (Sprecherin S2). Allerdings ist es in diesem Beispiel schwieriger, die IP-Grenze zu identifizieren, da weder Pause, Reset noch sonstige eindeutige prosodische Grenzsignale vorhanden sind. Daher wird die IP in Zeile 128 als 'unklar' betrachtet, sodass sie keinen Grenzton zugewiesen bekommt (siehe Kap. 4.1).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 9: krankenschwester 3:05-wollte

(8) krankenschwester 3:05 - wollte (Z. 128-130)

128. S2: äh ob er nich wieder zum Bund wollte (=)

129. weil er hatte ja überlegt / (=)

130. ob er noch ma zur Marine geht...

In Abbildung 9 ist zu sehen, dass die Tonhöhe nach dem Akzent auf Bund deutlich abfällt und über mehrere Silben (wollte bis etwa hatte) flach verläuft.[24] Weiterhin findet sich hier kein anderes der in Kapitel 2.3.1 erörterten prosodischen Segmentierungskriterien: die Sprechgeschwindigkeit zeigt sich überwiegend konstant, wobei auf weil allerdings eine leichte Dehnung vernehmbar scheint. Diese ist jedoch zu wenig deutlich, als dass man hier von einem eindeutigen Grenzsignal sprechen könnte. Die Sprecherin macht überdies keine Pause. Die IP-Grenze nach wollte ist aufgrund eines, wie Schuetze-Coburn (1994:146) es nennt, sekundären Segmentierungskriteriums, nämlich der syntaktischen (und auch semantischen) Struktur der Äußerung, eher intuitiv gesetzt worden. Des weiteren spielt dabei der Akzent auf Bund als einziger/letzter Akzent einer IP eine Rolle (Schuetze-Coburn 1994:102ff., siehe Kap. 2.3.3, wo dem Segmentierungskriterium 'letzter/einziger Akzent' aber eher geringe Bedeutung zugesprochen wird). Das heißt, Tonhöhenverläufe wie der auf wollte sind mitunter als Grenzsignal wenig aussagekräftig. Wenn ein Modell aufgrund der sekundären Kriterien hier eine IP-Grenze mit flachem Grenzton annimmt, handelt es sich bei diesem Grenzton um ein abstrakt angenommenes Konzept – eine zugrunde gelegte phonologische Kategorie – ohne phonetische Manifestation. Denn es ist kein wahrnehmbarer IP-finaler Tonhöhenverlauf vorhanden; die IP-Grenze wird aufgrund anderer Kriterien etabliert.

Man kann also zwischen solchen Grenztönen unterscheiden, die aufgrund einer an der Oberfläche vernehmbaren spezifischen IP-finalen Tonhöhenbewegung unmittelbar identifizierbar sind (siehe die Beispiele (5) und (6)), und denjenigen, die nicht unmittelbar durch eine spezifische IP-finale Tonhöhenbewegung erkennbar sind (wie bei den gleichbleibenden Tonhöhenverläufen in (7) und (8)), aber nichtsdestotrotz als phonologisch zugrunde liegende Kategorie angenommen werden (mehr dazu in Kap. 4.2).

Eine IP endet nicht selten mit einem Akzent – fortan grenzakzent. Einige Theorien (z. B. GToBI, siehe Kap. 3.2.2) nehmen für diese Fälle an, dass sowohl Grenzton als auch Akzentton zusammen auf einer Silbe realisiert werden. Wenn es sich um einen hohen finalen Akzent handelt, d. h., wenn die Tonhöhe auf der IP-finalen akzentuierten Silbe stark ansteigt (was nicht bei jedem Akzent geschieht), und im folgenden ein Reset und/oder eine Pause realisiert wird, empfindet man diese IP-Grenze als besonders deutlich. Ähnlich wie ein flacher Tonhöhenverlauf (s. o.) ist ein Akzent an sich jedoch kein Signal für eine IP-Grenze. Denn ein Akzent als solcher kommt mitunter häufiger in einer Äußerung vor, ohne dass dort eine IP-Grenze empfunden wird. Überdies unterscheiden sich die hier als IP-finale Grenzakzente klassifizierten Tonhöhenverläufe phonetisch nicht eindeutig von den IP-internen hohen Akzenten, sodass man die IP-Grenze nicht allein aufgrund des Akzents selbst bestimmen kann, sondern diese erst aufgrund anderer Kriterien retrospektiv wahrnimmt. Beispiele für hohe Grenzakzente sind in Kapitel 4.2.2 aufgeführt.

Zusammenfassend kann man sagen, dass der Tonhöhenverlauf, der in einer Transkription als Grenzton bestimmt wird, in bestimmten Fällen (flacher Tonhöhenverlauf und Akzenttonbewegungen) nur bedingt als Segmentierungskriterium gesehen werden kann. Denn ein flacher Tonhöhenverlauf und eine hoch akzentuierte Silbe bilden jeweils per se kein Grenzsignal, sondern können nur in Kombination mit anderen Segmentierungskriterien als IP-Grenze erkannt werden. Ein Grenzton kann in diesen Konstellationen also zunächst nicht aufgrund eines spezifischen Tonhöhenverlaufs (fallend oder steigend) auf unbetonter Silbe angenommen werden, sondern man kann ihn einzig aus theorieinternen Implikationen ("jede IP-Grenze hat einen Grenzton") zugrunde legen. In diesem Fall ist der Grenzton eher ein theoretisches Konzept als ein "sichtbares" und hörbares Phänomen und kann nur sehr bedingt als kohärenzminderndes Grenzsignal betrachtet werden (siehe auch Féry 1993, zusammengefasst in Kap. 3.2.2).

2.3.3 Weitere Segmentierungskriterien

Neben den im vorangehenden Unterkapitel aufgeführten Segmentierungskriterien, die sich bei der Transkription des vorliegenden Korpus als die relevantesten erwiesen haben, gibt es weitere prosodische und nicht-prosodische (sekundäre) Kriterien, die bei der Konstitution von IPen eine Rolle spielen können. Einige der im folgenden beschriebenen prosodischen Segmentierungskriterien werden in der Literatur oft ebenso als sehr relevant betrachtet (Schuetze-Coburn 1994:passim). Dies hat sich für das vorliegende Korpus jedoch nicht bestätigt, da diese Kriterien relativ selten für das Erkennen der IP-Grenzen von Bedeutung waren.

Eines dieser prosodischen Kriterien ist ein abwärtstrend oder deklination (engl.: 'declination') in der Tonhöhe im Verlauf einer Äußerung. Deklination ist durch ein allmähliches Absinken hoher und tiefer Töne[25] gekennzeichnet. Findet ein derartiger Abwärtstrend bei aufeinanderfolgenden hohen Akzenten statt, spricht man von downstep. So ist beispielsweise in einer Äußerung mit drei hohen akzentuierten Silben die zweite dieser Silben etwas tiefer als die erste und die dritte wiederum etwas tiefer als die zweite. Der aus der englischsprachigen Literatur übernommene Begriff 'Downstep' wird fortan für die Herabstufung hoher Akzenttöne verwendet.[26] Deklination wurde in vielen Studien zur Intonation festgestellt (siehe die angegebene Literatur in Schuetze-Coburn 1994:100f. sowie Ladd 1996, Grabe 1998, Prieto 1998 u. a.). Es wird auf diesen Arbeiten basierend als ein vom Hörer perzipierbares Signal für ein bevorstehendes Ende einer IP gesehen. Viele dieser Studien legen allerdings experimentell elizitiertes gesteuertes Datenmaterial (z. B. gelesene Texte in geschriebener Standardsprache) zugrunde. In welchem Maße Deklination auch in natürlich gesprochener Alltagssprache vorkommt, ist umstritten (Schuetze-Coburn 1994:100). Überdies meint Schuetze-Coburn (1994:101), dass sich dieser Abwärtstrend meist über mehrere IPen hinweg erstreckt, sodass man nicht immer von einem Segmentierungskriterium für eine IP sprechen kann. Dennoch gibt es Studien zu natürlich gesprochener Alltagssprache, bei denen Deklination für einzelne IPen von Bedeutung ist.[27] Auch in dem vorliegenden Korpus finden sich – wenn auch nur vereinzelt – einige Fälle von Deklination bzw. Downstep. Ein ungewöhnlich deutliches Beispiel ist (9). Diese Äußerung (dreimalig über mich) ist eine Selbstkorrektur in einem Monolog, in dem die Hauptsprecherin (S1) das Märchen 'aschenputtel' erzählt. Die Sprecherin hat zuvor in direkter Rede einen in dem Märchen vorkommenden Ausruf nicht korrekt zitiert (... Gold und Silber über dich). In Abbildung 10 ist deutlich zu erkennen, dass sowohl die unbetonten Silben (über) als auch die betonten/akzentuierten Silben (mich) in dem jeweilig wiederholten Äußerungsabschnitt tiefer realisiert werden als im jeweils vorangehenden Äußerungsabschnitt. Betrachtet man die Äußerung der drei PP über mich isoliert, könnte man auch dafür argumentieren, dass jede dieser PP eine einzelne IP bildet. Dies ist durchaus legitim, da, wie man in Abbildung 10 deutlich sehen kann, beide nachfolgenden Präpositionen (besonders das zweite über) in einer deutlich unterscheidbaren Tonhöhe zum vorangehenden mich realisiert werden (Reset).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 10: aschenputtel 1:57-über mich

(9) aschenputtel 1:57-über mich (Z. 79-83)

79. und rief dabei \ (=)

80. Bäumchen rüttel dich und Bäumchen sch:üttel dich \ (=)

81. wirf Gold und Silber über dich \ (1.3)

82. über mich über mich über mich \ (1.9)

83. und /(1.2)

Zum einen wird dieses Argument aber dadurch etwas entkräftet, dass dieser Tonhöhensprung nicht zwischen zwei unbetonten Silben stattfindet (mich ist jeweils betont/akzentuiert). Zum zweiten wird zwischen den PP keine Pause realisiert, wohingegen zwischen den adjazenten IPen (81./82. und 82./83.) deutliche Pausen gemacht werden. Drittens ist hier ein deutlicher Abwärtstrend zu vernehmen, der diese IP als kohärente Einheit von den benachbarten IPen abgrenzt.

Als weiteres prosodisches Segmentierungskriterium nennt Schuetze-Coburn (1994) den letzten Akzent einer IP, den nukleus (oder nuklearer akzent, siehe auch Kap. 3.1). Dieser Akzent wird meist – aber nicht immer – als prominenteste Silbe perzipiert (Schuetze-Coburn 1994:102ff). Es scheint jedoch ein wenig Uneinigkeit darüber zu herrschen, ob der Nukleus nun per definitionem immer der letzte Akzent ist, oder ob es immer der prominenteste (und nicht notwendigerweise der letzte) Akzent einer IP ist. Für Cruttenden (1986) ist der Nukleus "[...] that pitch accent (usually the last) [ Fettdruck von mir erstellt, MG ] which generally stands out as the most prominent [...]" (S. 52, siehe auch Kap. 3.2.2 Fn. 68) Das Hauptproblem bei der Betrachtung des nuklearen Akzents als Grenzsignal besteht darin, in einer Folge von mehreren Akzenten innerhalb einer Äußerung den finalen Akzent zu bestimmen, der dann als Grenzmarkierung fungieren soll. Zum einen ist es oft einfach nicht möglich, bei mehreren kurz hintereinander realisierten Akzenten einen als besonders prominent zu identifizieren, zum anderen, wie bereits oben angedeutet, ist der prominenteste Akzent nicht immer gleichzeitig der letzte Akzent einer IP (Schuetze-Coburn 1994:107). Auch wenn der prominenteste Akzent eindeutig identifizierbar ist, wie in Beispiel (8) (auf Bund, siehe Abbildung 9, Kap. 2.3.2), kann man mithilfe dieses Akzents oft nicht das genaue Ende einer IP bestimmen, sofern kein anderes Grenzsignal vorhanden ist. Außerdem, wie bereits in Kapitel 2.3.2 erwähnt, unterscheidet sich ein IP-finaler Akzent in seinem Tonhöhenverlauf nicht eindeutig von IP-internen Akzenten (siehe auch Kap. 4.2.2).

Somit kann man festhalten, dass der Nukleus in der Funktion als Grenzmarkierung relativ wenig Bedeutung hat. Trotzdem hat er in einigen Modellen, insbesondere in der Forschungstradition der 'Britischen Schule', (siehe Kap. 3.1) eine besondere theoretische Bedeutung.

Ein weiteres mögliches Abgrenzungssignal, das über den Tonhöhenverlauf bestimmt wird, ist der vom Sprecher verwendete tonhöhenumfang ('pitch range', auch register), also – vereinfacht formuliert – der Tonhöhenunterschied zwischen den hohen Tönen (F0-maxima, 'F0 peaks') und den tiefen Tönen (F0-minima, 'F0 valleys'). Es kommt vor, dass ein Sprecher den Tonhöhenumfang deutlich vernehmbar reduziert oder erhöht, um eine Äußerungseinheit von adjazenten Äußerungen abzugrenzen. Dies geschieht z. B. in parenthetischen Äußerungen, die man aufgrund des oftmals deutlich reduzierten Tonhöhenumfangs als eigene IPen perzipiert (Schuetze-Coburn 1994:118). Die Reduktion des Tonhöhenumfangs geschieht dabei vom Anfang bis zum Ende der jeweiligen IP, und nicht allmählich oder stufenweise, wie es bei einem Abwärtstrend der Fall ist (siehe oben). Eine derartige Veränderung des Tonhöhenumfangs kann als relativ deutliches Signal für die Abgrenzung einer IP gesehen werden, da der globale Tonhöhenverlauf einer solchen IP deutlich unterscheidbar ist. Allerdings spielt die globale Veränderung des Tonhöhenumfangs als Segmentierungskriterium bei der Transkription gesprochener Sprache insofern eine eher untergeordnete Rolle, als Sprecher ihre Äußerungen relativ selten auf diese Art abgrenzen.

Ähnliches gilt für die Lautstärke/Intensität ('loudness', 'intensity', siehe Kap. 2.1) einer Äußerung. Reduzierte Lautstärke geht oft einher mit reduziertem Tonhöhenumfang (Register), sei es zum Ende einer IP hin im Zusammenhang mit Deklination und/oder einem tiefen Grenzton oder in parenthetischen Äußerungen, deren globaler Tonhöhenverlauf mit reduziertem Tonhöhenumfang realisiert wird (Schuetze-Coburn 1994:142, Cruttenden 1986:179). Das heißt, die Lautstärke kann für diese Fälle meist vernachlässigt werden, da bereits die Tonhöhe von entscheidender Bedeutung für die Abgrenzung einer IP ist. Lautstärkeunterschiede können zudem oft nur in Tonaufnahmen von sehr hoher Qualität klar ausgemacht werden. Trotzdem treten immer wieder Fälle auf, in denen allein die Lautstärke für die Eingrenzung einer IP entscheidend ist, wie z. B. in geflüsterten oder sehr leise realisierten Äußerungen, bei denen in der späteren akustischen Analyse des Äußerungsabschnitts keine F0-Extraktion gewonnen werden kann. Insgesamt gesehen hat sich aber für das vorliegende Korpus gezeigt, was auch Schuetze-Coburn (ebd.) zusammenfassend bemerkt: Lautstärke ist als Segmentierungskriterium nur sehr vereinzelt von Bedeutung.

Atmung (insbesondere das Einatmen, symbolisiert durch "((.h))") wird ebenfalls als prosodisches Kriterium gesehen, das für die Bestimmung einer IP-Grenze von Bedeutung ist (Schuetze-Coburn 1994:143). Als Hauptargument dafür führt Schuetze-Coburn an, dass nach einer Atempause aus physiologischen Gründen oftmals ein Reset folgt. Wie in Kapitel 2.3.1 erörtert, ist Reset ein sehr deutliches und häufig auftretendes Signal für eine IP-Grenze. Die Atmung ist für das vorliegende Korpus als Segmentierungskriterium zwar nicht unbedeutend, jedoch hat sich bei der Transkription gezeigt, dass Atemgeräusche aufgrund der vorhandenen Hintergrundgeräusche bei einigen Aufnahmen nicht wahrnehmbar sind. Es waren somit oft nur die Pausen selbst, die als möglicher Hinweis für eine IP-Grenze betrachtet werden konnten, unabhängig davon, ob der Sprecher (ein-)geatmet hat oder nicht.

Neben den prosodischen Segmentierungskriterien kann man noch einige nicht-prosodische Kriterien nennen, die als Grenzsignal fungieren können. Zu diesen zählen bestimmte lexikalische Einheiten, die typischerweise am Beginn bzw. am Ende einer IP vorkommen, wie zum Beispiel ja, das häufig am Beginn einer Äußerungseinheit realisiert wird, sei es in der Funktion einer Diskurspartikel oder in der eigentlichen Funktion als Affirmation. Ebenso von Bedeutung ist das Anhängsel ne am Ende einer Äußerung (Schuetze-Coburn 1994:150). Diese lexikalischen Einheiten weisen oft einige der oben beschriebenen prosodischen Grenzsignale auf, wie zum Beispiel ein steigender Grenzton auf ne oder erhöhte Sprechgeschwindigkeit auf ja (Schuetze-Coburn 1994:149). Allerdings besteht bei einigen Lexemen, die man als Grenzsignal interpretieren kann, manchmal das Problem, inwieweit diese eine finale Grenze oder den Neubeginn einer IP signalisieren. Dies ist beispielsweise bei und der Fall. Im folgenden Beispiel kann man un(d) sowohl als letztes als auch als erstes Element der beiden jeweiligen IP sehen:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 11: mulde 0:22-breit un

(10) mulde 0:22-breit un (Z. 11-15)

11. so=ne (.) Mulde \ (=)

12. die war (.) ungefähr \ ((.h)) (0.5)

13. zwanzig Meter lang / (0.9)

14. dann hundert Meter breit un \(0.1)

15. drei vier Meter hoch \ ((.h))(0.6)

In Abbildung 11 sieht man, dass un(d) nach dem hohen Ton auf breit (in diesem Fall der Hauptakzent) relativ tief abfällt. Man kann einerseits argumentieren, dass das unbetonte un(d) einen tiefen Grenzton trägt und somit eine finale IP-Grenze markiert. Für diese Segmentierung spricht auch die kurze Pause nach un(d). Andererseits kann man den Tonhöhenverlauf auf un(d) auch als Reset einer neuen IP betrachten, sodass un(d) zur folgenden IP gehört und eine initiale Grenze markiert. Für letzteren Fall kann man auf dem akzentuierten breit einen hohen Grenzton annehmen. Die hier vorgenommene Einteilung mit un(d) als finales Element mit tiefem Grenzton[28] ist insofern 'optional', da beide Einteilungen möglich sind und man sich aufgrund der prosodischen Kriterien nicht eindeutig festlegen kann (zum Unterschied zu 'unklaren' IP-Grenzen siehe Kap. 4.1). Der Fall in Beispiel (10) – eine Konstellation, die nicht selten vorkommt – zeigt, dass lexikalische Einheiten zwar mit einer gewissen Sicherheit eine IP-Grenze signalisieren können, es jedoch nicht immer klar ist, zu welcher IP dieses Lexem aufgrund der prosodischen Kriterien zugehörig erscheint und somit nicht immer eindeutig ist, wo genau die IP-Grenze zu setzen ist. Man könnte bei dieser Konstellation die syntaktische und semantische Struktur der Äußerung als sekundäres Kriterium miteinbeziehen (s. u.). Dies würde bedeuten, dass un(d) als Reset tragende Silbe zur folgenden IP (Z. 15) gehört. Die Syntax/Semantik soll in der vorliegenden Studie aber nur dann als relevant hinsichtlich von IP-Grenzen gelten, wenn, wie in Beispiel (8) auf Seite 17, kein deutliches prosodisches Grenzsignal vorhanden ist. In Beispiel (10) sind hingegen deutliche Kriterien vorhanden (die allerdings keinen absolut eindeutigen Schluss hinsichtlich der genauen Positionierung der IP-Grenze zulassen).

Schließlich stellt sich die Frage nach der Rolle der syntaktischen und semantischen Struktur einer Äußerung für die Perzeption von IP-Grenzen. Schuetze-Coburn (1994:146ff.) sieht Syntax und Semantik als sekundäre Segmentierungskriterien. Er meint, dass syntaktische und semantische Kriterien nur dann zum Tragen kommen, wenn keine prosodischen Segmentierungskriterien vorhanden sind, wie in (8), wo die genaue IP-Grenze allein aufgrund der syntaktischen (und semantischen) Grenze (weil -Satz, Begründung) gesetzt wurde. Meiner Ansicht nach ist die Beurteilung Schuetze-Coburns (1994) sicherlich insofern richtig, als sich auch im vorliegenden Korpus einige Beispiele finden (siehe Beispiel (11) unten), in denen die syntaktische Grenze nicht mit der prosodischen (IP-)Grenze übereinstimmt. Das heißt, die Syntax und die Semantik einer Äußerung sind nicht entscheidend für die Segmentierung einer Äußerung in IPen; ein Sprecher unterbricht z. B. eine Aufzählung, indem er eine Nominalphrase durch eine Pause unterbricht und die Fortsetzung mit erhöhtem Sprechtempo anschließt, was eine deutliche IP-Grenze bedeutet (siehe Kap. 2.3.1). Der Hörer perzipiert allein aufgrund der prosodischen Kriterien an dieser Stelle eine IP-Grenze. Derartige Fälle zeigen, dass die Prosodie gegenüber der Syntax und der Semantik (zumindest in einigen Fällen) als primär empfunden wird. Im folgenden Beispiel unterbricht der Sprecher seine Äußerung innerhalb einer VP:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 12: bordell 1:35-ein dann

(11) bordell 1:35-ein dann (Z. 60-65)[29]

60. dann so mit so zwei so Loverboys / (0.7)

61. ä:h in der Sauna / (0.7)

62. wobei der eine noch dauernd die Petra angemacht hat / (=)

63. irgendwie die ganze Zeit / (=)

64. un ihr noch (.) ein dann \ (0.5)

65. auf Kosten des Hauses versprochen hatte ; (=)

In Beispiel (11) wird die komplexe VP ihr ... ein(en) dann ... versprochen hatte als zwei prosodische Einheiten realisiert: der Sprecher macht nach dann eine relativ deutlich Pause, der Tonhöhenverlauf auf (dem unbetonten) dann ist tiefer als auf der vorangehenden betonten Silbe ein, und das folgende auf wird insgesamt reduziert sowie leiser und hörbar etwas tiefer gesprochen.[30] Man kann an dieser Stelle relativ eindeutig eine IP-Grenze definieren. Der Hörer empfindet die Äußerungsteile der Zeilen 64. und 65. trotz der unterbrochenen syntaktischen Struktur als eigenständige Äußerungseinheiten. Ungeachtet dieses Beispiels, das kein Einzelfall darstellt, darf man nicht außer Acht lassen, dass zwischen IP-Grenzen und insbesondere den syntaktischen Grenzen quantitativ eine hohe Übereinstimmung besteht. Féry (1993) behauptet sogar, "IP boundaries are [...] unlikely to occur in the middle of low-ranking syntactic constituents like PPs or object NPs" (S. 60). Auch Rabanus (2001) meint, dass bei der Bestimmung von IPen "nicht auf die Orientierung an grammatischen Merkmalen verzichtet werden kann" (S. 18). Eine syntaktisch vollständige Äußerungseinheit klingt häufig auch "vollständig" (siehe Kap. 2.4). Syntaktisch unvollständige Äußerungen sind oft auch prosodische Abbrüche (siehe Kap. 2.4 und Kap. 4.4); eine IP-Grenze, die nicht mit einer syntaktischen Grenze übereinstimmt, ist selten durch einen deutlich fallenden oder steigenden Grenzton gekennzeichnet, sondern es finden sich häufig nur leicht abfallende oder ansteigende finale Tonhöhenbewegungen (mehr zu den Abbrüchen in den Kapiteln 2.4 und 4.4.). Da jedoch kein eindeutiger Wechselbezug zwischen syntaktischen und prosodischen Grenzen vorhanden ist, werden die strukturellen Eigenschaften einer Äußerung nicht als Kriterium für klar fixierbare IP-Grenzen betrachtet.

Die oben dargestellten Segmentierungskriterien, insbesondere die in Kapitel 2.3.1 aufgeführten, haben sich im vorliegenden Korpus als die relevantesten Grenzsignale erwiesen. Andere Kriterien, wie z. B. Stimmqualität und Sprecherwechsel (Schuetze-Coburn 1994) sind hier weniger von Bedeutung.[31]

2.4 Abbrüche und ambige IPen

Bei der Transkription eines Diskurses findet man immer wieder IPen, die zwar aufgrund der in Kapitel 2.3 aufgeführten Grenzsignale klar abgrenzbar sind, jedoch in irgendeiner Form den Eindruck einer gewissen "Unvollständigkeit" hervorrufen. Diese IPen können jeweils weiter differenziert werden in ungeplant weil abrupt klingende Unterbrechungen und solche, die aufgrund der von den ungeplanten Unterbrechungen z. T. unterscheidbaren prosodischen Eigenschaften weniger abrupt und ungeplant klingen (s. u.). Diese Differenzierung ist als tentativ zu betrachten, und sie ist keineswegs immer eindeutig durchführbar. Um aber den unterschiedlichen Eindruck (vereinfacht: ungeplant vs. geplant) der beiden Arten "unvollständiger" IPen hervorzuheben und die damit verbundenen prosodischen Eigenschaften herauszustellen, soll in der vorliegenden Studie zunächst die Unterscheidung abbruch vs. ambige IPen getroffen werden.

Die Vollständigkeit einer IP – genauer gesagt, einer Intonationskontur – wird oft darüber definiert, dass eine IP mindestens einen Akzent haben muss (z. B. Pierrehumbert 1980, Cruttenden 1986, Féry 1993, Uhmann 1997, Selting 1995, Grabe 1998). Darüber hinaus, so Cruttenden (1986:42), muss neben einem Akzent zusätzlich eine adjazente Tonhöhenbewegung auf einer unbetonten Silbe unmittelbar vor oder nach dem Akzent vorhanden sein. Mit anderen Worten, der Akzent muss zum einen vor oder nach einer unbetonten Silbe auftreten und zum anderen durch eine fallende oder steigende Tonhöhenbewegung hervorgehoben sein (was nicht für den lexikalischen Akzent oder auch die 'lexikalische Betonung' einer Silbe gilt, zum Unterschied zwischen Akzent und Betonung siehe Kap. 3.1). Es lassen sich jedoch sowohl aus dem vorliegenden Korpus als auch für dialogische Diskurse eindeutig abgrenzbare und "vollständig" klingende IPen anführen, die nicht diese Merkmale aufweisen. Siehe dazu Beispiel (12) (Abbildung 13) auf der folgenden Seite. Dieses Beispiel zeigt einen Äußerungsabschnitt (zwei IPen), in dem keine akzentuierte Silbe vorhanden ist, die durch einen deutlich vernehmbaren Tonhöhenverlauf hervorgehoben ist. Die leichten Tonhöhenbewegungen auf Unterfächer und geprüft sind zum einen für diese Sprecherin minimal (man beachte auch die relativ feinen Skalierungsabstände von 20 Hz), da ihr Sprechstil typischerweise größere Tonsprünge aufweist. Dies ist u. a. in Beispiel (8) Abbildung 9 zu sehen. Dort ist die akzentuierte Silbe Bund bei relativ schneller Sprechweise durch einen deutlicheren Tonsprung hervorgehoben.

[...]


[1] Ladd (1996:6ff.) definiert Intonation über die Eigenschaften 'suprasegmental' (F0, Intensität und Dauer), 'auf Satzebene interagierend (post-lexikalisch)' und 'linguistisch strukturiert'.

[2] Siehe dazu Chafe (1994:passim). Hier versucht Chafe, die Funktionen dieser (Intonations-)Einheiten hinsichtlich des Status der Information im Bewusstsein der Interaktanten (neu vs. alt, aktiv vs. semi-aktiv, etc.) genau zu erfassen – zum Beispiel wie durch die Bildung von Intonationseinheiten die Information im Bewusstsein des Hörers verankert wird und inwiefern die Intonationseinheiten den Status der Information im Bewusstsein des Sprechers widerspiegeln.

[3] Andere Termini sind z. B. intonationsgruppe ('intonation group'), tongruppe ('tone-group', 'tone-unit'), Sinntakt ('sense group'), breath-group, etc. Siehe dazu die Zusammenfassungen u. a. in Cruttenden (1986:35ff.) und Schuetze-Coburn (1994:72ff.).

[4] Die meisten Forscher sind sogar der Ansicht, dass eine IP mindestens einen Akzent haben muss (z. B. Pierrehumbert 1980, Cruttenden 1986, Uhmann 1991, Grabe 1998). Mehr dazu in Kapitel 2.4.

[5] Zur Relation zwischen der Informationsstruktur einer Äußerung und Akzenten siehe u. a. Uhmann 1991, Féry 1993, Lambrecht 1994.

[6] Die Fälle, in denen hohe Akzente am Ende einer IP auftreten, werden ausführlich in Kapitel 4.2.2 behandelt.

[7] Darüber hinaus können durch stimmlose konsonantische Laute, insbesondere Frikative, Perturbationen in der F0-Extraktion erzeugt werden, ohne dass ein tatsächlich vernehmbarer Unterschied in der Tonhöhe vorhanden ist.

[8] Weitere Erläuterungen zur Transkriptionsnotation finden sich im Absatz 'Abkürzungen/Symbole'.

[9] Die Abkürzung S1 als Beschriftung einer der Notationszeilen steht für den/die HauptsprecherIn der jeweiligen Aufnahme. Weitere Details zur grafischen Darstellung sind in Kapitel 4 aufgeführt. Die einzelnen grafischen Darstellungen der F0-Extraktionen weisen aus technischen Gründen einige optische Unterschiede auf (z. B. die Schriftgröße in der Annotationszeile).

[10] Selting (1995:68, passim) verwendet nicht den Terminus 'Reset' sondern operiert mit den Begriffen 'Upstep' und 'Downstep' (Tonhöhensprung nach oben bzw. nach unten). Da 'Upstep' und 'Downstep' häufig in anderen Zusammenhängen verwendet werden (siehe Kap. 3.2.2), erscheinen diese beiden Termini hier unangebracht.

[11] Bei diesen Verzögerungselementen kann man sich die Frage stellen, inwieweit man sie pauschal als gefüllte Pause bezeichnen kann. Denn äh(m) kann jeweils signifikante Unterschiede im Tonhöhenverlauf aufweisen, nämlich gleichbleibend verlaufend sowie leicht und stark abfallend, was unterschiedliche Verwendungen durch den Sprechenden und verschiedene Perzeptionen beim Hörenden nahe legt.

[12] Eine Ausnahme bilden hier die Abbrüche und die sogenannten ambigen IPen (siehe Kap. 2.4), die jeweils eine eigene IP darstellen.

[13] Man beachte die Annotation der finalen Tonhöhenverläufe in 24. und 25.: die IP in 24. wird mit einer IP-finalen Tonhöhenbewegung realisiert, die in der vorliegenden Studie als problematisch einzuordnen gilt (siehe Kap. 4.3) und daher keines der drei Grenzton-Symbole ('/', '\', ';') erhält; die IP-finale Silbe in 25. weist zwar ein sehr hohes Tonhöhenniveau auf, gilt hier aber als 'gleichbleibender' Grenzton mit dem Symbol ';' (siehe die Kapitel 2.3.2 und 4.2.1)

[14] Man nimmt mitunter auch IP-initiale Grenztöne an (u. a. Grice/Baumann 2002). Diese sind aber im weiteren Verlauf dieser Arbeit nur von geringer Bedeutung. Der hier verwendete Begriff grenzton meint ausschließlich den IP-finalen Grenzton; IP-initiale Grenztöne werden ausdrücklich als solche benannt.

[15] Die finalen Silben (nach dem letzten Akzent) einer IP nennt man auch 'Nachlauf' oder 'Abtakt' ('tail', Schuetze-Coburn, ebd.). Diese Terminologie und damit einhergehend die Definition des Grenztons entstammen der Tradition der sogenannten 'Britischen Schule', deren Konzeption von Tonhöhenverläufen sich von der in der vorliegenden Arbeit zugrunde gelegten Sichtweise unterscheidet (mehr dazu in Kap. 3.1).

[16] Der Einfachheit halber soll, anders als bei 'Anakrusis', weiterhin den Terminus 'Grenzton' verwendet werden.

[17] Es wird hier zunächst die Definition von Trask (1996) zugrunde gelegt, nämlich dass nur eine einzige Silbe einen Grenzton trägt.

[18] Zum besseren Verständnis der folgenden Transkriptionsausschnitte: Das Thema des Gesprächs sind die anstehenden Prüfungen der Hauptsprecherin (S1) für den Beruf der Krankenschwester, u. a. in den Fächern Psychologie.

[19] Der Begriff ton impliziert normalerweise eine distinktive phonologische Kategorie (ähnlich wie ein Phonem in der segmentalen Phonologie). Dies ist im Kontext der Grenztöne zwar angemessen, da (hohe und tiefe) Grenztöne als jeweils eigene phonologische Kategorie gelten. Jedoch wird der Terminus 'Ton' im weiteren Verlauf der Arbeit rein deskriptiv verwendet, ohne notwendigerweise eine phonologische Kategorie zu implizieren.

[20] Die F0-Extraktion zeigt sowohl am Beginn als auch am Ende der Silbe -tig jeweils einen kurzen Abfall. Dieser Abfall ist auditiv nicht vernehmbar und durch die Produktion der konsonantischen Laute an diesen Stellen zu erklären.

[21] IP-Grenzen, die keine Pause aufweisen, werden mit "(=)" symbolisiert.

[22] In der vorliegenden Arbeit werden flache Grenztöne mit ";" transkribiert.

[23] Hier sei erwähnt, dass die Sprecherin die lexikalisch betonte Silbe in Psychologie nicht betont/akzentuiert. Dem auditiven Eindruck zu urteilen, liegt die Betonung interessanterweise auf Psychologie. In der Grafik ist die Betonung in diesem Falle nicht eindeutig nachweisbar, denn man sieht zum Beispiel keinen deutlichen Anstieg in F0 oder in der Intensität (mehr zu Akzenten in Kap. 3.1).

[24] Hier muss man den Ausschlag in F0 auf wollte ignorieren, da dieser u. a. durch den Konsonanten ([t]) hervorgerufen wird.

[25] Siehe Prieto (1998) zum Verhalten tiefer Töne zwischen 'herabgestuften' hohen Akzenttönen im Spanischen.

[26] Eine genauere Differenzierung der Begriffe downstep, deklination und anderer Termini, die im Zusammenhang mit globalen Abwärtstrends in der Literatur verwendet werden, findet sich in Di Cristo & Hirst (1998:21f.).

[27] Siehe zum Beispiel Tao 1996:47ff: Tao spricht in seiner Studie zur chinesischen Alltagssprache von einer sogenannten "declination unit (DU)", die für seine Typologie der IPen bedeutsam ist. Diese Einheit ist durch einen Abwärtstrend im Verlauf einer Äußerung gekennzeichnet. Die DU kann sich über mehrere IPen erstrecken, was sich mit der Aussage Schuetze-Coburns (1994) deckt. Das Ende einer DU geht meist mit dem Ende einer IP einher (Tao 1996:48).

[28] Der Grenzton wird hier zunächst ohne Einschränkung als tief bezeichnet ("\"). In Kapitel 4.3 wird diese Kategorisierung in Frage gestellt, da dieser Ton kein typischer tiefer Ton ist, sondern etwas höher realisiert wird.

[29] Der Monolog 'bordell' handelt von einem Bordell mit männlichen Angestellten ("Loverboys") für Frauen.

[30] Aufgrund der geringeren Lautstärke kann für die Silbe auf keine F0-Extraktion gewonnen werden. Hier ist der (deutliche) auditive Eindruck entscheidend.

[31] Es finden sich jedoch vereinzelte Fälle, in denen ein zweiter Sprecher den Hauptsprecher des jeweiligen Monologs unterbricht. In diesen Fällen ist das Kriterium Sprecherwechsel natürlich von Bedeutung. Da es sich beim vorliegenden Korpus aber um monologische Diskurse handelt, sind Sprecherwechsel als seltene Ausnahmen zu sehen.

Ende der Leseprobe aus 118 Seiten

Details

Titel
Grenztöne im Deutschen - eine empirische Studie spontansprachlicher Texte
Hochschule
Ruhr-Universität Bochum
Note
1,1
Autor
Jahr
2005
Seiten
118
Katalognummer
V68762
ISBN (eBook)
9783638600590
ISBN (Buch)
9783638711821
Dateigröße
1338 KB
Sprache
Deutsch
Schlagworte
Grenztöne, Deutschen, Studie, Texte
Arbeit zitieren
Markus Greif (Autor:in), 2005, Grenztöne im Deutschen - eine empirische Studie spontansprachlicher Texte, München, GRIN Verlag, https://www.grin.com/document/68762

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Grenztöne im Deutschen - eine empirische Studie spontansprachlicher Texte



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden