Akustische Phonetik - Klinische Phonetik

E-Book Cover: ()
Flash Player und JavaScript werden für eine verbesserte Ansicht des Dokuments benötigt. Bitte installieren Sie den Flash Player und aktivieren Sie Javascript.

Install Flash Player

Details

Titel: Akustische Phonetik - Klinische Phonetik
Autor: Sinikka Föllner
Fach: Sprachwiss. / Sprachforschung (fachübergreifend)
Veranstaltung: Klinische Phonetik
Institution/Hochschule: Rheinisch-Westfälische Technische Hochschule Aachen
Kategorie: Hausarbeit
Jahr: 2007
Seiten: 14
Note: 1,0
Sprache: Deutsch
Dateigröße: 168 KB
Archivnummer: V111157
ISBN (E-Book): 978-3-640-09249-9

Volltext (computergeneriert)

Lehr ­ und Forschungsgebiet für Phoniatrie und Pädaudiologie

Klinische Phonetik

Hausarbeit

Klinische Phonetik

Thema:

Akustische Phonetik

abgegeben von:

Sinikka Föllner

WS 2006/ 2007

Lehr- und Forschungslogopädie

1. Fachsemester

1


Inhaltsverzeichnis

1. Einleitung Seite 03

2. Physikalische Grundlagen Seite 03

3. Digitale Signaldarstellung im Rechner Seite 06

3.1 Abtastung Seite 06

3.2 Quantisierung Seite 07

4. Darstellungsmöglichkeiten von akustischen Signalen Seite 08

4.1 Zeitbereichsdarstellung (Oszillogramm) Seite 09

4.2 Frequenzbereichsdarstellung (Kurzzeitspektogramm) Seite 10

4.3 Zeit- und Frequenzbereichsdarstellung (Breit-/ Schmalbandsonagramm) Seite 12

5. Schlussbemerkung Seite 13

2


1. Einleitung:

Die Phonetik befasst sich im Allgemeinen mit der Entstehung, Übertragung und

Wahrnehmung von Schallereignissen, produziert durch die menschlichen Artikulationsorgane.

Ihre Basis sind die Erkenntnisse aus Anatomie, Physiologie, Neurologie und Physik. Man

unterscheidet verschiedene Bereiche der Phonetik. Die artikulatorische Phonetik befasst sich

hierbei mit der Lautproduktion, die akustische Phonetik mit der Lautübertragung und die

auditive mit der Lautwahrnehmung, auch Lautperzeption genannt.

In dieser Hausarbeit soll auf die akustische Phonetik eingegangen werden, welche die

Sprachlaute unter dem Aspekt der Lautübertragung untersucht1. Ihr Gegenstand ist somit die

physikalisch-akustische Struktur der Sprachlaute.

2. Physikalische Grundlagen:

Die akustische Phonetik behandelt die physikalische Natur der Schallwellen, die die Laute

bilden.2

Schall bezeichnet dabei alle sich im Wasser, in der Luft oder in einem anderen elastischen

Medium wellenförmig ausbreitende Schwingungen, die vom menschlichen Gehör

wahrgenommen werden können. In der akustischen Phonetik sind die Schallschwingungen

Luftdruckschwankungen um einen Mittelpunkt herum, so genannte Kreisschwingungen.

Diese Kreisschwingungen werden ,,fast ausschließlich als Zeitfunktionen verwendet"3. Das

heißt also, dass die mathematische Funktion der Sinusschwingung, wie die Kreisschwingung

als fundamentale Grundschwingung dargestellt wird, dazu dient, Veränderungen von

physikalischen Größen in Abhängigkeit von der Zeit darzustellen.4 Sprachschall breitet sich

in Longitudinalwellen aus und überträgt somit das akustische Ereignis vom Sender, das heißt

Sprecher, zum Empfänger, das heißt Hörer.

Die Schwingung wird durch die Parameter Periodendauer, Amplitude und Frequenz

charakterisiert.

Die Zeitdauer der Schwingung wird als Periodendauer bezeichnet. Sie wird physikalisch als

1 Vgl. http://www.fb10.uni-bremen.de/linguistik/khwagner/phonetik/phonologie1.htm; 09.03.2007; 14:55

2 Vgl. http://phonetik.know-library.net/; 17.01.2007 ; 12 :04

3 http://www.phonetik.uni-muenchen.de/AP/APKap1.html; 16.02.2007; 13:24

4 Vgl. http://www.phonetik.uni-muenchen.de/AP/APKap1.html; 16.02.2007; 13:24

3


T in ms dargestellt. Das Signal wiederholt sich nach einer Periode in identischer Weise.

Die Amplitude ist die physikalische Bezeichnung für die maximale Auslenkung einer

Schwingung aus der Mittellage heraus. Das heißt sie bezeichnet die Stärke der periodischen

Schwankung. Sie wird als Maximalwert der Ordinate abgetragen. Die Amplitude steht

physiologisch für die Lautstärke und wird in dB angegeben.

Die Grundtonhöhe einer periodischen Schwingung wird durch die Frequenz definiert. Sie gibt

die Anzahl der Schwingungen in einem bestimmten Zeitraum an und wird durch in Hz

gemessen. Die Bezugsgröße für Hz ist immer 1 Sekunde.

Das menschliche Gehör kann verschiedene Komponenten der Frequenz wahrnehmen.

Der Ton ist physikalisch betrachtet eine reine periodische Sinusschwingung. Er verändert sich

in Abhängigkeit von Amplitude und Frequenz. Reine Töne oder Sinustöne kommen in der

Natur nicht vor, jedoch definieren sie die Grundschwingung und somit den Grundton einer

Schwingung.

Eine weitere Komponente ist der Klang. Er ergibt sich aus einer Überlagerung mehrerer

periodischen Sinusschwingungen und besteht aus einem Grundton und seinen ganzheitlichen

Vielfachen, den so genannten Ober- oder Teiltönen. Somit sind Klänge immer harmonisch.

Auch beim Wegfall des Grundtones bleib die Periodizität und die Periodendauer T einer

Schwingung erhalten. Ein Klang kann sich somit aus einem Grundton und seinen Obertönen

und einem ersten Teilton und seinen weiteren Teiltönen zusammensetzen. Die Vokale im

Deutschen sind Klänge.

Stimmlose Konsonanten sind dagegen Geräusche. Sie haben keinen phonatorischen Anteil.

Ein Geräusch ergibt sich aus der Überlagerung mehrerer aperiodischer Sinusschwingungen.

Das es heißt es besteht aus nicht ganzzahligen Vielfachen eines Grundtones.

Neben Vokalen und stimmlosen Konsonanten gibt es im Deutschen noch stimmhafte

Konsonanten. Diese werden als Klang-Geräusch-Gemische bezeichnet, da sich periodische

und aperiodische Schwingungen überlagern.

Das Erscheinungsbild dieser physikalischen Information, dem Schall, wird als Signal

bezeichnet. Ein Signal ist zum einen beschreibbar durch eine mathematische Funktion zum

anderen auch durch ein Verteilungsgesetz und schließlich empirisch durch eine Messreihe,

wozu die meisten Signale gehören. ,,Ist ein Signal Funktion nur einer Veränderlichen, so

sprechen wir von einem eindimensionalen Signal, sonst von mehrdimensionalen Signalen."5

Zu den eindimensionalen Signalen zählen akustische Signale aller Art (Musik, Geräusche),

5 Prof. Dr.-Ing. W. Hess: ,,Grundlagen der Sprachsignalverarbeitung"

4


biologische Signale (z.B. EEG) und eben auch Sprachsignale. Diese Signale sind von nur

einer Variablen abhängig und durch diese veränderbar. Mehrdimensionale Signale können

z.B. zweidimensionale Bilder sein.

Eindimensional Signale sind meist Zeitfunktionen und somit Vorgänge. Das Signal stellt die

Augenblicksamplitude, den Momentanwert oder den Wert des Signals zu einem bestimmten

Zeitpunkt dar.6

Die akustische Phonetik beschäftigt sich vorrangig mit Sprachsignalen, deswegen soll im

Folgenden primär darauf eingegangen werden.

Das Sprachsignal ist der Kommunikationsträger für den Menschen. Es ist zeitveränderlich

und in der Art und Weise wie die Zeitveränderung erfolgt, liegt die Information.

In einigen Abschnitten ist das Signal quasiperiodisch, was als Klang, somit als Vokal, und

Klang-Geräusch-Gemisch, das heißt als stimmhafter Konsonant, identifiziert werden kann. In

anderen Abschnitten gibt es eine zeitliche Struktur des Rauschens, was den Geräuschen und

somit den stimmlosen Konsonanten entspricht. Weiterhin existieren Pausen, die teilweise auch

sehr kurz sein können. Das Sprachsignal ist ein kontinuierlicher Datenstrom und die

Änderungen erfolgen stetig und fließend.

Sprachsignale können verschiedenartig angeregt werden. Entweder durch Phonation, dann

spricht man von einer stimmhaften Anregung. Die entspricht dann im Signal den

quasiperiodischen Schwingungen, da durch Stimmgabe ein Klang oder Klang-Geräusch-

Gemisch erzeugt wird. Im Gegensatz dazu wird das Rauschen bei der stimmlosen Anregung

von einer Engstelle bestimmt. Diese geräuschartige Signalform ist dann einem stimmlosen

Konsonanten, hauptsächlich dem Frikativ, gleichzusetzen, da hier durch Veränderung des

Ansatzrohres die Luft durch einen Engpass entweicht. Bei der transienten Anregung

schließlich, staut sich die Luft durch einen Verschluss im Mund und durch ein plötzliches

Öffnen wird der Druck anschließend abgebaut. Dies entspricht im Deutschen den Plosiven.

Im Signal ist hier eine kurze Pause erkennbar und anschließend hört man ein

Öffnungsgeräusch, den so genannten ,,Burst", der sich dann mit dem folgenden Laut verbindet

und diesen dann beeinflusst. Die Beeinflussung wird als Koartikulation bezeichnet und belegt

somit die ständige Dynamik und Veränderung des Sprachsignals.

6 vgl. : Prof. Dr.-Ing. W. Hess: ,,Grundlagen der Sprachsignalverarbeitung"

5


3. Digitale Signaldarstellung im Rechner

Die immer größere werdende Bedeutung der akustischen Phonetik für die Analyse der

Sprachsignalverarbeitung hängt stark mit der stetigen Entwicklung der Instrumente

zusammen, die für derartige Untersuchungen verwendet werden. Sprachsignalverarbeitung

wird im engeren Sinne einem Teilgebiet der Informationstechnik zugeordnet, wobei eben auch

Gesichtspunkte der Sprachverarbeitung und Psychoakustik eine große Rolle spielen. Ein

aktueller Hauptanwendungsbereich, der die Forschung vorantreibt, ist die Mobilfunktechnik

und zum anderen die Mensch-Maschine-Kommunikation, in Verbindung mit Multimedia-

Systemen.

Heutzutage wird Sprachschallverarbeitung computergestützt durchgeführt

,,Die Verarbeitung analoger Signale mit digitalen Rechenanlagen erfolgt durch eine Erfassung

von wert- und zeitkontinuierlichen Signalwerten und deren Umsetzung in binär codierte wert-

und zeitdiskrete Daten."7

Analoge Signale sind kontinuierlich und Zeit- und Amplitudenwerte lassen sich theoretisch

unendlich präzise und mathematisch mit unendlich vielen Nachkommastellen beschreiben,

wie z.B. das Sprachsignal. Das digitale Signal verfügt über keine zulässigen

Nachkommastellen, da digitale Hardware nur mit Nullen und Einsen in verschiedenen Folgen

operiert. Somit ist es diskret.

Die Umwandlung des analogen in das digitale Signal wird auch Quantisierung genannt und

erfolgt in zwei verschieden Stufen.

3.1 Abtastung

In der Abtastung wird das zeitkontinuierliche Signal in ein zeitdiskretes Signal umgewandelt.

Dabei bedeutet das zeitkontinuierliche Signal, dass die Kenntnis seines Wertes zu jedem

beliebigen Zeitpunkt erforderlich ist, dagegen ist bei einem zeitdiskreten Signal dieses Wissen

nur zu bestimmten Zeitpunkten notwendig.8 Man kann auch sagen, dass die Abtastung die

Umwandlung der unabhängigen Variable, der Zeit, in die diskrete Darstellung bedeutet. Das

heißt, das Signal wird in eine Punktsequenz umgewandelt und der Zeitwert mit unendlich

vielen Nachkommastellen wird in einen Zeitwert mit endlich vielen Nachkommastellen

7 http://www.fh-friedberg.de/fachbereiche/iem/telekom-labor/zinke/fourier/dipl_htm/dpl07.htm;21.02.2007;

15:20

8 vgl: http://www.fh-friedberg.de/fachbereiche/iem/telekom-labor/zinke/fourier/dipl_htm/dpl07.htm;

21.02.2007; 15:20

6


konvertiert. Die Abtastung erfolgt immer gleichförmig, also in gleichen Intervallen der

unabhängigen Variablen. Somit werden nur noch bestimmte Signalinformationen bestimmter

Zeitpunkte, eben der abgetasteten Punkte, übermittelt. Die Abtastrate bzw. das Abtastintervall

gibt demzufolge an, wie oft das Signal abgetastet wird und wie viele Zeitwerte konvertiert

werden. ,,Welche Werte das Abtastintervall bzw. die Abtastfrequenz annehmen muss, sagt uns

das Abtasttheorem."9 Es besagt, dass sie mehr als das doppelte der höchsten im Signal

vorkommenden Frequenz betragen muss10 oder, die obere Grundfrequenz des Signals

entspricht der halben Abtastrate. Außerdem sind immer mindestens zwei Signale, welche

,,Berg" und ,,Tal", also Maximum und Minimum der Amplitude, des Signals bezeichnen

sollten, zur Abtastung nötig. Wenn das Abtasttheorem missachtet wird, kann es zu groben

Verzerrungen kommen, die sich auf die Signalanteile auswirken, die das Theorem verletzen.

Wenn dies aber eingehalten wird, dann lässt sich das analoge Signal näherungsweise aus dem

digitalen Signal rückwandeln.

3.2 Quantisierung

Die zweite Stufe der Umwandlung des analogen in das digitale Signal ist die Quantisierung

der Amplitude. Hier wird die abhängige Variable, also das Sprachsignal selbst, in die diskrete

Darstellung umgewandelt. Es erfolgt die Übersetzung einer kontinuierlichen Amplitudenskala

in eine diskrete mit einer zählbaren, d.h. endlichen Anzahl möglicher Werte. Das

wertkontinuierliche Signal, welches beliebige Werte annehmen kann, wird in ein

wertdiskretes Signal umgewandelt, welches nur bestimmte, z.B. binäre, Werte besitzen darf.

In diesem Fall wären das die Ziffern 0 und 1.11 Auch hier gelte die Vereinbarung, dass die

Quantisierung gleichförmig, d.h. stets in gleichen Intervallen der abhängigen Variablen

erfolgen soll.

Der Vorgang der digitalen Quantisierung eines akustischen Signals wird pro Zeiteinheit für

eine bestimmte Anzahl von Durchgängen wiederholt. Das Signal wird also vorerst abgetastet

und in eine zeitdiskrete Darstellung umgewandelt. Da die Abtastung immer in gleichen

Intervallen abläuft, bleibt die Abtastrate über den gesamten Datenstrom konstant. Es werden

also mehrere ,,Datensätze" erstellt, die den momentanen Schwingungszustand möglichst

präzise repräsentieren. Die zeitdiskreten Werte von Abtastsignalen können nur in

9 Prof. Dr.-Ing. W. Hess: ,,Grundlagen der Sprachsignalverarbeitung"

10 vgl: Prof. Dr.-Ing. W. Hess: ,,Grundlagen der Sprachsignalverarbeitung"

11 vgl: http://www.fh-friedberg.de/fachbereiche/iem/telekom-labor/zinke/fourier/dipl_htm/dpl07.htm;

21.02.2007; 15:20

7


Datenwortlängen endlicher Wortlänge abgebildet werden.12 Welche Genauigkeit oder

Auflösung pro Abtastung möglich ist, bestimmt die Abtasttiefe. Sie gibt an, wie viele Bits pro

Durchgang für die Erstellung eines Datensatzes zur Verfügung stehen. Je nach Bitrate, welche

sich aus dem Produkt von Abtastrate und -tiefe errechnet, verändert sich die Qualität der

Aufzeichnung.

Jedoch liegen zwischen den möglichen Stufen der Quantisierung auch Amplitudenwerte, die

nicht erfasst werden können. Es kann zu Ungenauigkeiten der Signalaufzeichnungen

kommen, was auch als ,,Quantisierungsrauschen" bekannt ist. Demzufolge führt eine zu grobe

Wahl der Quantisierungsstufen zu geräuschähnlichen Verzerrungen.

Die Umwandlung analoger in digitale Signale erfolgt mittels eines Analog-Digital-Wandlers

oder -Umsetzers.13 ,,A/D-Wandler sind elektronische Schaltungen, welche nach

unterschiedlichen Wandlungsverfahren arbeiten, bei denen ein kontinuierliches Analogsignal

in der Amplitude und der Zeit quantisiert wird."14 A/D-Wandler unterscheiden ich in der Art

der Quantisierung, Wandlungsgeschwindigkeit, Codierung und Auflösung, mit der sie analoge

Signale in digitale umwandeln und diese dann weiterverarbeitet oder abgespeichert werden

können. Die Hauptparameter eines ADUs sind seine Auflösung in Bit und seine

Wandlungsgeschwindigkeit, welche meist konstant ist und wovon die maximale

Wandlungsrate abhängt. Die Auflösung bestimmt also die Anzahl der Bits, die zur Darstellung

des Einganssignals verwendet werden. Von ihr hängt demzufolge auch das

Quantisierungsrauschen ab.15

4. Darstellungsmöglichkeiten von akustischen Signalen

Die Grundlage für die Verarbeitung von Sprachsignalverarbeitung mittels des Computers ist

nun durch die Digitalisierung gegeben. Aber auch für die Darstellung dieser Signale gibt es

verschiedene Möglichkeiten, die unterschiedliche Analysen ermöglichen.

12 vgl: http://www.fh-friedberg.de/fachbereiche/iem/telekom-labor/zinke/fourier/dipl_htm/dpl07.htm;

21.02.2007; 15:20

13 vgl: http://de.wikipedia.org/wiki/Analog-Digital-Umsetzer; 23.02.2007; 9:38

14 http://www.itwissen.info/?ano=01-004793&id=31; 23.02.2007; 09:43

15 vgl: http://de.wikipedia.org/wiki/Analog-Digital-Umsetzer; 23.02.2007; 9:48

8


4.1 Zeitbereichsdarstellung (Oszillogramm)

In der Signaldarstellung, welche das Oszillogramm ermöglicht, werden Amplitudenwerte über

der Zeit abgetragen. Das Signal kann daraus folgend segmentiert und auf seine

Grundschallform definiert werden. Es ist möglich quasiperiodische Signalbereiche, das heißt

Klänge, Geräusche als Rauschen und auch Pausen im Signal zu erkennen. Des weiteren lassen

sich die Lautklassen Vokal, Frikativ und Plosiv mittels der Signaldarstellung differenzieren

und es können Rückschlüsse auf Sonorität gezogen werden.16 Durch die Segmentierung des

Signals lassen sich Aussagen über die Dauer eines Lautes geben und somit werden die

Unterscheidung von Lang- und Kurzvokalen und deren objektive Darstellung ermöglicht.

Außerdem ermöglicht sie die Messung von VOTs17 und der Sprechgeschwindigkeit.18

Da auch beim computergestützten Oszillogramm, wie bei allen anderen Programmen, die

Signale darstellen können, das Markieren und wiederholte Abspielen möglich ist, eignet es

sich bestens für die gezielte auditive Analyse der Sprachaufnahme.

Da Sprachsignale sehr komplex strukturiert sind und mit zunehmender Äußerungslänge die

Intensität, auch die gleicher Laute, abnimmt, ist eine genaue Analyse der Lautintensität nur

bedingt möglich. Auch der Einfluss verschiedener Gesten auf vorhergehende oder

nachfolgende Laute ist dann nicht mehr ablesbar. Da außerdem die Zeitauflösung eines

Oszillogramms sehr unterschiedlich sein kann, sieht dies häufig unterschiedlich aus.19

Im Oszillogramm erhält man Aufschluss über die Intensität eines Signals zu einem

bestimmten Zeitpunkt. Jedoch erfährt man nichts über die einzelnen Frequenzen des Signals.

Deshalb wird üblicherweise die Darstellung des Signals in Form der

Frequenzbereichsdarstellung im Spektrum gewählt.

Um ein solches Spektogramm erzeugen zu können, bedient man sich des Fouriertheorems. Es

besagt, dass jedes Signal eindeutig in Sinus- (und Cosinus-) Schwingungen mit definierter

Amplitude und Phase zerlegt und umgekehrt aus den Amplituden- und Phasenwerten auch

wieder eindeutig zusammengesetzt werden kann.20

Das wird auch als Fourieranalyse, Zerlegung, und Fouriersynthese, Zusammensetzung,

bezeichnet. Bei der Fourieranalyse, einer der wichtigsten Methoden zur Analyse von

16 vgl: Prof. Dr. phil. Bernd Kröger, Akustische Phonetik I, WS 06/07, Vorlesungsskript 07_Akustik; Seite 7

17 VOT: Voice Onset Time = Stimmeinsatz

18 vgl: http://www.ling.uni-potsdam.de/~mayer/teaching/phonetik/Phonetik.pdf

19 vgl: Prof. Dr. phil. Bernd Kröger, Akustische Phonetik I, WS 06/07, Vorlesungsskript 07_Akustik; Seite 7

20 vgl: Prof. Dr. phil. Bernd Kröger, Akustische Phonetik I, WS 06/07, Vorlesungsskript 07_Akustik; Seite 9

9


Sprachschall, wird jede Sinusschwingung durch eine Linie, welche als Peak bezeichnet wird,

im Spektrum dargestellt. Das Ergebnis kann dann in unterschiedlicher Weise interpretiert

werden. Ein Klang, eine periodische Schwingung eines Vokals beispielsweise, wird als

Linienspektrum bezeichnet, da die einzelnen Frequenzkomponenten klar voneinander

abgrenzbar sind. Ein Spektrum eines Geräusches liefert dagegen ein kontinuierliches

Spektrum, da hier die Frequenzkomponenten unendlich nahe beieinander liegen und nicht

mehr klar voneinander abgrenzbar sind. Sie sind nicht mehr als diskrete Linien darstellbar, da

sich die Sinusschwingungen gegenseitig überlagern.21

4.2 Frequenzbereichsdarstellung (Kurzzeitspektogramm)

Im Kurzzeitspektogramm, auch Amplitudenspektrum genannt, erhält man Informationen über

Frequenzen des zu analysierenden Signalanteils, jedoch bleiben Informationen über den

zeitlichen Verlauf unbeachtet. Es werden nur Signalanteile innerhalb eines Analysefensters,

der gewählte Signalabschnitt, berechnet. Eventuelle Veränderungen des Signals innerhalb des

Analysefensters sind demzufolge in dieser statischen Darstellungsform Spektrum nicht mehr

sichtbar. Das Signal ist somit ,,quasistationär" und vor allem für die Analyse quasi-

zeitkonstanter Signalbereiche, wie z.B. die Mitte eines Vokalbereiches, eine adäquate

Darstellungsmöglichkeit. Man erhält demzufolge keine Mitteilung über das gesamte

Sprachsignal. Des weiteren ist es möglich mittels des Kurzzeitspektrums auch die

Artikulationsbewegungen anhand von Formantverläufen beobachten.22

Das Sprachsignal ist ein kontinuierlich, sich ständig verändernder Datenstrom über eine

längere Zeit hinweg. Diese langsamen Veränderungen, so genannte Formanttransitionen,

können jedoch in einem einzelnen Spektrum nicht dargestellt werden. 23

Deshalb ist es notwendig, mehrere Spektren hintereinander zu erzeugen. Dabei wird das

Analysefenster sukzessive auf der Zeitachse, die x- Achse, nach rechts verschoben. Das

daraus resultierende Wasserfalldiagramm lässt sich dreidimensional darstellen. Dabei sind die

einzelnen Spektren entlang der Zeit- oder x- Achse aufgereiht, die Frequenz ist auf der y-

Achse abgetragen und die Amplitude in z-Richtung.

Besser lesbar ist jedoch die Darstellung in zweidimensionaler Form, als Spektogramm oder

Sonagramm bezeichnet. Das Problem die dreidimensionale Wasserfallgrafik in zwei

21 vgl: http://www.ling.uni-potsdam.de/~mayer/teaching/phonetik/Phonetik.pdf

22 vgl: Prof. Dr. phil. Bernd Kröger, Akustische Phonetik I, WS 06/07, Vorlesungsskript 07_Akustik; Seite 14

23 vgl: http://www.ling.uni-potsdam.de/~mayer/teaching/phonetik/Phonetik.pdf

10


Dimensionen unterzubringen, wird dadurch gelöst, dass die Dimension der Amplitude durch

Graustufen repräsentiert wird. Je höher die Intensität, desto dunkler das Grau. Der erste

Schritt bei der Erstellung eines Sonagramms ist die Kodierung dieser Graustufen.

Anschließend wird das Spektrum um 90° gegen den Uhrzeigersinn gedreht und die Frequenz

wird nun auf der y-Achse abgetragen. Auf der jetzt freien x-Achse werden letztendlich

mehrere aufeinander folgende Graustufenspektren aneinandergereiht. Formanten24 und vor

allem Formantenverläufe stellen sich im Spektogramm somit als dunkelgraue horizontale

Balken dar.25

Die spektrale Analyse bzw. Fourieranalyse wird heutzutage am Computer mittels der Fast

Fourier Transformation (FFT) durchgeführt. Dieses Standardverfahren arbeitet mittels eines

Algorithmus, welcher die Fourieranalyse diskreter Signale besonders effizient am Rechner

einsetzt.26 Dabei spielt die gegenseitige Abhängigkeit zwischen zeitlicher Auflösung und

Frequenzauflösung eine besondere Rolle. Das heißt, wird die zeitliche Auflösung verbessert,

verzeichnet man unweigerlich Einbußen bei der Frequenzauflösung, und umgekehrt. Der

Grund hierfür ist, dass der Frequenzbereich nur durch eine bestimmte Anzahl diskreter Punkte

mit festem Abstand repräsentiert wird. Je mehr Punkte also zur Verfügung stehen, desto besser

ist folglich die Frequenzauflösung. Vergleichen kann man das mit der Quantisierung. Je mehr

Stufen zur Verfügung stehen, desto feiner ist die Amplitudenauflösung. Die Anzahl der

Punkte, welche in die Analyse eingehen, sind jedoch nicht frei wählbar, sondern werden durch

die Größe des Analysefensters festgelegt.

Wählt man einen relativ großen Abschnitt, erhält man relativ viele Informationen über den

Signalverlauf mit einer hohen Frequenzauflösung. Jedoch wird alles nur durch ein

Durchschnittsspektrum dargestellt und Angaben über artikulatorische Dynamik, wie z.B. bei

Formantbewegungen, gehen verloren. Die Zeitauflösung ist eher gering.

24 ,,Formanten (lat. formare = formen) ergeben sich aus Resonanzspektren der menschlichen Stimme. Diese

Resonanzen führen zur relativen Verstärkung bestimmter Frequenzbereiche. Die Formanten sind die Maxima

derjenigen Frequenzbereiche, bei denen die relative Verstärkung am höchsten ist. Bei der menschlichen Sprache

charakterisiert die Lage von Formanten die Bedeutung bestimmter Laute. Die ersten beiden Formanten

f

und

f

1

2

sind für die Verständlichkeit der Vokale wichtig. Ihre Lage charakterisiert den gesprochenen Vokal. Um sich

verstehen zu können, müssen diese Formanten bei jedem Sprecher in etwa gleich sein. Der dritte und der vierte

Formant

f

und

f

sind für das Sprachverständnis nicht mehr wesentlich. Diese charakterisieren eher die

3

4

Anatomie des Sprechers."(http://de.wikipedia.org/wiki/Formant#Erl.C3.A4uterungen_zur_Definition)

25 vgl : http://www.ling.uni-potsdam.de/~mayer/teaching/phonetik/Phonetik.pdf

26 vgl: http://www.ling.uni-potsdam.de/~mayer/teaching/phonetik/Phonetik.pdf

11


Um diese dynamischen Aspekte, die in der akustischen Phonetik wichtig sind, berücksichtigen

zu können, muss ein kürzeres Analysefenster gewählt werden. Die zeitliche Auflösung wird

somit besser, jedoch stehen dem FFT-Algorithmus weniger Analysepunkte zur Verfügung. Die

Frequenzauflösung wird gröber.27

4.3 Zeit- und Frequenzbereichsdarstellung (Breit-/ Schmalbandsonagramm)

Das Sonagramm stellt, wie oben schon erwähnt, das Sprachsignal in drei akustischen

Dimensionen dar. Die Zeit in [ms], welche als Dauer wahrgenommen wird, ist auf der x-

Achse abgetragen und wird von links nach rechts gelesen. Die Frequenz, als Tonhöhe

wahrgenommen, ist auf der y-Achse von unten nach oben zu lesen und die Intensität, als

Graustufen oder Schwärzungsgrad, findet sich auf der gedachten z-Achse des Sonagramms.

Je nach Art der Spektren, die für das Sonagramm verwendet werden, und je nach Größe des

Analysefensters differenziert man zwischen Breit- und Schmalbandsonagramm.

Beim Breitbandsonagramm wählt man eine eher kleine Fensterweite mit 300Hz. Daraus

resultiert eine gute Zeitbereichsauflösung und einzelne Glottisschläge werden sichtbar, zu

erkennen an feinen senkrechten Strichen, welche den Formanten entsprechen.

Frequenzbereiche mit einer hohen Intensität werden als dunkle, relativ breite Streifen

dargestellt und es lassen sich schnell wechselnde Ereignisse gut erfassen. Aufgrund der

niedrigen Frequenzauflösung sind die einzelnen Harmonischen nicht zu erkennen.

Für die Darstellung der Harmonischen, die Teiltöne, eignet sich das Schmalbandsonagramm.

Hier wählt man eine große Fensterweite von 50Hz, wodurch man eine gute

Frequenzbereichsauflösung erhält und Teiltöne ablesbar sind. Durch die schlechte

Zeitbereichsauflösung sind jedoch die einzelnen Glottisschläge nicht mehr gut erkennbar. Hier

werden die Signalkomponenten als waagerechte, schmale, dunkle Streifen dargestellt.

Durch die Darstellung im Sonagramm lassen sich zahlreiche Informationen aus dem

Sprachschall entnehmen.

Wegen der guten Zeitauflösung werden in der akustischen Phonetik bevorzugt

Breitbandsonagramme verwendet. Hier lassen sich genauere Aussagen über die

Formantenstruktur, welche vor allem bei der Lautidentifikation wichtig sind, treffen.

Spektrale Struktur sowie Veränderungen der Intensität (Graustufen) geben sehr gut Aufschluss

über die einzelnen Lautgrenzen. Des weiteren lassen sich aufgrund dessen Lautklassen gut

voneinander zu differenzieren. Dabei sind Vokale durch eine harmonische Struktur mit einer

27 vgl: http://www.ling.uni-potsdam.de/~mayer/teaching/phonetik/Phonetik.pdf

12


schmalen, horizontalen Schwärzung, den Formanten, gekennzeichnet. Bei den Frikativen

zeigt sich eine breitbandige Graufärbung ohne ausgeprägte horizontale Struktur, wogegen sich

Plosive aufgrund ihrer aufeinander folgenden Phasen Verschluss, Plosion, Affrikation und

Aspiration unterscheiden. Der Bereich der Grundfrequenz des Sprechers wir mittels eines

schwach grauen, horizontalen Balkens gekennzeichnet. Er wird auch als ,,voice bar"

bezeichnet. Des weiteren können geübte Leser im Sonagramm nicht nur Lautklassen, sondern

auch Einzellaute erkennen. Vokale, Nasale und Approximanten28 anhand der Lage ihrer

Formanten, Frikative anhand der globalen Energieverteilung und Plosive an den

Transitionen29.30

Schlussbemerkung

Die akustische Phonetik ist eine relativ junge Disziplin. Das liegt an der Tatsache, dass die für

dieses Fach notwendigen technischen Hilfsmittel wie z.B. Spektrographen auch erst in

neuerer Zeit entwickelt wurden. Im Hinblick auf die maschinelle Verarbeitung gesprochener

Sprache, d.h. Analyse und Synthese gesprochener Sprache, gewinnt die akustische Phonetik

zunehmend an Bedeutung.31 Auch für die logopädische Therapie, das heißt objektive

Überprüfung von Stimme und Artikulation der Patienten, greift man heutzutage immer

häufiger auf technische Hilfsmittel zurück.

28 ,,Ein Approximant (auch Näherungsslaut) ist ein nach seiner Artikulationsart benannter Laut. Zu den

Approximanten gehören die Vokale und alle Konsonanten, die mit pulmonisch-egressiver oder pharyngaler Luft

gebildet werden und im Ansatzrohr keinen Verschluss oder eine Enge mit "Reibung" (Geräuschentwicklung,

Luftverwirbelungen) überwinden müssen." (http://de.wikipedia.org/wiki/Approximant)

29 Transitionen sind Formantbewegungen und meinen den Einfluss der Konsonanten auf benachbarte Laute, vor

allem Vokale. Hauptsächlich treten sie vor oder nach einem Plosiv auf und können als dessen akustisches

Abbild gesehen werden.

30 vgl. http://www.ling.uni-potsdam.de/~mayer/teaching/phonetik/Phonetik.pdf

31 vgl. http://www.fb10.uni-bremen.de/linguistik/khwagner/phonetik/phonologie1.htm; 09.03.2007; 14:55

13


Kommentare

Kommentar hinzufügen

Dieser Text kann über folgende URL aufgerufen und zitiert werden:

http://www.grin.com/e-book/111157/