Mobile Phone Effekt: Einfluss der Handyübertragung auf Sprachqualität im Kontext forensischer Sprechererkennung


Seminararbeit, 2005
41 Seiten, Note: 1,0

Leseprobe

Inhaltsverzeichnis:

1. Einleitung

I Theoretische Grundlagen
2. Vokalformanten - Fingerabdrücke der Vokale
3. Der Übertragungskanal
3.1 Sprachkodierung
3.2 Kanalkodierung
4. Literatur
4.1 „Beware of the telefone effect“ (künzel 2001)
4.2 „The Mobile-Phone Effect“ (byrne 2002)
5. Hypothesen
5.1 Hypothese
5.2 Alternativhypothese

II Experiment
6.1 Material
6.2 Methoden
6.2.1 Aufnahme des Materials
6.2.2 Messung der Vokalformanten
6.2.3 Statistische Auswertung
6.3 Beobachtungen
Experiment
7. Frequenzgang-Test

III Ergebnisse
8.1 Männlicher Sprecher
8.2 Netztypen

IV Diskussion
9. Schluss
Bibliographie

1. Einleitung

69,6% der deutschen Gesamtbevölkerung[1] verfügen über mindestens ein Handy im Haus­halt, 29,0% davon sogar über mehr als ein Handy. 52,8% der deutschen Handybenutzer nutzen das D-Netz. 30,5% davon entfallen auf das das D1-Netz, 23,1% auf D2. Im Ge­gensatz zum D-Netz nutzen nur 13,5% der Handybenutzer das E-Netz, 9,4% davon Eplus[2].

Im Rahmen der forensischen Sprecheridentifizierung liegen, so byrne, in über 90% der Fälle Telefon- oder Mobilfunkaufnahmen vor, die mit Direktauf­nahmen verglichen werden. „Speaker identification on the basis of a comparison of two samples of speech is an important aspect of Forensic Phonetics“(BYRNE, 2002). Sprechsituation und Übertragungskanal haben je­doch z.T erheblichen Einfluss auf das Sprachsignal. Diese Einflüsse müs­sen bei der Arbeit mit solchen, unter verschiedenen Bedingungen gewonne­nen Daten berücksich­tigt werden.

Gleich, ob es sich um Voice-Print-Verfahren[3] oder automatische Verfahren zur Sprechererkennung handelt – Basis dieser Verfahren ist die Analyse der Resonanzeigenschaften des Vokaltrakts (organische Charakteristika) der Sprecher. Ist das Signal gestört oder durch bestimmte Effekte, die durch des Übertragungskanals verändert worden, so hat dies Konsequenzen für die Identifizierbarkeit der Sprecher. Diese Tatsache führte zu der Grundsatzde­batte, ob Formantanalysen im Rahmen forensischer Gutachten überhaupt oder nur in eingeschränktem Umfang legitim sind (siehe: künzel (2001): Beware of the Telephone effect / nolan (2002): The ´telphone effect´ on formants: a resonse / künzel (2002): Rejoinder to Francis Nolan´s ´The “telephone ef­fect” on formants: a response).

Ziel dieser Untersuchung ist es, den Einfluss passiver Effekte des Über­tragungskanals GSM (= Global System for Mobile Communications) auf Vokal­formanten (F1, F2, F3) zu ermitteln. Der Versuch orientiert sich an vo­range­gangen Arbeiten von künzel (2001) und byrne (2002). Fokus dieser Studie ist, zu klären, welchen Effekt unterschiedliche Netztypen auf die Sprach­qualität haben und wie relevant die Akustik der Handytypen ist. Einen wei­tern Fokus dieser Un­tersuchung stellt insbesondere die Bemühung dar, die Black-Box „Übertragungskanal“ zumindest teilweise zu beseitigen und die Effekte der GSM-Über­tragung auf Vokalformanten aus den technischen Charakteristika des Übertragungskanals herzuleiten.

Der erste Teil der Arbeit umfasst die theoretischen Grundlagen des Versu­ches; das Quelle-Filter-Modell der menschlichen Sprachproduktion, techni­sche Charakteristika des GSM-Übertragungskanals und vorangegangene Versuche dieser Thematik. Die perzipierte Literatur wurde nur in begrenztem Umfang eingearbeitet, nähere Angaben sind der Bibliographie zu entnehmen.

Im zweiten Teil der Arbeit wird das Versuchsdesign vorgestellt und erläu­tert. Hier werden auch die Schwierigkeiten formuliert, die sich bei den Formantmessungen ergaben. Im dritten Teil der Arbeit werden schließlich die Versuchsergebnisse vorgestellt und diskutiert.

I. Theoretische Grundlagen

2. Vokalformanten - Fingerabdrücke der Vokale

Quelle-Filter-Modell

Nach dem Quelle-Filter-Modell verläuft die Sprachproduktion in zwei Schrit­ten. Der erste Schritt umfasst die Generierung der Erregerfrequenz und de­ren Harmonische. Der zweite Schritt umfasst die Modi­fizierung des Erreger­signals durch das artikulationsabhängige Vokaltrakt­filter.

A) Quelle

Vokale sind komplexe periodische Klänge, die aus der Grundfrequenz und zahl­reichen überlagernden Harmonischen (=Obertönen) bestehen. Diese Harmoni­schen sind jeweils Vielfache der Grundfrequenz.

Abbildung in dieser Leseprobe nicht enthalten

Abb.1: Summensignal (e) von vier Sinusschwingungen (a, b, c, d)

mit den Frequenzen 100, 200, 300 und 400 Hz;

entnommen aus: reetz, S. 55.

Die zahlreichen Obertöne entstehen dadurch, dass das Schwingungsverhalten der Stimmlippen nicht völlig gleichmäßig ist. Die Dauer der Öffnungs- und Ver­schlussphasen ist nicht identisch. Daher wird an den Stimmlippen keine reine Si­nusschwingung sondern eine so genannte charakteristische „Sägezahn­kurve“ produziert (quasi periodisch).

Die Abfolge der Stimmlippenplosionen in regelmäßigen zeitlichen Abständen (Periodendauer) bestimmt die Grundfrequenz. Da aber sowohl der supraglot­tale als auch der subglottale Raum als Resonanzraum fungieren, werden die, durch die Stimmlippenplosionen generierten Luftdruckveränderungen, durch die Auslenkung der Stimmlippen quasi moduliert. Auf diese Weise werden ne­ben der Grundfrequenz zahlreiche Obertöne mitproduziert.

B) Filter

Jeder Resonanzraum im Vokaltrakt hat aufgrund seiner Form spezifische Fil­tereigenschaften, die die Harmonischen entweder verstär­ken (Resonanzen) oder abschwächen (Antiresonanzen). Ohne Verstärkung (Filter) liegt bei akustischen Signalen i.d.R. eine Dämpfung von -6dB pro Oktave vor. Das Spektrum an den Stimmlippen würde eine solche Dämpfung aufweisen (siehe Abb. 2). Das Spektrum an den Lippen lässt erkennen, dass das Signal hier durch die supraglottalen Resonanzräume gefiltert wurde.

Die Frequenz der Resonanzen ist umgekehrt proportional zu der Länge des An­satzrohres. Je kürzer und enger der Resonanzraum (Glottis bis xy), desto höher die Frequenz (Prinzip Bierflasche = je voller die Flasche, desto kleiner der Resonanzraum und desto höher die Resonanzfrequenzen).

Harmonische, deren Frequenz ähnlich der Eigenresonanz eines Resonanz­raumes[4] ist, werden verstärkt andere Harmonische dagegen gedämpft.

Abbildung in dieser Leseprobe nicht enthalten

Abb.2: Quelle-Filter-Modell der Sprachproduktion [a];

entnommen aus: reetz, S. 134

Diese Resonanzen sind keine einzelnen Obertöne sondern ein Bündel von Har­monischen und umfassen jeweils ein Frequenzband über mehrere Harmonische hin­weg. Solche Intensitätsballungen (Frequenzbänder) werden mit dem Termi­nus „Formanten“ bezeichnet. Als Formant wird der Frequenzbereich +/- 10% der energiereichsten Har­monischen definiert. Der Formantschwerpunkt liegt jeweils im geometrischen Mittel des Frequenzbandes.

„Da die Formanten eine Folge der Stellung der Artikulatoren und nicht eine Eigenschaft des Sprachsignals sind, müssen Formantfrequenzen nicht notwen­digerweise mit der Frequenz des Larynxsingals übereinstimmen“ (reetz, S. 137).

Abbildung in dieser Leseprobe nicht enthalten

Abb.3: Idealisiertes Spektrum; entnommen aus: reetz, S. 138

Durch die Artikulationsorgane werden die Reso­nanz­räume verformt – zum Bei­spiel durch den Artikulator Zunge. Je nach­dem wel­cher Laut gerade artiku­liert wird, haben die Resonanzräume eine an­dere Form und somit veränderte Eigenresonanzen und Filtereigenschaften. Somit hat jeder Vokal spezifische Intensitätsballungen in unterschiedlichen Fre­quenzbereichen.

Die Frequenz des ersten Formanten (=F1) ist abhängig davon, wo im Ansatz­rohr bei der Artikulation eine Enge gebildet wird. Je weiter vorne im Vo­kaltrakt die Enge gebildet wird, also je größer der Resonanzraum zwischen Glottis und der Engebildung ist, desto niedriger ist F1. Der zweite Formant (=F2) ist beeinflusst von Kieferöffnungsgrad und Zungen­stellung. Je kleiner der Raum zwischen Engebildung und Lippen ist, desto höher ist F2. Durch den Faktor Lippenrundung werden die Frequenzen aller Formanten nied­riger, je­doch ist der Einfluss auf F3 höher als auf F1 oder F2.

Abbildung in dieser Leseprobe nicht enthalten

Abb.4: „Vollständiges“ Vokaltrapez[5]

Vokale werden also durch ihre artikulatorischen und akustischen Eigenschaf­ten klassifiziert. Den Vokal [i] beispielsweise klassifiziert man als [+front, +closed, -rounded]. Die kanonischen Frequenzen für die ersten bei­den Formanten dieses Vokals - gesprochen von einem männlichen deutschen Sprecher mit statistisch durchschnittlicher Grundfrequenz – betragen: F1 = ~250Hz, F2 = ~2400Hz[6].

Abbildung in dieser Leseprobe nicht enthalten

Abb.5: Sprachsignal des Vokals [i], a) LPC-Spektrum, b) Oszillogramm, c) Spektrogramm; entnommen aus: reetz, S. 136

Diese Werte stellen allerdings nur statistische Mittelwerte dar und können von Sprecher zu Sprecher variieren. Jeder Sprecher unterscheidet sich durch die Form und Größe/Länge seines Vokaltraktes von anderen Sprechern. Mit der individualtypischen Form des Vokaltraktes variieren auch dessen Resonanzei­genschaften und somit auch die Lage der Vokalformanten.

Zum anderen verfügt jeder Sprecher über habituelle phonatorische und arti­kulatorische Settings (mögl. auch bedingt durch regionalsprachliche Ein­flüsse). Das heißt, dass nicht jeder Sprecher Vokale produziert, wie sie im Vokaltrapez der deutschen Monophthonge prototypisch platziert sind.

Abbildung in dieser Leseprobe nicht enthalten

Abb.6: Vokaltrapez deutscher Monophthonge (Kohler);

entnommen aus: Handbook of the IPA[7], S. 87.

Komplex-periodische Klänge wie Vokale können mittels einer Fourier-Analyse visuell wie­der in ihre einzelnen überlagernden Frequenzen zerlegt werden.

Abbildung in dieser Leseprobe nicht enthalten

Abb.7: Schematische Darstellung der Funktionsweise einer Fourier-Analyse[8]

Ähnliches geschieht sowohl bei der Perzeption von Vokalen als auch bei den Verfahren der forensischen Sprechererkennung. Die Analyse individualtypi­scher Reso­nanzeigenschaften des Vokaltraktes ist eines der wich­tigsten und zuverläs­sigsten Verfahren der forensischen Sprechererkennung. Vokalforman­ten sind also nicht nur als Fingerabdrücke der Vokale zu sehen, sondern auch als akustischer Fingerabdruck ihrer Sprecher[9].

3. Der Übertragungskanal

Bei der GSM-Übertragung steht nur ein begrenzter „Raum“ zu Verfügung, um Signale zu übertragen. Um möglichst viele Kommunikationsteilnehmer bedienen zu können, werden die Übertragungswege möglichst ökonomisch genutzt. Also wird das Sprach­signal stark komprimiert. Die Kompressionsrate bei GSM-Über­tragung beträgt 1:54 (!).[10]

„Um die menschliche Sprache naturgetreu und klanggetreu zu über­tragen, würde man ein sehr breites Frequenzband (etwa 60 Hz bis 12 kHz) benötigen. Aus wirtschaftli­chen Gründen begnügt man sich je­doch beim Fernsprechen mit dem Übertragungsbereich von 300-3400 Hz. Innerhalb dieses Frequenzbandes werden die Selbstlaute vollständig übertragen, während Mitlaute zum Teil recht unverständlich werden, da deren Forman­tengebiete oberhalb von 3400 Hz nicht übertragen werden. Weil aber die gesprochenen Worte nie ausschließlich aus Mitlauten bestehen, sondern eine bestimmte Kombination von Selbst- und Mitlauten darstellen, wird trotz der Beschneidung des Übertra­gungs­bandes eine genügend hohe „Silbenverständlichkeit“ erreicht“[11].

Abbildung in dieser Leseprobe nicht enthalten

Abb.8: Silbenverständlichkeit und Satzverständlichkeit in Abhängigkeit von der

obe­ren Übertragungsfrequenz-Begrenzung;

entnommen aus: Fachkunde Nachrichtentechnik, S. 334.

3.1 Sprachkodierung

Für diesen Versuch interessant ist insbesondere der Weg des Sprachsignals zwischen Handy und Basisstation, denn dort liegt die Luftschnittstelle und das analoge Sprachsignal muss in ein digitales Signal umgewandelt werden, damit es per Funk übertragen werden kann. Die Codierung des Sprachsignals wird in folgenden Schritten geleistet:

Abbildung in dieser Leseprobe nicht enthalten

Abb.9: Modell der Digitalisierung des analogen Sprachsignals[12]

A. Abtastung

Die Abtastrate (=fA) bei GSM-Übertragung beträgt, wie auch bei ISDN-Über­tragung 8kHz. Nach dem Nequist-Theorem (fA/2=f) umfasst die maximal wieder­gebbare Frequenz 4000Hz. Die Abtastrate fungiert hier also bereits als Tiefpassfilter, da Frequenzen oberhalb 4kHz nicht dargestellt werden.

Die Abtasttiefe beträgt 8bit. Grundsätzlich ergäbe diese Quantisierung 2log8 einen Datenstrom von 64kbit/s, wie es auch bei ISDN-Übertragung der Fall ist. Bei der GSM-Übertragung stehen aus Ökonomiegründen aber nur 13 kbit/s zur Datenübertragung der Sprachkodierung zur Verfügung. Insgesamt stehen zwar 22,8 kbit/s (Vollraten-Codierung = FR) zur Datenüber­tragung zu Verfü­gung, die restlichen 9,4 kbit/s werden aber für redundante Bits[13] und die Kanalkodierung benötigt.

[...]


[1] Grundgesamtheit: deutsche Bevölkerung in Privathaushalten in der Bundesrepublik Deutschland im Alter von 14 Jahren und mehr (64,72 Mio.).

[2] TdW Intermedia GmbH (Hrsg.): Typologie der Wünsche 04/05, Of­fenburg 2004.

[3] Die so genannten Stimmabdruckverfahren arbeiten mit dem visuellen Vergleich dreidi­mensionaler Spektrogramme. Die Vergleichssprachproben werden mit Fokus auf ihre Amplituden-Frequenzmuster betrachtet. „Nach einhelliger Meinung der Wissen­schaft“, so Künzel, ist dieses Verfahren „zu Sprechererkennung völlig untauglich“ (Künzel, Hermann J: Die forensische Sprachverarbeitung, [Kriminalistik 11/2003]).

[4] Schallgeschwindigkeit (m/s) geteilt durch 4x „Rohrlänge“ (m) = Resonanzfrequenz (Hz).

[5] Entnommen aus: http://www.phonetik.uni-muen­chen.de/Lehre/Skripten/TRANS2/TRANS2Stunde3.html (21.7.2005)

[6] Statistisch gerundete Mittelwerte nach Rausch 1972, zitiert nach: pétturson und nep­pert, S. 139.

[7] Handbook of the International Phonetic Association, Cambridge University Press, Cambridge 42003.

[8] Entnommen aus: Das Lesen von Sonagrammen: http://www.phonetik.uni-muen­chen.de/Lehre/Skripten/SGL/SGLHome.html (21.7.2005)

[9] Der Ausdruck „Fingerabdruck“ ist rein metaphorisch zu sehen, „because nothing in speech is constant and unchangeable“ (nolan 2002, S. 78).

[10] Mit herzlichem Dank an Dr. Wolfgang Näser und Horst Schramm für die vielen nützli­chen Informationen.

[11] Fachkunde Nachrichtentechnik, S. 334

[12] http://www.eduhi.at/internet/soundformate.php?design=schule

[13] Redundante Bits sind sozusagen Kopien oder Verschnittmaterial des gesendeten Sprach­codex. Wenn Übertragungsstörungen auftreten, so werden diese redundanten Bits genutzt, um die Störung zu korrigieren.

Ende der Leseprobe aus 41 Seiten

Details

Titel
Mobile Phone Effekt: Einfluss der Handyübertragung auf Sprachqualität im Kontext forensischer Sprechererkennung
Hochschule
Philipps-Universität Marburg  (Phonetik)
Note
1,0
Autor
Jahr
2005
Seiten
41
Katalognummer
V210465
ISBN (eBook)
9783656379713
ISBN (Buch)
9783656380672
Dateigröße
2756 KB
Sprache
Deutsch
Schlagworte
mobile, phone, effekt, einfluss, handyübertragung, sprachqualität, kontext, sprechererkennung
Arbeit zitieren
Kerstin Schramm (Autor), 2005, Mobile Phone Effekt: Einfluss der Handyübertragung auf Sprachqualität im Kontext forensischer Sprechererkennung, München, GRIN Verlag, https://www.grin.com/document/210465

Kommentare

  • Noch keine Kommentare.
Titel: Mobile Phone Effekt: Einfluss der Handyübertragung auf Sprachqualität im Kontext forensischer Sprechererkennung


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden