Das menschliche Hörvermögen bestimmt zu weiten Teilen die Wahrnehmung der eigenen Umwelt, ermöglicht die Kommunikation und dient unter anderem als Alarmierungs- und
Lokalisationssystem. Im Gegensatz zum Sehsinn ist das auditorische System in der Lage, im dreidimensionalen Raum wahrzunehmen und zu lokalisieren. Die Lokalisationsleistung
liegt in der Auswertung monauraler und binauraler spektrotemporaler Eigenschaften der Schallsignale.
John William Strutt auch als Lord Rayleigh bekannt, entwickelte 1907 die Duplex-Theorie (Strutt, 1907), in der erstmalig die interauralen Schallsignaldifferenzen betrachtet wurden. Stevens
und Newman (1936) erweiterten die Duplextheorie bezüglich der Gesetze der Beugung und Reflexion und somit der Gültigkeit der Duplextheorie in Abhängigkeit von der Frequenz.
Um sowohl diese monauralen als auch die binauralen zur Lokalisation beitragenden Schallsignalinformationen zu evaluieren, werden seit einigen Jahrzehnten die Außenohrübertragungsfunktionen, auch als Head-Related-Transfer-Functions bezeichnet, gemessen. Das anfängliche Ziel lag in der Erkenntnis der an der räumlichen Abbildung beteiligten anatomischen Merkmale. Mit Einzug der Digitaltechnik ist der Anwendungsbereich jedoch weit darüber hinaus gewachsen. Die Abhängigkeit der Ohrsignale vom Schallquellenort wird als Kodierung räumlicher Informationen aufgefaßt, was wiederum bedeutet, dass bei Kenntnis der Ohrsignale diese zur Dekodierung der räumlichen Information genutzt werden können (Theile, 1980). So werden z.B. durch Filterung mit der individuellen, winkel- und frequenzabhängigen
HRTF raumgetreue Abbildungen von akustischen Richtungen simuliert, was sowohl in der Unterhaltungsindustrie und der Telekommunikationsindustrie für Telekonferenz- und
Telepräsenzsysteme aber auch zur Erzeugung virtueller akustischer Situationen und im Multimediabereich eingesetzt wird. Ein weiterer Bereich stellt die binaurale Aufnahme- und
Wiedergabetechnik dar, zu der seit den frühen 1980er Jahren die Verwendung von Kunstköpfen, welche aus zwei nachgebildeten äusseren Ohren in denen sich jeweils ein Mikrofon befindet und dem sich dazwischen befindlichen künstlichen Kopf besteht. [...]
Inhaltsverzeichnis
1 Einleitung
2 Theorie zum Räumlichen Hören
2.1 Grundlagen und Begriffsklärung
2.2 Monaurale Lokalisationsparameter
2.3 Binaurale Lokalisationsparameter
3 Theorie zur Messung und Berechnung von Übertragungsfunktionen
3.1 Systemtheoretische Grundlagen
3.2 Messstimuli
3.3 Validitäts- und Präzisionsbetrachtung von HRTF-Messungen
4 HRTF-Messsystem
4.1 Bestehendes System
4.2 Optimierung des bestehenden Systems
4.3 Implementierung
4.4 Validierung des Systems
5 Untersuchung zum Einfluss der Gehörgangseingangsimpedanz
5.1 Beschreibung der untersuchten Eingangsimpedanzen unter dem Aspekt der Mi- krofonplatzierung und Veränderung des Außenohres
5.2 Experiment I: Richtcharakteristik
5.2.1 Methodik
5.2.2 Ergebnisse
5.3 Experiment II: HRTF
5.3.1 Methodik
5.3.2 Ergebnisse
6 HRTF-Messungen und Berechnung der Lokalisationsparameter
6.1 Methodik
6.1.1 Probanden
6.1.2 Versuchsdurchführung
6.2 Ergebnisse und Diskussion
6.2.1 HRTFs
6.2.2 Interaurale Zeitdifferenzen - ITDs .
6.2.3 Interaurale Pegeldifferenzen - ILDs
7 Zusammenfassung und Diskussion
Symbole und Abkürzungen
Literaturverzeichnis
Danksagung
A Verwendete Geräte, Materialien und Software
A.1 Geräte
A.2 Materialien
A.3 Software
B Datenblätter
B.1 Panasonic WM-61A
B.2 Manger MSW
C Richtdiagramme
D MatLab-files
D.1 TASP reference TF.m
D.2 TASP total TF.m
D.3 calc steps.m
D.4 subject routine.m
D.5 start routine.m
D.6 meas routine.m
D.7 pause routine.m
D.8 exit routine.m
D.9 initializing.m
D.10 axes moving.m
D.11 genDatabase.m
D.12 mls routine.m
D.13 genMLS.m
D.14 wn routine.m
D.15 GetIR xcorr.m
D.16 GetIR noise.m
D.17 GetIR wind.m
D.18 audiogram.m
Abbildungsverzeichnis
2.1 Koordinatensystem zur Beschreibung der Raumebenen
2.2 Beispielhafter Pegelverlauf der Ohrsignale bei seitlicher Beschallung
2.3 Schematische Darstellung der Pinnaanatomie
2.4 Modell der Pinnaeigenresonanzen nach Shaw und Teranishi (1968)
2.5 Systhematische Änderung der ITD als Funktion des Azimuthwinkels
2.6 Schematische Darstellung zur Berechnung der frequenzunabhängigen ITD. . .
2.7 Schematische Darstellung des „Cone of Confusion“
3.1 Allgemeines Schema der Wirkungsweise eines Systems
3.2 Schematische Darstellung verrauschter Messignale beim Korrelationsverfahren.
4.1 Schematischer Aufbau des Messsystems TASP
4.2 Verschaltung der Schrittmotoren und Leistungsansteuerungsmodule
4.3 TASP-Messsystem im reflexionsarmen Raum
4.4 Grafische Benutzeroberfläche bei Messung der Referenzsituation
4.5 Grafische Benutzeroberfläche zur Messung des Gesamtsystems
4.6 Amlitudendifferenzen zwischen zwei unabhängigen HRTF-Messdurchgängen. .
4.7 Phasendifferenzen zwischen zwei unabhängigen HRTF-Messdurchgängen
4.8 Messgenauigkeit des Systems bzgl. der interauralen Differenzen
5.1 Referenzsituation - Außenohr mit offenem Gehörgang und Mikrofon
5.2 Standard-Schaumstoffstöpsel EAR-Classic-II mit eingepasstem Messmikrofon.
5.3 Individuelle Silikonotoplastik mit geschlossenem Gehörgang und Messmikrofon.
5.4 Individuelle Acrylotoplastik mit offenem Gehörgang und Messmikrofon
5.5 Differenz der Richtcharakteristik auf Grund veränderter Gehörgangsimpedanzen.
5.6 Schematische Darstellung des MLS-Messsignals s(t)
5.7 Schematische Darstellung zur Messung der Referenzübertragungsfunktion. . .
5.8 Schematische Darstellung der Messung der Übertragungsfunktion des Gesamt- systems
5.9 Fensterung der Impulsantworten zur Reflexionsentfernung
5.10 HRTF-Pegeldifferenz bei Messung mit einem Schaumstoffstöpsel
5.11 ILD- und IPD-Änderung bei HRTF-Messungen mit einem Schaumstoffstöpsel.
5.12 HRTF-Pegeldifferenz bei Messung mit einer individuellen Silikonotoplastik. . .
5.13 ILD- und IPD-Änderung bei HRTF-Messungen mit einer Silikonotoplastik. . .
5.14 HRTF-Pegeldifferenz bei Messung mit der neuentwickelten Acrylotoplastik. . .
5.15 ILD- und IPD-Änderung bei HRTF-Messungen mit der Acrylotoplastik
6.1 Tonaudiogrammgrenzen der Probanden
6.2 Kopfstütze zur Stabilisierung der Kopfposition während der HRTF-Messungen.
6.3 HRTFs in der Horizontalebene
6.4 HRTFs in der Frontalebene
6.5 HRTFs in der Medianebene
6.6 Frequenzunabhängige ITDs aller Probanden und des Kunstkopfes
6.7 Gemessene vs. berechnete frequenzunabhängige maximale ITDs
6.8 ILDs in der Horizontalebene
6.9 ILDs in der Frontalebene
6.10 ILDs in der Medianebene
6.11 Frequenzunabhängige ILDs aller Probanden und des Kunstkopfes
6.12 Gemessene vs. berechnete frequenzunabhängige maximale ILDs
Tabellenverzeichnis
4.1 Lageparameter zur Quantifizierung der Reproduzierbarkeit von HRTF- Messungen
5.1 Schalldruckpegeldifferenzen in der Richtcharakteristik als Funktion der Ab- schlussimpedanz
5.2 Lageparameter zur Quantifizierung der HRTF-Ergebnisvalidität bei Verwen- dung von Schaumstoffstöpseln
5.3 Lageparameter zur Quantifizierung der HRTF-Ergebnisvalidität bei Verwen- dung von maßgefertigten Silikonotoplastiken
5.4 Lageparameter zur Quantifizierung der HRTF-Ergebnisvalidität bei Verwen- dung von offenen Acrylotoplastiken
6.1 Maximale frequenzunabhängige interaurale Zeitdifferenzen und Standardb- weichung als Funktion des Elevationswinkels
6.2 Pearsonsche Korrelationskoeffizienten zwischen den gemessenen und den nach Gleichung 6.2 und Gleichung 6.3 ermittelten ITDs für alle 14 Probanden
6.3 Frequenzunabhängige ILDs und Standardabweichung
6.4 Pearsonsche Korrelationskoeffizienten zwischen den gemessenen und den nach Gleichung 6.4 und Gleichung 6.5 ermittelten ILDs für alle 14 Probanden
Kapitel Einleitung
Das menschliche Hörvermögen bestimmt zu weiten Teilen die Wahrnehmung der eigenen Umwelt, ermöglicht die Kommunikation und dient unter anderem als Alarmierungs- und Lokalisationssystem. Im Gegensatz zum Sehsinn ist das auditorische System in der Lage, im dreidimensionalen Raum wahrzunehmen und zu lokalisieren. Die Lokalisationsleistung liegt in der Auswertung monauraler und binauraler spektrotemporaler Eigenschaften der Schallsignale
John William Strutt auch als Lord Rayleigh bekannt, entwickelte 1907 die Duplex-Theorie (Strutt, 1907), in der erstmalig die interauralen Schallsignaldifferenzen betrachtet wurden. Ste- vens und Newman (1936) erweiterten die Duplextheorie bezüglich der Gesetze der Beugung und Reflexion und somit der Gültigkeit der Duplextheorie in Abhängigkeit von der Frequenz. Um sowohl diese monauralen als auch die binauralen zur Lokalisation beitragenden Schallsignalinformationen zu evaluieren, werden seit einigen Jahrzehnten die Außenohr- übertragungsfunktionen, auch als Head-Related-Transfer-Functions bezeichnet, gemessen. Das anfängliche Ziel lag in der Erkenntnis der an der räumlichen Abbildung beteiligten anatomischen Merkmale. Mit Einzug der Digitaltechnik ist der Anwendungsbereich jedoch weit darüber hinaus gewachsen. Die Abhängigkeit der Ohrsignale vom Schallquellenort wird als Kodierung räumlicher Informationen aufgefaßt, was wiederum bedeutet, dass bei Kenntnis der Ohrsignale diese zur Dekodierung der räumlichen Information genutzt werden können (Theile, 1980). So werden z.B. durch Filterung mit der individuellen, winkel- und frequenzab- hängigen HRTF raumgetreue Abbildungen von akustischen Richtungen simuliert, was sowohl in der Unterhaltungsindustrie und der Telekommunikationsindustrie für Telekonferenz- und Telepräsenzsysteme aber auch zur Erzeugung virtueller akustischer Situationen und im Multimediabereich eingesetzt wird. Ein weiterer Bereich stellt die binaurale Aufnahme- und Wiedergabetechnik dar, zu der seit den frühen 1980er Jahren die Verwendung von Kunst- köpfen, welche aus zwei nachgebildeten äusseren Ohren in denen sich jeweils ein Mikrofon befindet und dem sich dazwischen befindlichen künstlichen Kopf besteht.
Für jedes der möglichen Anwendungsgebiete ist die Fehlerfreiheit der HRTFs für jeden Winkel unabdingbare Voraussetzung der korrekten Richtungsabbildung sowie des Klanger- halts. Für die Aufnahme- und Wiedergabetechnik ergeben sich bereits Ungenauigkeiten, da der Kunstkopf in seinen anatomischen Abmaßen zumeist das arithmetische Mittel einer bestimmten Stichprobe darstellt und somit auch bei der Wiedergabe von Kunstkopfaufnahmen Richtungs- und Klangfehler nicht zu vermeiden sind. Vergleicht man HRTF-Messungen unterschiedlicher Institute, so sind ebenfalls immer Abweichungen in den HRTF-Amplituden zu verzeichnen, selbst wenn man den selben Kunstkopf bzw. Probanden vermisst. Grund dieser Abweichung ist häufig eine unzureichend genaue Mikrofonpositionierung bzw. der fehlenden Reproduzierbarbeit der Mikrofonposition. Deshalb wurden in den letzten Jahren häufig die Gehörgänge verschlossen, weil individuelle Plastiken, zumeist aus Silikon, das Platzierungs- und Reproduzierungsproblem lösen sollten. Dieses Verschließen der Gehörgänge bewirkte jedoch eine veränderte HRTF-Charakteristik und verringerte vor allem die individuellen Unterschiede (Hammershoi, 1995; Moller et al., 1995).
Das Ziel dieser Arbeit ist die Neuvermessung von HRTFs unter Beachtung der Eingangsimpedanz des Gehörgangs, d. h. es soll eine Messmethode entwickelt werden, die die individuellen HRTFs möglichst naturgetreu abbildet. Ein weiteres Ziel ist die gesamtheitliche Darstellung der Lokalisationsparameter, so dass diese Arbeit einen guten Überblick vermittelt. Die notwendigen theoretischen Grundlagen zum Räumlichen Hören bzw. der Systhemtheorie werden in den Kapiteln 2 und 3 einführend beschrieben.
Als Messaufbau wurde der bereits bestehende mechanische Aufbau des Messsystem TASP (Two-Arc-Source-Positioning-System) unter dem Aspekt valider und reproduzierbarer Lo- kalisationsparameter und HRTFs weiterentwickelt. Die Funktionsweise des Messsystems, Ansteuerung, MatLab-Implementierung und die Fehlerabschätzung bei Messung mit diesem System ist im Kapitel 4 beschrieben. Da das System zukünftig weiter für HRTF-Messungen und Lokalisationsuntersuchungen genutzt und ausgebaut werden soll, erfolgt die nutzerorien- tierte Beschreibung etwas ausführlicher.
Um den Einfluss der Gehörgangseingangsimpedanz zu quantifizieren wurden die Richtcharakteristiken und HRTFs des Oldenburger Kunstkopfes mit häufig verwendeten Impedanzen und einem neu entwickelten Abschluss gemessen und mit den Ergebnissen bei Messung mit einem offenen Gehörgang verglichen. Das experimentelle Vorgehen und einen detaillierten Ergebnisüberblick ist im Kapitel 5 nachzulesen.
Die Ergebnisse der Hauptstudie, die Vermessung der HRTFs von 14 Probanden für jeweils 432 Raumpositionen, werden im Kapitel 6 beschrieben. Es werden nicht nur die HRTF- Verläufe an sich, sondern auch die binauralen Lokalisationsparameter dargestellt und mit Daten aus der Literatur und öffentlichen Datenbanken verschiedener Institute verglichen. Diese Probanden-HRTFs sind wiederum Eingangsparameter für weiterführende Arbeiten, in denen u. a. ein individuell einstellbares Mikrofonarray zur Nachbildung individueller HRTFs entwickelt bzw. Lokalisationsuntersuchungen mit genau diesen Probanden stattfinden sollen.
Kapitel 2 Theorie zum Räumlichen Hören
2.1 Grundlagen und Begriffsklärung
Zur Beschreibung der Raumebenen bzgl. der Lokalisation, d. h. der Beurteilung der Richtung und Entfernung von Schallsignalen, wird in dieser Arbeit das Koordinatensystem von Blauert (1974) verwendet. Dieses System, dargestellt in Abbildung 2.1, ordnet den drei Raumebenen die zugehörigen Winkel zu. Zur Horizontalebene gehört der Azimuthwinkel ϕ und zur Ver-
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2.1: Verwendetes Koordinatensystem zur Beschreibung der drei Raumebenen Horizontal-, Vertikal- bzw. Median- und Frontalebene nach Blauert (1974), bestehend aus zwei Winkeln und einem Skalar. Die Auslenkung in der Horizontalebene wird durch den Azimuthwinkel ϕ und in der Vertikalebene durch den Elevationswinkel δ beschrieben. Die Distanz zur Schall- quelle wird durch den Parameter r angegeben.
tikalebene (auch Medianebene genannt) der Elevationswinkel δ. Für beide Winkel gilt, dass sich der 0◦ Winkel direkt vor dem Zuhörer auf der interauralen Achse befindet. Für Ände- rungen der Schallquelle in der Horizontalebene rechts vom Zuhörer gilt für den Azimuthwin- kel {ϕ ∈ R | 0◦≤ ϕ ≤ 180◦} und bei Änderungen links vom Zuhörer {ϕ ∈ R | 180◦≤ ϕ ≤ 360◦}. Die linke Halbebene wird in der Literatur teilweise auch mit negativen Azi- muthwinkeln {ϕ ∈ R | 0◦≥ ϕ ≥ −180◦} charakterisiert. Für einen positiven Elevationswinkel {δ ∈ R | 0◦≤ δ ≤ 90◦} gilt, dass sich die Schallquelle oberhalb der interauralen Achse be- findet. Negative Elevationswinkel {δ ∈ R | 0◦≥ δ ≥ −90◦} beschreiben einen Ort der Schall- quelle unterhalb der interauralen Achse. Die Distanz der Schallquelle zum Schnittpunkt der Medianebene mit der Horizontalebene wird mit dem Skalar r beschrieben. (Blauert, 1974)
Zur Lokalisation von Schallsignalen werden sowohl monaurale, d. h. anthopometrisch basie- rende spektrale Filterungen des Schallsignals, als auch binaurale Parameter, z. B. interaurale Pegeldifferenzen (ILD) und interaurale Zeitdifferenzen (ITD) ausgewertet. Diese interauralen Differenzen entstehen durch die räumliche Trennung der Ohren und dem dazwischen befinden- den Kopf und Oberkörper. Ausgehend von einem freien Schallfeld erzeugt eine seitlich vom Zuhörer abstrahlende Schallquelle bei dem der Schallquelle zugewandten Ohr (ipsilaterales Ohr) ein früheres Wahrnehmen des Schallsignals als auf dem der Schallquelle abgewandten Ohr (kontralaterales Ohr). Der Kopf und Oberkörper des Zuhörers erzeugen weiterhin einen „Kopfschatten“, welcher sich in einer Pegeldifferenz zwischen den an den Ohren ankommen- den Schallsignalen erkennen lässt. Das Schallsignal trifft an dem der Schallquelle zugewand- ten Ohr (ipsilateral) mit höherer Amplitude ein, als an dem der Schallquelle abgewandten Ohr (kontralateral).
In der Abbildung 2.2 sind die ITD und ILD des Probanden 002 für einen δ = 0◦ und ϕ = 70◦ bei Anregung mit Weissem Rauschen schematisch dargestellt. Es ist die zeitliche Verzögerung
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2.2: Beispielhafter Pegelverlauf des aufgenommenen 2-kanaligen Schallsignals bei Beschallung des Probanden 002 für einen Azimuthwinkel ϕ = 70◦ und einem Elevationswinkel δ = 0◦ bei Anregung mit Weissem Rauschen. Die rote durchgezogene Linie beschreibt die Schall- aufnahme des rechten Ohres und die blaue gestrichelte Linie die des linken Ohres. des Schallsignals auf dem linken Ohr (blau gestrichelt) zum rechten Ohr (rot durchgezogen) sowie die durch den Kopfschatten hervorgerufene Dämpfung des Schallsignals zu erkennen. Da für einen Azimuthwinkel von ϕ = 0◦ die an beiden Ohren ankommenden Schallsignale nahezu identisch sind, ermöglichen die binauralen Parameter eine Lokalisation hauptsächlich in der Horizontalebene (siehe Abschnitt 2.3). Die durch den Kopf und Oberkörper hervorgerufene frequenzabhängige Dämpfung des Schallsignals dient hauptsächlich zur Lokalisation in der Vertikalebene (siehe Abschnitt 2.2). (Grantham, 1995)
2.2 Monaurale Lokalisationsparameter
Der Kopf inkl. der Ohrmuschel und der Oberkörper stellen in Bezug auf die Lokalisation ein lineares Filter dar, dessen Übertragungsfunktion vom Ort und Entfernung der Schallquelle abhängig ist. Häufig werden diese monauralen Lokalisationsparameter als spectral cues be- zeichnet, da die Beschreibung dieser in der Literatur hauptsächlich im Frequenzbereich erfolgt. (Blauert, 1974)
Das spektrale Filtern des Schallsignals durch das individuelle Außenohr, den Kopf und Torso wird primär mit dem Ausdruck Head related transfer function (HRTF) bzw. Freifeldüber- tragungsfunktion des Außenohres bezeichnet. Die generelle Definition einer HRTF ist somit gegeben als Verhältnis des Schallsignals bei Anwesenheit des Probanden am Gehörgangsein- gang zum Schallsignal in der selben Position jedoch bei Abwesenheit des Probanden nach Gleichung 2.1. HRTF(ω, ϕ, δ) =SchallsignalamMesspunktmitProband (2.1 ) Schallsignal am Referenzpunkt ohne Proband(ω,ϕ,δ)
In dieser allgemeinen Definition einer HRTF sind alle Eigenschaften des abgestrahlten Signals, z. B. frequenzabhängige Amplitude, Phase und Laufzeit, enthalten. Die binauralen Lokalisati- onsparameter ergeben sich in Abhängigkeit von ϕ und δ aus dem Verhältnis der HRTF des rechten und linken Ohres bei der jeweiligen Schallquellenposition. (Hammershoi, 1995) Die linearen Verzerrungen des Schallsignals werden einerseits durch Abschattung, Reflexion und Beugung des Schallsignals am Kopf und teilw. am Oberkörper und andererseits durch Re- sonanz, Streuung, Reflexion und Dispersion am Pinna-Gehörgang-Trommelfell-System her- vorgerufen. Bei einem angenommenen anatomischen durchschnittlichen Durchmesser des Kopfes von ca. 18 cm, der Länge der Pinna von ca. 6 cm und des Gehörgangs von 2,5 cm limitieren sich die signifikanten frequenzabhängigen Verzerrungen wie folgt (Blauert, 1997):
- Kopf: Beeinflussung von Frequenzen oberhalb von 500Hz
- Pinna: Beeinflussung von Frequenzen oberhalb von 1.500Hz
- Gehörgang: Beeinflussung von Frequenzen oberhalb von 3.000Hz
In der Literatur ist unstrittig, dass die Richtungsabhängigkeit des Schallsignals primär durch die Pinna (schematische Darstellung in Abb. 2.3) kodiert wird (vgl. Batteau (1967); Shaw und Teranishi (1968); Blauert (1974); Watkins (1978); Blauert (1997)). Zur Modellierung des Pin- naeinflusses existieren ein im Zeitbereich basierendes Modell von Batteau (1967), welches von Watkins (1978) erweitert wurde sowie das im Frequenzbereich arbeitende Pinnamodel von Shaw und Teranishi (1968). Nach Batteau (1967) finden vor allem an den hervortretenden Merkmalen der Pinna, also der Helix und der Antihelix und der äußeren Begrenzung der cavum conchae, Reflektionen statt. Dabei dient die Helix und die Antihelix als Doppelreflektor zur Entfernungsdetektion, die Begrenzung der cavum conchae zur Kodierung des Azimuthwinkels und der obere Teil der Antihelix bis zur fossa triangularis zur Kodierung des Elevationswin-
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2.3: Schematische Darstellung der Pinnaanatomie.1
kels. Schallsignalverzerrungen die durch weitere, als die zuvor beschriebenen zwei Reflektio- nen auftreten bzw. durch Streuung an der Pinna entstehen, kann dieser Modellansatz nicht er- klären. Watkins (1978) erweiterte diesen Ansatz und fasste die Außenohrübertragungsfunktion als ein Delay-and-add-System auf, welches sich aus dem Direktschall und zwei Verzögerun- gen zusammensetzt. Diese erste Verzögerung von ca. 0-80 μs und die zweite von 100-300 μs werden durch die Hauptreflektionen von unterschiedlichen Pinnaanteilen erklärt.
Shaw und Teranishi (1968) konnten mit ihren Untersuchungen fünf Eigenresonanzen der Pin- na nachweisen, deren Schalldruckverteilung schematisch in Abb. 2.4 dargestellt sind. Bei der
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2.4: Modell der Pinnaeigenresonanzen nach Shaw und Teranishi (1968) bei schallhartem Gehör- gangsabschluss und Beschallung aus der Position ϕ = 0◦ und δ = 0◦. Abbildung entnommen aus Blauert (1974).
ersten Resonanzfrequenz f01 ≈ 3 kHz handelt es sich nach Shaw und Teranishi (1968) um ei- neλ4 -ResonanzdeseinseitigschallhartabgeschlossenenGehörgangs.Diezweite,relativbreite Resonanz bei f02 ≈5kHz entsteht auf Grund eines Druckmaximums in der cavum conchae. Die- se zwei Resonanzen wurden sowohl bei Modellohren als auch bei Messungen mit Probanden einzeln nachgewiesen. Die höheren Resonanzen bei f03 ≈9kHz, f04 ≈11kHz und f05 ≈13kHz entstehen auf Grund stehender Wellen, deren Wellenknoten und Wellentäler die cavum con- chae in mehrere Abschnitte unterteilen. An Modellohren konnten diese Resonanzen ebenfalls getrennt voneinander nachgewiesen werden, verschmelzen jedoch bei natürlichen Ohren zu ei- ner breiten Resonanzerhöhung. Die Ausprägung der Resonanzen ist sowohl vom Azimuth- als auch vom Elevationswinkel abhängig. (Shaw und Teranishi, 1968) Zur Modellierung des Beugungseinflusses am Kopf und der Reflektionen am Oberkörper, werden die Effekte größtenteils durch Annahme einer schallharten Kugel und teilweise durch einen ellipsoiden Körper berechnet. (Blauert, 1997)
Zur Bestimmung des optimalen HRTF-Messpunktes im Außenohr wurden von Hammershoi und Moller (1996) Sondenmikrofonmessungen an acht verschiedenen Positionen durchgeführt, mit dem Ziel den physikalischen Punkt des Gehörgangs zu bestimmen, ab dem die weitere Schallausbreitung unabhängig von der Schallquellenposition ist. Die grundlegende Erkennt- niss dieser Studie ist die Richtungsunabhängigkeit der Schallsignalinformation ab 2-3 mm außerhalb des Gehörgangeingangs, d. h. ab Tragushöhe. Von Blauert (1997) wird ebenfalls die Unabhängigkeit der Richtcharakteristik von der Form des Gehörgangs für Frequenzen bis 23 kHz aufgefasst. Zur Erklärung wird das Außenohr als Sender-Übertragungskanal-System aufgefasst, wobei die Einspeisung des Signals vom Gehörgang erfolgt. Da allgemein die Richt- charakteristik eines Senders von der Quelle unabhängig ist, folgt aus dem Reziprozitätsprinzip die Unabhängigkeit der Richtcharakteristik des Außenohres von der Abschlussimpedanz des Gehörganges. Diese Unabhängigkeit der Richtcharakteristik bedeutet jedoch nicht, dass die HRTF unabhängig von der Trommelfellimpedanz aufzufassen ist. (Blauert, 1997) Jedoch sind insitu-Messungen am Trommelfell, welche durch das Einführen des Mikrofons eine potentiell höhere Gefährdung für den Probanden darstellen, für HRTF-Messungen zur Bestimmung der monauralen und binauralen Lokalisationsparameter nicht notwendig.
Diese anthopometrisch basierenden Verzerrungen des Schallsignals bilden die wesentlichen Informationen für die Ermittlung der Schallquellenentfernung, dem Elevationswinkel und liefern Hinweise zur Unterscheidung der Vorne-Hinten-Position. (Blauert, 1997)
2.3 Binaurale Lokalisationsparameter
Interaurale Pegeldifferenzen und interaurale Zeitdifferenzen sind die binauralen Lokalisationsparameter, welche vorrangig zur Lokalisation in der Horizontalebene ausgewertet werden. In der Literatur wird die Auswertung der interauralen Parameter zur Lokalisation häufig als Duplextheorie bezeichnet. Im folgenden Abschnitt wird ein Überblick der physikalischen und perzeptiven Eigenschaften der interauralen Parameter dargestellt.
Betrachtet man die ITD’s bei Änderung der Schallquellenposition in der Horizontalebene, ist die systhematische Änderung der ITD erkennbar. Diese erreichen ihr Maximum jeweils bei ϕ = 90◦ bzw. ϕ = 270◦, d.h. bei direkter Beschallung des rechten bzw. linken Ohres und das Minimum bei ϕ = 0◦ bzw. ϕ = 180◦, d. h. bei Beschallung direkt von vorne oder hinten. In Abbildung 2.5 ist diese systhematische Änderung der ITD als Funktion des Azimuthwinkels dargestellt.
Die Laufzeitdifferenz, basierend auf der räumlichen Trennung der Ohren, kann vereinfachend
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2.5: Systhematische Änderung der ITD als Funktion des Azimuthwinkels bei konstanter Elevation (Messdaten entnommen aus Grantham (1995), Seite 312).
aus dem Kopfdurchmesser d und dem Azimuthwinkel ϕ berechnet werden. In Abbildung 2.6 ist schematisch die Wegdifferenz ΔS zwischen den beiden Ohren und die Winkelzuordnung anhand der Schallquellenrichtung dargestellt. Die Wegdifferenz ΔS ist die Summe der Teilstre-
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2.6: Schematische Darstellung zur Berechnung der frequenzunabhängigen ITD.
cken S1 und S2. Bei Annahme eines symmetrischen, kugelförmigen Kopfes und der frequenzunabhängigen Verzögerung der Schallsignale kann die ITD anschließend mit diesen Teilstrecken, dem Azimuthwinkel ϕ und der Schallausbreitungsgeschwindigkeit c nach Gleichung 2.2 berechnet werden. (Blauert, 1997)
Abbildung in dieser Leseprobe nicht enthalten
Bei einem angenommenen Kopfdurchmesser von d = 0,2 m ergibt sich bei einer Schallausbreitungsgeschwindigkeit c = 343ms undeinemAzimuthwinkelϕ=90 ◦ einemaximaleITD von630 μs. Die auf Grund von ITDs entstehenden Signalunterschiede können für Sinustöne als interaurale Phasendifferenzen (IPD) bei der Fequenz f beschrieben und nach Gleichung 2.3 berechnet werden. (Blauert, 1974)
Abbildung in dieser Leseprobe nicht enthalten
Die Abbildung 2.5 und die Gleichung 2.3 kennzeichnen die auftretenden Mehrdeutigkeiten der IPD bei Winkeln die größer als π sind, da sowohl zwei Azimuthwinkel {ϕ1, ϕ2 ∈ R | 0◦≤ ϕ ≤ 180◦} und weitere zwei Azimuthwinekl {ϕ3,ϕ4 ∈ R|180◦≤ ϕ ≤ 360◦} die selbe ITD bzw. IPD aufweisen. Die maximale Frequenz zur eindeutigen Lokalisation anhand interauraler Phasendifferenzen lässt sich mittels Gleichung 2.3 und einer angenommenen ITD von 630 μs berechnen. Bei einem Azimuth ϕ =90◦ bzw. ϕ =270◦ und einer Phasendifferenz von IPD = π sind Frequenzen von f ≤ 794 Hz eindeutig über IPDs lokalisierbar. Bei höheren Frequenzen treten Mehrdeutigkeiten auf. Um diese Mehrdeutigkeiten bzw. Phasensprünge bei 2 · π zu ver- meiden, kann die Gruppenlaufzeit τ (f ) angegeben werden. Die Gruppenlaufzeit berechnet sich nach Gleichung 2.4 als Ableitung der Phase nach der Frequenz und stellt somit einen frequenz- abhängigen Schätzer der Laufzeit dar. (Middlebrooks und Green, 1990)
Abbildung in dieser Leseprobe nicht enthalten
Untersuchungen von Middlebrooks und Green (1990) zeigen, dass durch die Auswertung von interauralen Einhüllendendifferenzen die entstehenden Phasenmehrdeutigkeiten, in Abhängigkeit von der Frequenz und Bandbreite des Schallsignals, teilweise kompensiert werden (Moore, 1997). Jedoch sind bei hohen Frequenzen die ILDs und die monauralen Lokalisationsparameter auf Grund spektraler Filterung stärker augesprägt, so dass die Auswertung der interauralen Einhüllendendifferenzen zur Verbesserung der Lokalisationsleistung keinen signifikanten Beitrag leisten. (Middlebrooks und Green, 1990)
Die interauralen Pegeldifferenzen ergeben sich aus der Schalldruckpegeldifferenz der Über- tragungsfunktionen des rechten und linken Ohres. Die individuellen ILDs sind sowohl vom Azimuth und der Elevation, als auch von der Frequenz abhängig. (Blauert, 1974) Ursache der ILDs ist die bzgl. des Schallfeldes abschattende bzw. beugende Wirkung des Kopf- es, welche durch die Gesetze der Beugung bestimmt werden. Aus dem Zusammenhang von Wellenlänge λ und Frequenz f kann nach Gleichung 2.5 die minimale Frequenz berechnet werden, bei der Pegeldifferenzen auf Grund des Kopfschattens ILDs hervorrufen.
Abbildung in dieser Leseprobe nicht enthalten
Bei einem angenommenen Kopfdurchmesser von d = 0,2 m und einer Schallausbreitungs-
Abbildung in dieser Leseprobe nicht enthalten
geschwindigkeit c = 343 s ergibtsicheinewirksameuntereBeugungsfrequenzvon fmin = 1715 Hz. Frequenzen unterhalb dieser wirksamen Beugungsfrequenz weisen größe- re Wellenlängen auf und werden um den Kopf gebeugt, d. h. es tritt kein Kopfschatten sondern höchstens eine geringfügige Störung des Wellenverlaufs im Nahfeld des Kopfes auf (Veit, 1996). Frequenzen oberhalb von f = 1715 Hz haben im Vergleich zum Kopfdurchmesser eine kleinere Wellenlänge λ und werden somit nicht um den Kopf gebeugt. Die abschattende Wirkung des Kopfes steigt mit zunehmender Frequenz bzw. abnehmender Wellenlänge an (Blauert, 1974), was einer Tiefpasscharakteristik vom ipsilateralen zum kontralateralen Ohr entspricht. Am kontralateralen Ohr entstehen bei Schalleinwirkung von ϕ=90◦ Schalldruckpegeldifferenzen von bis zu 35dB bei 10kHz (Middlebrooks und Green, 1991).
Zur vollständigen Lokalisationsbeschreibung reichen die binauralen Lokalisationsparameter nicht aus, da diese nicht für das gesamte betrachtete Koordinatensystem eindeutig sind. Wird der Kopf als stationär angenommen, bildet sich der sogenannte Cone of Confusion, welcher in Abb. 2.7 schematisch dargestellt ist. Für alle Positionen auf der Kegeloberfläche sind die
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2.7: Schematische Darstellung des „Cone of Confusion“. Auf der Kegeloberfläche sind die bin- auralen Lokalisationsparameter (ILDs und ITDs) identisch und die Lokalisation somit nicht eindeutig. Abbildung entnommen von Moore (1997).
ILDs und ITDs identisch, was insbesondere Vertauschungen der von vorne und hinten Richtung hervorruft. Um die Lokalisationsschärfe zu verbessern, sind Kopfbewegungen und somit Änderungen der binauralen Lokalisationsparameter möglich. Weitere wichtige Informationen werden auf Grund der spektralen Veränderungen des Schallsignals durch die Ohrmuschel, Kopf und Torso mit Schultern extrahiert. (Moore, 1997)
Diese spektralen Änderungen werden als monaurale Lokalisationsparameter bezeichnet und sind in Abschnitt 2.2 beschrieben.
Kapitel 3 Theorie zur Messung und Berechnung von Übertragungsfunktionen
3.1 Systemtheoretische Grundlagen
Allgemein transformiert ein System H ein Eingangssignal x in ein Ausgangssignal y, schematisch dargestellt in Abb. 3.1. Demnach gilt: y = H{x}.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 3.1: Allgemeines Schema der Wirkungsweise eines Systems.
Handelt es sich bei dem System H{x} um ein lineares System, d. h. es gilt für beliebige komplexe Konstanten A und B das Superpositionssystem gemäß der Definition 3.1
Abbildung in dieser Leseprobe nicht enthalten
und ist das System weiterhin invariant bzgl. der Zeit gemäss der Definition 3.2
Abbildung in dieser Leseprobe nicht enthalten
so kann das System vollständig durch die Impulsantwort im Zeitbereich oder durch die Übertra- gungsfunktion im Frequenzbereich beschrieben werden. Lineare, zeitinvariante Systeme wer- den als LTI-Systeme bezeichnet und stellen eine eigene Systemklasse dar, die keine neuen Frequenzen hervorrufen und den Zeitbezug zum Eingang beibehalten. (Girod et al., 1997)
Die Übertragungsfunktion eines LTI-Systems H(ω) bzw. die Systemimpulsantwort h(t) lässt sich bei Kennntnis des Eingangssignal x(t) und des Ausgangssignals y(t) mittels des Faltungs- theorems im Zeitbereich bzw. den entsprechenden Fouriertransformierten im Frequenzbereich nach Gleichung 3.3 berechnen.
Abbildung in dieser Leseprobe nicht enthalten
Da ein LTI-System sowohl durch die Übertragungsfunktion als auch durch die Impulsantwort vollständig beschrieben ist, kann zu jedem Zeitpunkt die Änderung der Amplitude und die Verschiebung der Phase berechnet werden. (Oppenheim et al., 1999)
Der Gleichung 3.3 kann die komfortablere Berechnung der Systemfunktion im Frequenzbereich gegenüber der Berechnung im Zeitbereich entnommen werden. Dabei ist für die Berechnung der Fouriertransformierten des Ein- und Ausgangssignals die Unterscheidung nach Energie- oder Leistungssignal zu beachten. Für Energiesignale berechnet sich die Fouriertransformierte nach Gleichung 3.4.
Abbildung in dieser Leseprobe nicht enthalten
Handelt es sich beim Eingangssignal um ein Leistungssignal, welches aperiodisch ist, existiert ∫∞
das Integral aus Gleichung 3.4 nicht, da die Bedingung −∞ |x(t)|dt<∞nichteingehalten ist. Das Spektrum eines Leistungssignals ist ein Autoleistungsdichtespektrum (Fourietransformierte der AKF). Die Berechnung von Fouriertransformierten von Leistungssignalen erfolgt demnach nach Gleichung3.5 und ergibt immer eine reellwertige Funktion und enthält somit keine Phaseninformation zum Zeitsignal.
Abbildung in dieser Leseprobe nicht enthalten
Die Berechnung des Autoleistungsspektrum wird in der Literatur auch als Wiener-Khintchine- Theorem bezeichnet. Äquivalent zum Autoleistungsdichtespektrum (ALDS) wird das Kreuzleistungsdichtespektrum (KLDS) aus der Fouriertransformierten der Kreuzkorrelationsfunktion (KKF) nach Gleichung 3.6 berechnet.
Abbildung in dieser Leseprobe nicht enthalten
Im Gegensatz zur ALDS ist das KLDS eine komplexwertige Funktion der die Phasendifferenz der Signale x(t) und y(t) entnommen werden kann. (Meyer, 2002)
Aus den Gleichungen 3.3 bis 3.6 berechnet sich folglich die Übertragungsfunktion gemäß Glei- chung 3.7.
Abbildung in dieser Leseprobe nicht enthalten
Soll ein System komplett ausgemessen und identifiziert werden, so ist der Gleichung 3.7 zu entnehmen, dass ein ideales Anregungssignal einen Diracstoß als Autokorrelationsfunktion aufweist. Für diesen Fall vereinfacht sich die Bestimmung der Übertragungsfunktion gemäß Gleichung 3.8, d. h. die Impulsantwort des Systems entspricht der Kreuzkorrelationsfunktion und die Übertragungsfunktion entspricht dem Kreuzleistungsdichtespektrum.
Abbildung in dieser Leseprobe nicht enthalten
In der Literatur wird die Berechnung der Impulsantwort mittels der KKF als Korrelationsmes- sung bezeichnet. Im Falle der Systemanregung mit störungsfreien Signalen ergibt sich ein vom Messdurchgang unabhängiges Spektrum und eine Einzelmessung zur Bestimmung der Über- tragungsfunktion ist ausreichend. Aus messtechnischer Sicht stehen teilweise, auf Grund addi- tiver Überlagerung des Ein- und Ausgangssignals entsprechend der Abb. 3.2, nur verrauschte Signale zur Verfügung. Für den Fall mit Mess- oder Digitalisiserungsrauschen gestörter Si-
Abbildung in dieser Leseprobe nicht enthalten
Abb. 3.2: Schematische Darstellung verrauschter Messignale durch additive Überlagerung des Ein- und Ausgangssignals mit Rauschen beim Korrelationsverfahren. (Abb. basierend auf Mey- er (2002), Seite 332)
gnale ist es mittels des Korrelationsverfahres jedoch möglich, unkorrelierte Störungen durch Mittelung zu minimieren. Verwendet man zur Berechnung das Original-Eingangssignal, d. h. nx(t) = 0 und nur das Ausgangssignal ist mit Störungen behaftet, gelten für die Berechnung der Leistungsspektren die Gleichungen 3.9.
Abbildung in dieser Leseprobe nicht enthalten
Da x(t) und ny(t) unkorreliert sind, wird Sxny (ω) = 0 und die Gleichung 3.7 gilt weiterhin. Für Signale mit Sxx = 1 gilt Gleichung 3.8. Dabei ist zu beachten, dass die Spektren der Einzelmessungen gemittelt und erst anschließend die Division durchgeführt wird, da sich sonst die Störungen nicht rausmitteln. (Meyer, 2002; Ohm und Lüke, 2007)
3.2 Messstimuli
Übertragungsfunktionen von LTI-Systemen lassen sich mit unterschiedlichen Stimuli messen. Zur Bestimmung von HRTFs ist aus der Literatur ebenfalls die Anwendung verschiedener Stimuli bekannt. So verwendeten z. B. Wiener und Ross (1946), Feddersen et al. (1957) und Shaw (1966) Sinustöne, um somit in Einzelmessungen die Übertragungsfunktion des Außenohres zu ermitteln. Mit dem Vorteil der sehr kurzen Messzeit werden z.B. von Feddersen et al. (1957), Blauert (1974) und Mehrgardt und Mellert (1977) Impulse als Anregungssignal genutzt, was jedoch die Gefahr eines schlechten SNR mit sich bringt. Um breitbandige Übertragungsfunktionen mit einem möglichst guten SNR zu ermitteln, werden z. B. von Hammershoi und Moller (1996) und Otten (2001) Maximalfolgen bzw. von Kistler (1992) periodisches Weißes Rauschen mit einer sehr langen Periodendauer verwendet. Diese eignen sich besonders auf Grund ihrer Autokorrelationsfunktion (AKF)-Definition zur Bestimmung von Impulsantworten. Sie werden im Folgenden näher erläutert und in dieser Arbeit als Messsignale verwendet.
Weißes Rauschen
Weißes Rauschen ist ein nichtperiodisches Rauschsignal, theoretisch mit unendlicher Signal- leistung, da es sich um ein Zufallssignal handelt. Die stochastischen Variablen des Rauschens sind mittelwertfrei (μ = 0) und zueinander unkorreliert, d. h. E{X1 · X2} = E{X1} · E{X2}. Die AKF eines unkorrelierten Prozesses entspricht gemäß Gleichung 3.10 der Gewichtung eines Delta-Impulses mit der Leistung des Prozesses. Aus dieser Definition ergibt sich die Be- rechnung der Impulsantwort mittels des Kreuzkorrelationsverfahren, welches im Abschnitt 3
Abbildung in dieser Leseprobe nicht enthalten
Bei Weißem Rauschen entspricht die Leistung der Varianz σ2 des Prozesses, da dieser mittelwertfrei ist. Das Leistungsdichtespektrum (LDS) ist die Fouriertransformierte der AKF und muss demnach im konstanten Frequenzbereich konstant sein. (Meyer, 2002)
Folgen maximaler Länge - MLS
Unter Folge maximaler Länge ist eine pseudozufällige Zahlenfolge zu verstehen, welche im Analogen mit linear zurückgekoppelten Schieberegistern bzw. im Digitalen mit Exklusiv-Oder Operationen erzeugt werden kann. Die mathematische Theorie zur Erzeugung dieser Folgen beruht auf Polynomringe und Galois-Feldern und kann ausführlich in Peterson und Weldon (1972) nachgelesen werden. Im Allg. werden unter MLS binäre Rauschfolgen verstanden, d.h. die Folge enthält nur die zwei Elemente xi ∈ {0, 1}. Diese boolsche Sequenz xi wird für tech-
Kapitel 3. Theorie zur Messung und Berechnung von Übertragungsfunktionen 15
Abbildung in dieser Leseprobe nicht enthalten
Damit eine binäre Sequenz eine Maximalfolge darstellt, müssen die von Solomon Golomb formulierten Anforderungen erfüllt sein:
1. Ausgewogenheit der binären Elemente, d.h. die Anzahl der Einsen ist um eins größer als die Anzahl der Nullen.
2. Die Länge aufeinanderfolgender gleicher Elemente muss der Verteilung eines Zu- fallsprozesses entsprechen.
3. Die Autokorrelationsfunktion Rxx der Maximalfolge entspricht der Autokorrelations- funktion von Weißem Rauschen, d.h. Rxx(t) ≈ δ(t)
Maximalfolgen beruhen auf charakteristischen primitiven Polynomen der Form
Abbildung in dieser Leseprobe nicht enthalten
welche linearen homogenen Differenzengleichungen der Form
Abbildung in dieser Leseprobe nicht enthalten
entsprechen. Um die Ergebnisse der Gleichung 3.13 auf die Elemente {0,1} zu limitieren, werden alle im Zusammenhang mit den Elementen xi stehenden Rechenoperationen zur modulo-2 bzw. Exklusiv-Oder Operation gemäß Gleichung 3.14.
Abbildung in dieser Leseprobe nicht enthalten
Durch Umformung der Gleichung 3.14 kann jedes Element xi einer Folge n-ter Ordnung rekursiv nach Gleichung 3.15 berechnet werden, wobei als Startbedingung gilt, dass mindestens ein Element von [xn−1...x0] ungleich Null sein muss.
Abbildung in dieser Leseprobe nicht enthalten
Die so erzeugte periodische Folge der Länge L = 2n-1 ist vom Startvektor x der Länge n abhängig. Die Anzahl der Elemente xi = 0 bzw. si = 1 beträgt 2n−1 − 1 und für die Elemente xi = 1 bzw. s1 = -1 beträgt die Anzahl 2n−1. Für MLS mit einer hohen Ordnung n ist die Sequenz nahezu mittelwertfrei. (Alrutz, 1983)
Abbildung in dieser Leseprobe nicht enthalten
Die Autokorrelationsfunktion von Maximalfolgen ist gemäß Gleichung 3.16 definiert.
Abbildung in dieser Leseprobe nicht enthalten
Aus dieser Definition ergibt sich, äquivalent zum Weißen Rauschen, die Berechnung der Im- pulsantwort mittels des Kreuzkorrelationsverfahren, welches im Abschnitt 3 beschrieben ist. Weitere Eigenschaften ist ein ähnlich zum Weißen Rauschen flaches Spektrum mit Ausnahme der DC-Komponente, ein geringer Crest-Faktor und somit ein gutes Signal-Rausch-Verhältnis.
Der SNR kann weiterhin um den Faktor M durch M Mittelungen verbessert werden, wobei über den gesamten Messzeitraum die Zeitinvarianz des Systems sichergestellt werden muss. Für die messtechnische Anwendung ist die Sequenzlänge L und somit die Ordnung n ein wichtiger Parameter. Um den Effekt des Zeit-Aliasing zu verhindern, muss die Forderung in Gleichung 3.17 erfüllt sein.
Abbildung in dieser Leseprobe nicht enthalten
Ist die Summe der Länge der Impulsantwort und der Laufzeit des Systems nicht innerhalb der MLS-Anregung auf hinreichend kleine Werte abgeklungen, entstehen Phasenverschiebungen durch Time-Aliasing, was anschließend nicht korrigierbar ist. (Kovitz, 1992)
3.3 Validitäts- und Präzisionsbetrachtung von HRTF-Messungen
Die Validität und Präzision von HRTF-Messungen und deren Ergebnisinterpretation hängen sowohl von der Kontrolle der elektrischen, akustischen und physischen Einflussfaktoren als auch der anschließenden Signalverarbeitung und -analyse ab. Besonders wichtig dabei ist die richtige Positionierung der Messmikrofone und deren mögliche Reproduzierbarkeit sowie die Stabilität des gesamten Messsystems und der Probandenposition. Im Folgenden werden die in der Literatur beschriebenen Auswirkungen von Änderungen dieser Faktoren auf die HRTF-Ergebnisse als Überblick dargestellt.
Auswirkungen der Mikrofonpositionsänderung:
Riederer (2004b) hat in einer ausführlichen Studie den Einfluss der Mikrofonpositionsän- derung um wenige Millimeter auf den Amplitudengang der HRTFs von zwei Probanden untersucht. Das dazu verwendete Messsystem wurde in einer vohergehenden Untersuchung mit HRTF-Messungen an einem Kunstkopf verifiziert (Riederer, 2005). Als Messmikrofone wurden die Miniaturelektretmikrofone Sennheiser KE4-211 verwendet und in ein formbares silikonartiges Polymer (ähnlich zu der in Abschnitt 5 beschriebenen Silikonotoplastik) zur Fixierung eingearbeitet. Von den zwei Probanden wurden HRTFs für 252 Schalleinfallsrich- tungen, jeweils mit großem zeitlichen Abstand zwischen den Einzelmessungen evaluiert. Von Einzelmessung zu Einzelmessung wurde die Position der Messmikrofone sukzessiv vom
Abbildung in dieser Leseprobe nicht enthalten
Tragus in Richtung Concha-Mitte geringfügig geändert und jeweils die Differenz zwischen den Einzelmessungen ausgewertet. Dabei zeigen sich bei beiden Probanden in Abhängigkeit vom Azimuth- und Elevationswinkel drei ausgeprägte Frequenzstrukturen. Die erste Differenz im Bereich von 6-9kHz ist mit einer Abweichung von +2...+5dB eher schwach ausgeprägt. Die nächsten zwei Frequenzänderungen liegen im Bereich von 9-16 kHz und 16-20 kHz mit einer deutlichen Abweichung von -10...-15 dB. Die Abweichung wird für große Elevationswinkel größer und wird bei einer Änderung der Mikrofonkapselposition von 2-3 mm maximal. Diese Ergebnisse belegen einerseits die Sensitivität der von Shaw und Teranishi (1968) ermittelten Eigenfrequenzen der Cavum Conchae bezgl. der Mikrofonposition und andererseits die Notwendigkeit von Maßnahmen zur korrekten Reproduzierbarkeit der Mikrofonposition, da HRTFs auf Grund der langen Messzeit häufig in mehreren Messzyklen aufgenommen werden.
Auswirkungen von Kopfbewegungen des Probanden:
Eine weitere Untersuchung von Riederer (2004a) beschäftigt sich mit dem Einfluss von Kopf- bewegungen auf den Amplitudengang der HRTF. Dabei wurden Kopfbewegungen in der Fron- talebene (neigen), in der Medianebene (nicken) und in der Horizontalebene (drehen) quantitativ anhand der HRTFs von Probanden und einem Kunstkopf bewertet, wobei zwischen den zu ver- gleichenden einzelnen Messungen die Mikrofone unberührt und somit positionsstabil waren.
Ergebnisse der Messungen bei Änderungen der Kopfposition in der Frontalebene: Bei einer gemessenen Auflösung von Δϕ=40◦ wurde bei den Elevationen δ ∈[-30◦, -15◦, 0◦, 15◦, 30◦, 60◦, 90◦] für eine Kopfneigung von 5◦ eine moderate frequenzabhängige Änderung des Betra- ges der HRTF festgestellt. Die Differenz nimmt mit zunehmender Frequenz zu und beträgt auf dem ipsilateralen Ohr oberhalb von 6-7kHz ca. ± 10dB und sinkt bei 2-3kHz auf ca. ± 5dB ab. Dieser Effekt ist symmetrisch zur Medianebene und ist an dem Ohr zu dem der Kopf geneigt wird weniger stark ausgeprägt. Für negative Elevtionswinkel sind die Unterschiede signifikant geringer. (Riederer, 2004a)
Ergebnisse der Messungen bei Änderungen der Kopfposition in der Medianebene: Im Ge- gensatz zu einer neigenden Kopfbewegung erzeugt das Kopfnicken eine bilateral symmetrische und breitbandige (2-24 kHz) Änderung des Amplitudenverlaufs. Besonders groß sind die Dif- ferenzen wieder auf dem ipsilateralem Ohr, jedoch bei negativen Elevationswinkeln. Mit zu- nehmender Elevation werden die Amplitudendifferenzen weniger resonant. (Riederer, 2004a)
Ergebnisse der Messungen bei Änderungen der Kopfposition in der Horizontalebene: Wird der Kopf in der Horizonatalebene um ca. 10◦ gedreht, so ergeben sich Amplitudendifferen- zen auf dem ipsilateralem Ohr von ±10 dB oberhalb von 2 kHz. Je stärker die Drehung ist, desto breitbandiger und größer (±15-20dB) sind die Amplitudendifferenzen. (Riederer, 2004a)
Riederer (2004a) kommt durch den Vergleich seiner Messergebnisse mit denen von Algazi et al. (2002) zu dem Ergebnis, dass komplexe Kopfbewegungen einen ähnlich starken Einfluß auf den HRTF-Amplitudengang haben, wie starre Kopf- und Nackenfixierungen, welche das Schallfeld nicht unwesentlich beeinflussen. Grundsätzlich ist die Auswirkung von komplexen Kopfbewegungen auf dem ipsilateralem Ohr oberhalb von 6kHz am stärksten. Die Konsequenz von großen Kopfbewegungen liegt in der Verletzung der LTI-Forderung, d. h. die Impulsant- worten sind nicht mehr linear und zeitinvariant. Da bisherige Kopf- und Nackenfixierungen die Torsoreflexionen signifikant verändern (Algazi et al., 2002), empfiehlt es sich auf diese soweit wie möglich zu verzichten bzw. dezent zu konstruieren und die Probanden sehr gut bzgl. der Notwendigkeit einer stabilen Kopfposition zu instruieren. (Riederer, 2004a)
Kapitel 4 HRTF-Messsystem
4.1 Bestehendes System
Der mechanische Grundaufbau des in dieser Arbeit verwendeten Messapparates (Two Arc Sour- ce Positioning System - TASP), dargestellt in Abb. 4.1, wurde bereits zu Lokalisationsuntersu- chungen verwendet und wurde unter den Aspekten einer möglich hohen Auflösung im Azi- muth und Elevation entwickelt. Um dabei die Reflexionen, die durch den Aufbau hervorgeru- fen werden zu minimieren, wurde ein Zwei-Bogen-System mit positionsändernden Lautspre- chern erstellt, welches temporär im reflexionsarmen Raum der Universität aufgebaut werden kann. (Otten, 2001) Der mechanische Aufbau des abbaubaren Grundgerüstes, kann an eine im
Abbildung in dieser Leseprobe nicht enthalten
Abb. 4.1: Schematischer Aufbau des Messystems „Two Arc Source Positioning System“ (TASP). Eine Beschreibung der nummerierten Einzelteile ist im Text zu finden. Abbildung entnommen von Otten (2001). reflexionsarmen Raum der Universität dauerhaft installierte Deckenkonstruktion montiert wer- den kann. Das Gerüst besteht aus zwei sich gegenüberliegenden Halbbögen (Nr. 4), die die zwei Messachsen für die Vertikalebene bilden. Eine dritte Rotationsachse (Nr. 5) ermöglicht die Drehung des Gesamtbogens und bildet somit die Messachse für die Horizontalebene. Der Durchmesser des Gesamtbogens ist 3,80m. An jedem Halbbogen befindet sich ein beweglicher Schlitten, an denen die Lautsprecher fixiert werden können (Nr. 6). Am unteren Ende sind die Halbbögen mit einem Metallring verbunden (Nr. 8), welcher wiederum auf einem Metallzylin- der (Nr. 9) drehbar gelagert ist. Weiterhin dient der Metallzylinder als Basis für ein Holzpodest (Nr. 10), auf dem der Stuhl für die Probanden fixiert wird. Dadurch bleibt die Position der Probanden während der Messdauer konstant und die Messpositionen werden über die drei be- schriebenen Achsen und den drei Schrittmotoren (Nr. 7 für die Vertikalebene und Nr. 3 für die Horizontalebene) eingestellt. Sämtliche Schrittmotoren sind ohne Sensoren zur Positionsrück- meldung ausgestattet, was einerseits einen einfachen Messbetrieb aber andererseits eine genaue Kenntnis der Startposition voraussetzt. Die Lautsprecherschlitten werden durch zwei 40 mm breite Zahnriemen, welche am jeweiligen Halbbogen befestigt sind, positioniert. Abb. 4.2 zeigt die aktuelle Verschaltung der Schrittmotoren und deren Bezeichnung in der implementierten MatLab-Messroutine, welche in Abschnitt 4.3 beschrieben ist. Die Positioniergenauigkeit für
Abbildung in dieser Leseprobe nicht enthalten
Abb. 4.2: Verschaltung der Schrittmotoren und Leistungsansteuerungsmodule.
die Schrittmotoren in der Vertikalebene liegt bei ca. 0,006◦, für die Horizontalebene bei ca. 0,0009◦. Die Messgrenzen, die durch das Bogensystem vorgegeben sind, liegen in der Elevation bei δmin= -40◦ und δmax= 80◦. Über die Positioniergenauigkeit und die obere und untere Messgrenze in der Elevation ergeben sich theoretisch 8.000.000.000 mögliche Messpunkte. Für das zuvor beschriebene Messsystem bestehen folgende Nachteile:
1. Neben diesem rein mechanischen Aufbau existert keine implementierte Messroutine, so dass die gewünschten Messpunkte manuell über die Mehrachspositioniereinheit einzeln angefahren werden müssen.
2. Auf Grund des mechanischen Aufbaus entstehen starke Reflektionen, deren Ursachen bisher nicht einzeln geklärt sind.
3. Die Fensterung der ermittelten Impulsantworten zur Eleminierung der Reflektionen führt zu einer verringerten Frequenzauflösung von ca. 75Hz (Otten, 2001).
4.2 Optimierung des bestehenden Systems
Mit dem im Abschnitt 4.1 beschriebenem Messsystem gab es bezüglich der gewünschten Ge- nauigkeit und Handhabbarkeit dieser Untersuchung folgende Probleme bzw. Unzulänglichkei- ten:
1. Bei Beschallung aus allen Richtungen treten bei den Impulsantworten beider Ohren Re- flexionen nach 6-7 ms und 12-13 ms auf. Dadurch ist ohne Interpolation mittelssin(x)- x Funktionen eine maximale Frequenzauflösung von Δf ≈ 160 Hz realisierbar, sofern die Impulsantwort nach 4ms hinreichend abgeklungen ist.
2. Bei seitlicher Beschallung sind die Reflexionen auf dem kontralateralen Ohr so stark, dass sie nicht mehr verlustfrei von den Impulsantworten durch Fensterung getrennt wer- den können. Eine Verfälschung der komplexen HRTF ist die Folge.
3. Es muss eine Sitz- oder Stehgelegenheit für die Probanden geschaffen werden, die einer- seits das Schallfeld möglichst nicht beeinflusst und andererseits jedoch auch Komforta- bilität und Stabilität für die Probanden während der Messzeit bietet.
4. Es gibt keine Ansteuerungssoftware zu dem Messsystem, so dass HRTF-Messungen au- tomatisch an beliebigen Punkten durchgeführt und probandengebunden gespeichert wer- den können.
Im Folgenden wird die Optimierung des Messsystems bezgl. der bisher auftretenden Reflexionen und die Erweiterung des rein mechanischen Aufbaus beschrieben. Die aufwendige Implementierung der Messsystemsteuerung, Stimuligenerierung, HRTF-Berechnung und Datenspeicherung wird separat im Abschnitt 4.3 beschrieben.
Reflexionen
Auf Grund des gleichmäßigen zeitlichen Auftretens konnte auf die reflektierenden Flächen in 1,8 m und 3,6 m Entfernung geschlossen werden. Um die erste Reflexion bei 6-7 ms zu vermeiden, wurde das Holzpodest komplett mit BARRISOL-Platten verkleidet und der Metallring mit 8 cm dicken Schaumstoff ummantelt. Weiterhin wurde die Stahlkonstruktion an der Decke mit neuen Schaumstoffplatten abgedeckt. Mit diesen sukzessiv durchgeführten Maßnahmen konnten aus allen Richtungen an beiden Ohren die erste Reflexion nach 6-7 ms verhindert werden. Für die Verhinderung der zweiten Reflexion nach ca. 12-13 ms wurde die obere geschlossenporige Schaumstoffschicht von den Bögen und der restlichen Konstruktion entfernt. Dadurch konnte die Reflexion zwar verringert, jedoch nicht vollständig verhindert werden. Eine weitere Verbesserung bringt die versetzte Anordnung der Lautsprecher in der Elevation. Sind diese während der Messungen maximal weit auseinander, so können für die meisten Positionen Reflexionen vermieden werden, mit Ausnahme des kontralateralen Ohres bei seitlichem Schalleinfall. Jedoch ist die Reflexion jetzt so gering und zeitlich nach dem Ausklingen der Impulsantwort, dass diese verlustfrei gefenstert werden kann.
Probandenstuhl
Um den Probanden eine stabile und gleichzeitig komfortable Position während der HRTF- Messungen zu ermöglichen wurde auf dem Holzpodest des TASP-Systems ein Armlehnenstuhl mit Kopf- bzw. Nackenstütze, welche vor allem Kopfneigungen und Kopfrotationen während der Messung verringert, fixiert. Dabei ist sowohl die Höhe des Stuhles als auch die Kopfstütze in der Höhe verstellbar und kann somit für jeden Probanden individuell eingestellt werden. Sämtliche reflektierenden Flächen wurden, wie der Metallring, mit 8 cm dicken Schaumstoff verkleidet um Reflexionen zu verhindern. In Abb. 4.3 ist der modifizierte mechanische Aufbau des Systems mit dem verwendeten Stuhl und den Manga-Schallwandlern auf den Schlitten im reflexionsarmen Raum der Universität abgebildet. Eine genauere Abbildung der Kopfstütze zur Stabilisierung der Kopfposition kann dem Abschnitt 6.1.2, Abb. 6.2 entnommen werden.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 4.3: Foto des optimierten TASP im reflexionsarmen Raum der Universität. Zur Verhinderung der bisherigen Reflexionen wurde zusätzlich Absorbtionsmaterial an den reflektierenden Flächen (Metallring, Holzpodest und Decken-Stahl-Konstruktion) angebracht. Der geschlossenporige Schaumstoff an den Halbbögen wurde entfernt, so dass das Schallfeld durch den darunter liegenden offenen Schaumstoff absorbiert werden kann. Der Stuhl wurde fest auf dem Holz- podest angebracht und mit BARISSOL-Platten verkleidet. Die Kopfstütze dient zur Stabili- sierung der Kopfposition der Probanden.
4.3 Implementierung
Für das beschriebene TASP-Messsystem wurde zur Messung der Referenzsituation ohne Proband und der Messung der Übertragungsfunktion bei Anwesenheit des Probanden eine umfangreiche Anzahl von MatLab-Funktionen inklusive grafischer Benutzeroberflächen implementiert. Ein wichtiger Aspekt dabei war die volle Funktionalität des Messsystems automatisiert zu ermöglichen und andererseits eine intuitiv handhabbare Software den weiteren späteren Anwendern des Messsystems zur Verfügung zu stellen.
Übertragungsfunktion Referenzsituation
Die grafische Benutzeroberfläche zur Bestimmung der Übertragungsfunktion der Referenzsituation ist in Abb. 4.4 dargestellt. Die aufrufende MatLab-Funktion heisst TASP_refence_TF.m (siehe Anhang D.1).
Abbildung in dieser Leseprobe nicht enthalten
Abb. 4.4: Grafische Benutzeroberfläche bei Messung der Referenzsituation. Es werden die Angabe der Mikrofonnummer, des Messstimulus, der abstrahlenden Lautsprechers und der Ohrseite er- wartet. Nach jeder Messung wird die Impulsantwort des elektroakustischen Systems, die Ko- härenz und der Frequenzgang angezeigt.
Vom Benutzer werden folgende Eingaben erwartet:
1. Mikrofonnummer zur Identifizierung und späterer Zuordnung. Unter dieser Nummer wird die Impulsantwort in der Datenbank gespeichert und ist im Ordner IR_Reference zu finden.
2. Messstimulus.
Zur Messung der Referenzübertragungsfunktion kann zwischen Weißem Rauschen und MLS als Anregungssignal gewählt werden. Zur Generierung von Weißem Rauschen wurde die Matlab-Funktion im Anhang D.14 implementiert, die zur Initialisierung von der momentanen Uhrzeit ausgehend, mit dem internen Zufallszahlengenerator normal- verteilte, voneinander unabhängige Werte realisiert. Die theoretische Periodenlänge des verwendeten Algorithmus liegt bei 21492. Der für das Messsystem implementierte MLS- Generator (siehe Anhang D.13) erzeugt binäre Maximalfolgen der Ordnung L ∈ {2; 24}. Wird als Messstimulus MLS gewählt, erscheint ein Eingabefenster zur Abfrage der ge- wünschten Ordnung und Anzahl an MLS-Signalen zur SNR-Verbesserung.
3. Nummer des gewünschten abstrahlenden Lautsprechers.
Entsprechend der beschriebenen Nomenklatur der Lautsprecher (siehe Abschnitt 4.1) wird das Signal vom ausgewählten Lautsprecher ausgesendet und zur Dateibezeichnung der Impulsantwort nach dem Bezeichnungssystem Mikrofonnummer_Lautsprechernummer hinzugefügt.
4. Ohrseite.
Hier muss der Benutzer festlegen, ob das Mikrofon später am rechten oder linken Ohr des Probanden angebracht werden soll. Zur korrekten messtechnischen Erfassung sind die verwendeten Speiseadapter seitenrichtig anzuschließen, da bereits geringfügig diffe- rierende RC-Glieder nicht zu vernachlässigende Abweichungen verursachen.
Nach jeder Messung wird in drei Grafiken die Impulsantwort, die Kohärenz und der Fre- quenzgang angezeigt. Somit können defekte Mikrofone aussortiert und die Qualität der Referenzmessung sichergestellt werden. Erst beim Drücken des save-Buttons wird die Impuls- antwort gespeichert.
Übertragungsfunktion Gesamtsystem
Die grafische Benutzeroberfläche zur Bestimmung der Übertragungsfunktion des Gesamtsystems, d.h. bei Anwesenheit des Probanden, ist in Abb. 4.5 dargestellt. Die aufrufende MatLabFunktion heisst TASP_total_TF.m (siehe Anhang D.2).
Vom Benutzer werden folgende Eingaben erwartet:
1. Probandennummer.
Die Eingabe der Probandennummer und anschließendes Drücken des send and check- Button löst die Überprüfung des Datensatzes im Order IR_subject nach bereits vor- handenen Messungen zu diesem Probanden aus. Ist diese Überprüfung positiv, d. h. es existieren Vorgaben zur Messung zu diesem Probanden, werden die Angaben zu den Messpositionen, Mikrofonen und absolvierten Messungen ausgelesen und in der Benut- zeroberfläche angezeigt. Die noch verbleibenden Messungen können nach Auswahl des Messstimulus sofort gestartet werden. Gibt es zur eingegebenen Probandennummer noch keine vorherigen Angaben wird im Ordner IR_subject automatisch ein Unterordner mit
Abbildung in dieser Leseprobe nicht enthalten
Abb. 4.5: Grafische Benutzeroberfläche zur Messung der Gesamtsystems. Es werden die Angabe der Probandennummer, den Mikrofonnummern, Winkelpositionen und des Messstimulus erwar- tet. Nach jeder Messung werden die Impulsantworten des Gesamtsystems und die Kohärenz beider Kanäle angezeigt. Bei mehreren Messpunkten wird die Nummer der aktuellen Mes- sung sowie die Anzahl verbleibender Messpunkte angezeigt. dem Namen der Probandennummer angelegt, in dem alle weiteren Daten zu Mikrofonen und Messpositionen gespeichert werden.
2. Mikrofonnummer rechts und links.
Auf Grund der Eingabe der Nummern der Messmikrofone können die HRTFs aus den Impulsantworten der Referenzsituation und der Impulsantwort des Gesamtsystems be- rechnet werden.
3. Mikrofontyp rechts und links.
Die Angabe des Mikrofontyps ist nicht direkt zur Berechnung der HRTF notwendig, dient jedoch zur Protokollierung.
4. Angaben zu den zu messenden Azimuthwinkeln.
Es muss der minimale und maximale Azimuthwinkel gegeben werden. Mit der ebenfalls notwendigen Eingabe der gewünschten Winkelauflösung, werden alle möglichen Zwischenwinkel berechnet.
5. Angaben zu den zu messenden Elevationswinkeln.
Wie bei den Angaben zum Azimuthwinkel ist die Eingabe des minimalen und des maxi- malen Elevationswinkels sowie die gewünschte Winkelauflösung notwendig. Die mögli- chen Messwinkel anhand der eingegebenen Eckdaten werden automatisch berechnet.
6. Messstimulus.
Zur Messung der Übertragungsfunktion kann wie bei der Referenzübertragungsfunktion zwischen Weißem Rauschen und MLS als Anregungssignal gewählt werden.
Die MatLab-Funktion zur Berechnung der Schrittanzahl der einzelnen Achsen anhand vorge- gebener Positionen des im Abschnitt 2.1 beschriebenen Koordinatensystems befindet sich im Anhang D.3. Damit ist es möglich alle drei Achsen gleichzeitig und unabhängig voneinander neu einzustellen, wodurch eine schnelle Neupositionierung der Lautsprecher möglich ist.
4.4 Validierung des Systems
Um die Genauigkeit des beschriebenen Messsystems und der Berechnungsroutine zu quantifizieren wurden mit dem Oldenburger Kunstkopf an zwei unterschiedlichen Tagen voneinander unabhängige HRTF-Messungen durchgeführt. Beim Versuchsleiter handelte es sich jedoch bei beiden Messdurchgängen um die selbe Person. Vom Kunstkopf wurden für ein Δϕ=10◦ und Δδ=10◦ alle möglichen Messpunkte angefahren und die komplexwertige HRTF nach der im Abschnitt 5.3.1 beschriebenen Datenanalyse bestimmt.
Amplitudendifferenzen: Die Berechnung der Amplitudendifferenzen ΔA/dB erfolgte in Ab- hängigkeit des Ohres durch Differenzbildung der zwei Messdurchgänge nach Gleichung 4.1.
Abbildung in dieser Leseprobe nicht enthalten
Die frequenz- und winkelabhängigen Unterschiede beider Messdurchgänge in den HRTF- Amplituden sind für vier Elevationswinkel und jeweils 36 Azimuthwinkel in Abb. 4.6 dar- gestellt. Auf Grund der sehr geringen Schalldruckpegeldifferenzen ist zur besseren Visualisie- rung die Frequenzachse in linearer Darstellung abgebildet und die z-Achse auf ±3dB skaliert. Die mittlere absolute Schalldruckpegeldifferenz für alle 432 gemessenen Positionen liegt im relevanten Frequenzbereich bis 18 kHz bei 0,3 dB (vgl. Tab. 4.1) und kann somit als sehr gut eingeschätzt werden. Die größten Abweichungen zwischen den zwei Messdurchgängen ist für beide Ohren bei kontralateraler Beschallung und mittleren bis hohen Frequenzen zu finden.
Ein Vergleich der Messgenauigkeit mit weiteren aus der Literatur bekannten Systemen und öffentlichen HRTF-Datenbanken ist nur partiell möglich, da entweder die Amplitudendifferenzen nur an einer bzw. wenigen Positionen abgebildet werden bzw. die Validierung der Messgenauigkeit komplett fehlt. Die wenigen zugänglichen Angaben zu HRTF-Differenzen in den Veröffentlichungen von z. B. Hammershoi und Moller (1996); Moller et al. (1995); Riederer (1998) zeigen betragsmäßig vergleichbare Abweichungen von bis zu 6 dB, wobei deren Maximum ebenfalls bei seitlicher Beschallung und zu hohen Frequenzen hin auftritt.
[...]
1 Abb. basierend auf http://www.naturheil-web.de/html/ohrakupunktur.html, mit eigenen Ergänzungen
- Arbeit zitieren
- Jacqueline Rausch (Autor:in), 2008, Neuvermessung von Head-Related-Transfer-Functions (HRTF), München, GRIN Verlag, https://www.grin.com/document/300061