zu erm¨ oglichen. Das betrifft vor allem elektronische Musik, ethnische Musik und zum Teil auch Jazz. Das Ziel meines Projekts ist die Entwicklung eines Verfahrens, das an Hand eines ausgew¨ ahlten Klangereignisses die gesamte Audiodatei nach klanglich ¨ ahnlichen Ereignissen zu durchsuchen vermag. Ein solches Verfahren w¨ are auch bei einer wahrnehmungsorientierten Organisation von Kl¨ angen in Datenbanken sehr n¨ utzlich. Forschungsergebnisse auf diesem Gebiet sind bisher u. a. von Giovanni De Poli und Piero Cosi (Universit¨ at Padua) [1], Bernhard Feiten (TU Berlin) [2] sowie Petri Toiviainen (Universit¨ at Jyv¨ askyl¨ a) [3] publiziert worden. Mein Konzept f¨ ur ein modulares System baut auf diesen Resultaten auf und bezieht L¨ osungen aus dem Bereich der automatischen Spracherkennung mit ein. Das System gliedert sich in drei Stufen, die vom Eingangssignal der Reihe nach durchlaufen werden:
1. die Vorverarbeitung des digitalisierten Audiosignals zwecks Datenreduktion und Modellierung des menschlichen Geh¨ ors,
2. eine topologie-erhaltende Abbildung der Daten vermittels einer selbst-organisierenden Karte (k¨ unstliches neuronales Netzwerk),
3. das Auffinden ¨ ahnlicher Datensequenzen mit Hilfe eines Hidden Markov Modells.
Die Realisierung dieses Konzepts wird mit dem Program Matlab erfolgen, das eine einheitliche Umgebung f¨ ur numerische Berechnung und graphische Darstellung sowie eine leichtverst¨ andliche Programmiersprache bietet. F¨ ur die Bereiche Digitale Signalverarbeitung, Geh¨ ormodellierung (auditory modelling) und neuronale Netzwerke sind sogar spezielle ” toolboxes” erh¨ altlich.
2 Vorverarbeitung
Die Vorverarbeitung stellt eine f¨ ur den gesamten Prozess entscheidende Stufe dar, da sie bestimmt, welche Merkmale des Klangsignals an das nachfolgende neuronale Netz ¨ ubermittelt und zur Klassifizierung verwendet werden. Die Aufgabe der Vorverarbeitung besteht darin, den Datenstrom so zu reduzieren, dass die f¨ ur unsere Klangwahrnehmung entscheidenden Parameter bewahrt und redundante Informationen m¨ oglichst weitgehend entfernt werden. Dies geschieht in der Regel durch eine Umwandlung der eindimensionalen Wellenform-Darstellung in eine zweidimensionale Zeit-Frequenz-Repr¨ asentation unter Ber¨ ucksichtigung charakteristischer ¨ Ubertragungseigenschaften
des menschlichen Geh¨ ors. Dazu geh¨ oren vor allem das Konzept der kritischen Bandbreite und die nichtlineare Reaktion der Cochlea. Malcolm Slaney hat in seiner Auditory Toolbox [4] f¨ ur Matlab verschiedene Geh¨ ormodelle implementiert, die sich als Vorverarbeitung eignen, darunter das im Folgenden kurz beschriebene Modell von Richard F. Lyon [5].
2
Ein linearer Filter modelliert zun¨ achst den Frequenzgang des Außen-und Mittelohrs, bevor eine Kaskade von sich ¨ uberlappenden Tiefpassfiltern
die Ausbreitung des Schallsignals als Wanderwelle in der Cochlea nachbildet. Jeder Tiefpassfilter entspricht dabei einem kleinen Abschnitt der Cochlea. Dann folgt ein Halbwellen-Gleichrichter (half wave rectifier), der die Erregung der Haarzellen simuliert, und schließlich eine automatische Lautst¨ arkeregelung (automatic gain control) zur Kompression der Dynamik. Das Ausgangssignal entspricht der Feuerh¨ aufigkeit der Nervenfasern des jeweiligen Cochlea-Abschnitts und wird in einem Vektor zusammengefasst. Dieser repr¨ asentiert einen kurzen zeitlichen Ausschnitt aus einem Klangereignis. Ein komplettes Klangereignis wird—wie in einem Film— durch eine Sequenz von Einzelbildern (frames) dargestellt. Die graphische Darstellung des zeitabh¨ angigen Cochlea-Ausgangssignals—einem Spektrogramm vergleichbar—wird als Cochleagramm bezeichnet. Es bietet gegen¨ uber dem durch FFTs gewonnenen Spektrogramm den Vorteil, dass es bei gleicher Frequenzaufl¨ osung die zeitliche Struktur des Signals besser bewahrt.
3 Topologie-erhaltende Abbildung
Da sich musikalische Klangereignisse nicht generell in vorher definierte Klassen einteilen lassen, wie es bei den Sprachlauten der Fall ist (Phoneme), bietet sich zur Klassifizierung der vorverarbeiteten Signale in der zweiten Stufe meines Systems ein selbstorganisierendes k¨ unstliches neuronales Netzwerk an, dessen Funktion an die der biologischen neuronalen Netze in der Großhirnrinde angelehnt ist. Ein solches Netzwerk stellt die von Teuvo Kohonen [6] entwickelte selbstorganisierende Karte (self-organizing map) dar. Sie ist in der Lage, h¨ oherdimensionale Eingangssignale unter Ber¨ ucksichtigung vorhandener Ordnungsrelationen auf niederdimensionale Ausgangssignale abzubilden. Diese topologie-erhaltende Abbildung erfolgt jeweils entlang der Dimensionen mit der gr¨ oßten Varianz. Die Ausgangssignale lassen sich durch Punkte auf einer gew¨ ohnlich zwei- oder dreidimensionalen topologischen Karte beschreiben, deren Abst¨ ande von der vektoriellen Differenz der Eingangssignale abh¨ angen. Die topologische Karte stellt also ein ¨ Ahnlichkeitsdiagramm dar. Die abzubildenden Eingangssignale sind in diesem Fall die vorverarbeiteten Vektoren aus der ersten Stufe, daher bildet jedes Klangereignis eine Sequenz von Punkten auf der topologischen Karte, die sich graphisch als Bahnkurve darstellen l¨ asst, etwa wie in Abb. 1. Wie alle neuronalen Netze ben¨ otigt auch die selbstorganisierende Karte eine Lernphase, in der sich die Gewichtsvektoren der einzelnen Units in geordneter Weise an die Verteilung der Eingabevektoren anpassen. Die Trainingsdaten, die dem Netzwerk im Verlauf der Lernphase bis zu 100.000mal pr¨ asentiert werden, sollten dabei ein m¨ oglichst breites Spektrum der sp¨ ater
3
Abbildung 1: Bahnkurve auf einer zweidimensionalen topologischen Karte
verwendeten Signale abdecken.
Eine sehr wichtige Eigenschaft der selbstorganisierenden Karte im Zusammenhang mit der Klassifizierung von Klangereignissen ist ihre F¨ ahigkeit zur Generalisierung, also zur Einordnung von bisher unbekannten Signalen auf der Grundlage der gelernten Topologie. Das Ziel ist es, diese Ein-ordnung m¨ oglichst gut mit unserer Klangvorstellung in ¨ Ubereinstimmung
zu bringen. John Grey hat 1975 an der Stanford University Experimente zur ¨ Ahnlichkeitsbeurteilung der Klangfarben verschiedener Musikinstrumente durchgef¨ uhrt und die Ergebnisse u. a. durch multidimensionale Skalierung (multidimensional scaling) in zwei, drei und vier Dimensionen ausgewertet [7]. Dabei erwies sich die dreidimensionale Darstellung f¨ ur den Klangfarbenraum am geeignetsten. Grey konnte den Dimensionen in diesem Fall sogar konkrete physikalische Klangeigenschaften zuordnen (spektrale Energieverteilung, Anteil von hochfrequenter Energie mit geringer Amplitude im Einschwingvorgang, spektrale Fluktuation/H¨ ullkurvensynchronit¨ at der Obert¨ one). Daher scheint eine dreidimensionale topologische Karte f¨ ur die Klassifizierung von Kl¨ angen besser geeignet zu sein als eine zweidimensionale. De Poli und Tonella gelang es 1993, Greys Ergebnisse mit einem neuronalen Netz von 8 × 8 × 8 = 512 Units weitgehend zu reproduzieren [8].
4 Hidden Markov Modell
Aufgabe der dritten Stufe meines Klangerkennungssystems ist es, zu einer ausgew¨ ahlten Sequenz von Punkten auf der topologischen Karte (einem Klangereignis) ¨ ahnliche Sequenzen innerhalb der gesamten Abfolge (Audiodatei) zu finden. Dies l¨ asst sich mit einem sogenannten Hidden Markov Modell realisieren, einem stochastischen Modell, das im Bereich der au-
4
© F G I H
P © Q Abbildung 2: Links-Rechts-Modell einer Markov-Kette mit Zust¨ anden q 1 bis q 5 und ¨ tomatischen Spracherkennung h¨ aufig zur Klassifizierung von Phonem- und Wortfolgen eingesetzt wird. Grundlage f¨ ur das Hidden Markov Modell ist Ubergangswahrscheinlichkeiten a ij
die Markov-Kette, ein stochastischer Automat, der ausgehend vom aktuellen Zustand mit einer gewissen Wahrscheinlichkeit in einen anderen Zustand
¨ ubergeht (vgl. Abb. 2). Dabei h¨ angt die ¨ Ubergangswahrscheinlichkeit immer nur vom aktuellen Zustand und nicht von vorhergehenden Zust¨ anden
ab (Markov-Bedingung). Beim Hidden Markov Modell kommt noch eine weitere Ebene—die Beob-
achtungssequenz—hinzu, die mit der darunterliegenden, f¨ ur den Beobachter verborgenen Markov-Kette wiederum ¨ uber eine Wahrscheinlichkeitsfunktion (Ausgabewahrscheinlichkeit) verkn¨ upft ist. Es handelt sich daher um einen doppelt stochastischen Prozess [9]. Ein HMM wird im Wesentlichen durch drei Gr¨ oßen charakterisiert: die Wahrscheinlichkeitsverteilung f¨ ur den Anfangszustand, die Wahrscheinlichkeitsverteilung f¨ ur die ¨ Uberg¨ ange zwischen den einzelnen Zust¨ anden und die Wahrscheinlichkeitsverteilung f¨ ur die Elemente der Beobachtungssequenz. In meinem System entspricht die Beobachtungssequenz einer Abfolge von Punkten auf der topologischen Karte. Um ¨ ahnliche Sequenzen mit einem HMM erkennen zu k¨ onnen, muss man zun¨ achst durch Variation der Parameter ein Modell herstellen, das optimal zu der gegebenen Beobachtungssequenz passt. Dies geschieht—¨ ahnlich wie bei neuronalen Netzen—durch
eine Trainingsphase anhand der Beobachtungssequenz. Ein geeignetes itera-
5 Geplanter Ablauf des Forschungsprojekts
Bei der Umsetzung des Konzepts werde ich mit der Implementierung der ersten beiden Stufen beginnen, um verschiedene Kombinationen von Geh¨ ormodellen und topologischen Karten mit Hilfe von ausgew¨ ahlten Kl¨ angen zu erproben. Ausgehend von den in der Literatur beschriebenen Experimenten wird die Klangauswahl zun¨ achst auf geringe Varianz beschr¨ ankt sein und dann langsam ausgeweitet werden, um Parameter wie Tonh¨ ohe und Tondauer mit in die ¨ Ahnlichkeitsbewertung einzubeziehen. Eine Beurtei-
lung der Ergebnisse kann durch Vergleiche mit ¨
aus einer entsprechend gestalteten Versuchsreihe, etwa mit Musikstudenten, erfolgen.
Literatur
[1] Piero Cosi, Giovanni De Poli, and Giampaolo Lauzzana. Auditory modelling and self-organizing neural networks for timbre classification. Journal of New Music Research, 23(1):71-98, 1994.
[2] Bernhard Feiten and Stefan G¨ unzel. Automatic indexing of a sound database using self-organizing neural nets. Computer Music Journal, 18(3):53-65, 1994.
[3] Petri Toiviainen, Mauri Kaipainen, and Jukka Louhivuori. Musical timbre: Similarity ratings correlate with computational feature space distances. Journal of New Music Research, 24(3):282-298, 1995.
[4] Malcolm Slaney and Richard F. Lyon. On the importance of time: A temporal representation of sound. In Martin Cooke, Steve Beet, and Malcolm Crawford, editors, Visual Representations of Speech Signals, pages 95-116. John Wiley & Sons, Chichester, UK, 1993.
[5] Malcolm Slaney. Auditory Toolbox: Version 2. Technical Report 1998-010, Interval Research Corporation, 1998.
[6] Teuvo Kohonen. Self-Organisation and Associative Memory. Springer, Berlin, third edition, 1989.
[7] John M. Grey. Multidimensional perceptual scaling of musical timbres. Journal of the Acoustical Society of America, 61(5):1270-1277, 1977.
[8] Giovanni De Poli and Paolo Tonella. Self-organizing neural network and Grey’s timbre space. In Proc. of the International Computer Music Conference ICMC ’93, pages 260-263, Tokyo, 1993.
[9] L. R. Rabiner and B. H. Juang. An introduction to Hidden Markov Models. IEEE ASSP Magazine, 3(1):4-16, 1986.
6
Quote paper:
Christian Spevak, 1999, Computerbasierte Erkennung von Klangereignissen, Munich, GRIN Publishing GmbH
This text can be quoted and accessed from this url:
Embed
DOI
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Presentations, Models, Tutorials, Instructions
Elaboration, 25 Pages
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Presentations, Models, Tutorials, Instructions
Elaboration, 35 Pages
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Presentations, Models, Tutorials, Instructions
Elaboration, 15 Pages
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Presentations, Models, Tutorials, Instructions
Elaboration, 25 Pages
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Presentations, Models, Tutorials, Instructions
Elaboration, 20 Pages
Erstellen einer schriftlichen Hausarbeit
Presentations, Models, Tutorials, Instructions
Termpaper, 14 Pages
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Presentations, Models, Tutorials, Instructions
Script, 46 Pages
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Presentations, Models, Tutorials, Instructions
Elaboration, 39 Pages
Christian Spevak has published the text Computerbasierte Erkennung von Klangereignissen
Christian Spevak has uploaded a new text
Erkennen emotionalen Ausdrucksverhaltens bei Jugendlichen in der Adole...
Zur Funktion der Amygdala bei ...
Uwe Kissels
Sinn und Wesen des erfahrenden Erkennens
Schriften 1955 - 1975 zu Grund...
Hans Kunz, Jörg Singer
Das Fälschungsbuch - Katalog zur Erkennung von Fälschungen rund ums Üb...
Plagiate auf den ersten Blick ...
Michael Graf
Ganzheitsphilosophie 9. Das psychologische Erkennen im Lichte ganzheit...
Ausgewählte Nachlassausgabe
Sexueller Missbrauch an Kindern - Erkennung und Krisenintervention
Ein Leitfaden für Pädagogen de...
Diana Schmidt
0 comments