Please wait
Please install the Adobe Flash Player if no e-book is displayed.
Other, 1999, 7 Pages
Author: Christian Spevak
Subject: Computer Science - Theory
Details
Year: 1999
Pages: 7
Language: German
ISBN (E-book): 978-3-640-03174-0
File size: 120 KB
Vortrag auf dem KlangArt Kongress Neue Musiktechnologie `99, Osnabrück, 10.-13. Juni 1999. Konferenzbeitrag, der im Rahmen meiner Dokorarbeit entstanden ist.
Other users also were interested in the following titles:
Fulltext (computer-generated)
Computerbasierte Erkennung von Klangereignissen
Christian Spevak
University of Hertfordshire
Juni 1999
Zusammenfassung
Dieser Beitrag skizziert das Konzept f¨
ur ein System zur compu-
terbasierten Erkennung von einander ¨
ahnlichen Klangereignissen. Es
soll als Plug-in f¨
ur den Acousmographe, ein Programm zur graphi-
schen Darstellung und Analyse von Kl¨
angen, realisiert werden. Ziel
ist, anhand eines ausgew¨
ahlten Klangereignisses die gesamte Audioda-
tei nach klanglich ¨
ahnlichen Ereignissen zu durchsuchen. Das Modell
gliedert sich in drei Stufen - eine Vorverarbeitung, ein selbstorgani-
sierendes neuronales Netzwerk und ein Hidden Markov Modell, deren
Funktion dieser Aufsatz im Einzelnen beschreibt. M¨
ogliche Anwen-
dungsgebiete des Systems bestehen sowohl im wissenschaftlichen wie
im p¨
adagogischen Bereich.
1
Einleitung
Der Ausgangspunkt f¨
ur mein Forschungsprojekt im Music Department der
University of Hertfordshire (Großbritannien) bestand in der Idee der ko-
operierenden franz¨
osischen Forschungsgruppe Ina-Grm (Institut National
Audiovisuel - Groupe de Recherches Musicales), f¨
ur ihre Software Acousmo-
graphe ein Plug-in zur automatischen Erkennung von Klangereignissen zu
entwickeln.
Der Acousmographe ist ein Werkzeug zur graphischen Darstellung von
Kl¨
angen, das zur Zeit im Wesentlichen folgende M¨
oglichkeiten bietet:
· Berechnung und Darstellung von Spektrogrammen mittels FFT,
· manuelles Hinzuf¨ugen von graphischen Symbolen zur Klangrepr¨asen-
tation,
· automatische Suche nach signifikanten ¨
Anderungen im Hinblick auf
Tonh¨
ohe, Intensit¨
at und spektrale Dichte.
Sinn und Zweck des Acousmographe ist es, eine anschauliche Darstellung
von Musik, die mit konventioneller Notation nicht hinreichend erfassbar ist,
1
zu erm¨
oglichen. Das betrifft vor allem elektronische Musik, ethnische Musik
und zum Teil auch Jazz. Das Ziel meines Projekts ist die Entwicklung eines
Verfahrens, das an Hand eines ausgew¨
ahlten Klangereignisses die gesamte
Audiodatei nach klanglich ¨
ahnlichen Ereignissen zu durchsuchen vermag.
Ein solches Verfahren w¨
are auch bei einer wahrnehmungsorientierten Orga-
nisation von Kl¨
angen in Datenbanken sehr n¨
utzlich.
Forschungsergebnisse auf diesem Gebiet sind bisher u. a. von Giovanni
De Poli und Piero Cosi (Universit¨
at Padua) [1], Bernhard Feiten (TU Berlin)
[2] sowie Petri Toiviainen (Universit¨
at Jyv¨
askyl¨
a) [3] publiziert worden.
Mein Konzept f¨
ur ein modulares System baut auf diesen Resultaten auf
und bezieht L¨
osungen aus dem Bereich der automatischen Spracherkennung
mit ein. Das System gliedert sich in drei Stufen, die vom Eingangssignal der
Reihe nach durchlaufen werden:
1. die Vorverarbeitung des digitalisierten Audiosignals zwecks Datenre-
duktion und Modellierung des menschlichen Geh¨
ors,
2. eine topologie-erhaltende Abbildung der Daten vermittels einer selbst-
organisierenden Karte (k¨
unstliches neuronales Netzwerk),
3. das Auffinden ¨
ahnlicher Datensequenzen mit Hilfe eines Hidden Mar-
kov Modells.
Die Realisierung dieses Konzepts wird mit dem Program Matlab erfolgen,
das eine einheitliche Umgebung f¨
ur numerische Berechnung und graphische
Darstellung sowie eine leichtverst¨
andliche Programmiersprache bietet. F¨
ur
die Bereiche Digitale Signalverarbeitung, Geh¨
ormodellierung (auditory mo-
delling) und neuronale Netzwerke sind sogar spezielle toolboxes" erh¨
altlich.
"
2
Vorverarbeitung
Die Vorverarbeitung stellt eine f¨
ur den gesamten Prozess entscheidende Stufe
dar, da sie bestimmt, welche Merkmale des Klangsignals an das nachfolgende
neuronale Netz ¨
ubermittelt und zur Klassifizierung verwendet werden. Die
Aufgabe der Vorverarbeitung besteht darin, den Datenstrom so zu reduzie-
ren, dass die f¨
ur unsere Klangwahrnehmung entscheidenden Parameter be-
wahrt und redundante Informationen m¨
oglichst weitgehend entfernt werden.
Dies geschieht in der Regel durch eine Umwandlung der eindimensionalen
Wellenform-Darstellung in eine zweidimensionale Zeit-Frequenz-Repr¨
asen-
tation unter Ber¨
ucksichtigung charakteristischer ¨
Ubertragungseigenschaften
des menschlichen Geh¨
ors. Dazu geh¨
oren vor allem das Konzept der kri-
tischen Bandbreite und die nichtlineare Reaktion der Cochlea. Malcolm
Slaney hat in seiner Auditory Toolbox [4] f¨
ur Matlab verschiedene
Geh¨
ormodelle implementiert, die sich als Vorverarbeitung eignen, darunter
das im Folgenden kurz beschriebene Modell von Richard F. Lyon [5].
2
Ein linearer Filter modelliert zun¨
achst den Frequenzgang des Außen-
und Mittelohrs, bevor eine Kaskade von sich ¨
uberlappenden Tiefpassfiltern
die Ausbreitung des Schallsignals als Wanderwelle in der Cochlea nach-
bildet. Jeder Tiefpassfilter entspricht dabei einem kleinen Abschnitt der
Cochlea. Dann folgt ein Halbwellen-Gleichrichter (half wave rectifier), der
die Erregung der Haarzellen simuliert, und schließlich eine automatische
Lautst¨
arkeregelung (automatic gain control) zur Kompression der Dyna-
mik. Das Ausgangssignal entspricht der Feuerh¨
aufigkeit der Nervenfasern
des jeweiligen Cochlea-Abschnitts und wird in einem Vektor zusammenge-
fasst.
Dieser repr¨
asentiert einen kurzen zeitlichen Ausschnitt aus einem
Klangereignis. Ein komplettes Klangereignis wird--wie in einem Film--
durch eine Sequenz von Einzelbildern (frames) dargestellt. Die graphische
Darstellung des zeitabh¨
angigen Cochlea-Ausgangssignals--einem Spektro-
gramm vergleichbar--wird als Cochleagramm bezeichnet.
Es bietet ge-
gen¨
uber dem durch FFTs gewonnenen Spektrogramm den Vorteil, dass es
bei gleicher Frequenzaufl¨
osung die zeitliche Struktur des Signals besser be-
wahrt.
3
Topologie-erhaltende Abbildung
Da sich musikalische Klangereignisse nicht generell in vorher definierte Klas-
sen einteilen lassen, wie es bei den Sprachlauten der Fall ist (Phoneme),
bietet sich zur Klassifizierung der vorverarbeiteten Signale in der zweiten
Stufe meines Systems ein selbstorganisierendes k¨
unstliches neuronales Netz-
werk an, dessen Funktion an die der biologischen neuronalen Netze in der
Großhirnrinde angelehnt ist. Ein solches Netzwerk stellt die von Teuvo Ko-
honen [6] entwickelte selbstorganisierende Karte (self-organizing map) dar.
Sie ist in der Lage, h¨
oherdimensionale Eingangssignale unter Ber¨
ucksichti-
gung vorhandener Ordnungsrelationen auf niederdimensionale Ausgangssig-
nale abzubilden. Diese topologie-erhaltende Abbildung erfolgt jeweils ent-
lang der Dimensionen mit der gr¨
oßten Varianz. Die Ausgangssignale lassen
sich durch Punkte auf einer gew¨
ohnlich zwei- oder dreidimensionalen topo-
logischen Karte beschreiben, deren Abst¨
ande von der vektoriellen Differenz
der Eingangssignale abh¨
angen. Die topologische Karte stellt also ein ¨
Ahn-
lichkeitsdiagramm dar. Die abzubildenden Eingangssignale sind in diesem
Fall die vorverarbeiteten Vektoren aus der ersten Stufe, daher bildet jedes
Klangereignis eine Sequenz von Punkten auf der topologischen Karte, die
sich graphisch als Bahnkurve darstellen l¨
asst, etwa wie in Abb. 1.
Wie alle neuronalen Netze ben¨
otigt auch die selbstorganisierende Kar-
te eine Lernphase, in der sich die Gewichtsvektoren der einzelnen Units in
geordneter Weise an die Verteilung der Eingabevektoren anpassen. Die Trai-
ningsdaten, die dem Netzwerk im Verlauf der Lernphase bis zu 100.000mal
pr¨
asentiert werden, sollten dabei ein m¨
oglichst breites Spektrum der sp¨
ater
3
Abbildung 1: Bahnkurve auf einer zweidimensionalen topologischen Karte
verwendeten Signale abdecken.
Eine sehr wichtige Eigenschaft der selbstorganisierenden Karte im Zu-
sammenhang mit der Klassifizierung von Klangereignissen ist ihre F¨
ahigkeit
zur Generalisierung, also zur Einordnung von bisher unbekannten Signa-
len auf der Grundlage der gelernten Topologie. Das Ziel ist es, diese Ein-
ordnung m¨
oglichst gut mit unserer Klangvorstellung in ¨
Ubereinstimmung
zu bringen. John Grey hat 1975 an der Stanford University Experimente
zur ¨
Ahnlichkeitsbeurteilung der Klangfarben verschiedener Musikinstrumen-
te durchgef¨
uhrt und die Ergebnisse u. a. durch multidimensionale Skalierung
(multidimensional scaling) in zwei, drei und vier Dimensionen ausgewertet
[7]. Dabei erwies sich die dreidimensionale Darstellung f¨
ur den Klangfar-
benraum am geeignetsten. Grey konnte den Dimensionen in diesem Fall
sogar konkrete physikalische Klangeigenschaften zuordnen (spektrale Ener-
gieverteilung, Anteil von hochfrequenter Energie mit geringer Amplitude
im Einschwingvorgang, spektrale Fluktuation/H¨
ullkurvensynchronit¨
at der
Obert¨
one). Daher scheint eine dreidimensionale topologische Karte f¨
ur die
Klassifizierung von Kl¨
angen besser geeignet zu sein als eine zweidimensio-
nale.
De Poli und Tonella gelang es 1993, Greys Ergebnisse mit einem
neuronalen Netz von 8 × 8 × 8 = 512 Units weitgehend zu reproduzieren [8].
4
Hidden Markov Modell
Aufgabe der dritten Stufe meines Klangerkennungssystems ist es, zu ei-
ner ausgew¨
ahlten Sequenz von Punkten auf der topologischen Karte (einem
Klangereignis) ¨
ahnliche Sequenzen innerhalb der gesamten Abfolge (Audio-
datei) zu finden. Dies l¨
asst sich mit einem sogenannten Hidden Markov
Modell realisieren, einem stochastischen Modell, das im Bereich der au-
4
¢¦
©
!©""
¢¡
CD
E©F
GIH
P©Q
′¢(0)
1243
5©687
9@BA
£¢¤¦¥
§©¨
#$&%
Abbildung 2: Links-Rechts-Modell einer Markov-Kette mit Zust¨
anden q1 bis
q5 und ¨
Ubergangswahrscheinlichkeiten aij
tomatischen Spracherkennung h¨
aufig zur Klassifizierung von Phonem- und
Wortfolgen eingesetzt wird. Grundlage f¨
ur das Hidden Markov Modell ist
die Markov-Kette, ein stochastischer Automat, der ausgehend vom aktuel-
len Zustand mit einer gewissen Wahrscheinlichkeit in einen anderen Zustand
¨
ubergeht (vgl. Abb. 2). Dabei h¨
angt die ¨
Ubergangswahrscheinlichkeit im-
mer nur vom aktuellen Zustand und nicht von vorhergehenden Zust¨
anden
ab (Markov-Bedingung).
Beim Hidden Markov Modell kommt noch eine weitere Ebene--die Beob-
achtungssequenz--hinzu, die mit der darunterliegenden, f¨
ur den Beobachter
verborgenen Markov-Kette wiederum ¨
uber eine Wahrscheinlichkeitsfunktion
(Ausgabewahrscheinlichkeit) verkn¨
upft ist. Es handelt sich daher um einen
doppelt stochastischen Prozess [9].
Ein HMM wird im Wesentlichen durch drei Gr¨
oßen charakterisiert: die
Wahrscheinlichkeitsverteilung f¨
ur den Anfangszustand, die Wahrscheinlich-
keitsverteilung f¨
ur die ¨
Uberg¨
ange zwischen den einzelnen Zust¨
anden und die
Wahrscheinlichkeitsverteilung f¨
ur die Elemente der Beobachtungssequenz.
In meinem System entspricht die Beobachtungssequenz einer Abfolge von
Punkten auf der topologischen Karte. Um ¨
ahnliche Sequenzen mit einem
HMM erkennen zu k¨
onnen, muss man zun¨
achst durch Variation der Para-
meter ein Modell herstellen, das optimal zu der gegebenen Beobachtungs-
sequenz passt. Dies geschieht--¨
ahnlich wie bei neuronalen Netzen--durch
eine Trainingsphase anhand der Beobachtungssequenz. Ein geeignetes itera-
tives Optimierungsverfahren ist die Baum-Welch-Methode. Im Unterschied
zu Spracherkennungssystemen, die mit festen Kategorien arbeiten, muss hier
f¨
ur jedes gew¨
unschte Klangereignis ein neues HMM durch iterative Optimie-
rung erstellt werden.
5
5
Geplanter Ablauf des Forschungsprojekts
Bei der Umsetzung des Konzepts werde ich mit der Implementierung der ers-
ten beiden Stufen beginnen, um verschiedene Kombinationen von Geh¨
ormo-
dellen und topologischen Karten mit Hilfe von ausgew¨
ahlten Kl¨
angen zu
erproben. Ausgehend von den in der Literatur beschriebenen Experimen-
ten wird die Klangauswahl zun¨
achst auf geringe Varianz beschr¨
ankt sein
und dann langsam ausgeweitet werden, um Parameter wie Tonh¨
ohe und
Tondauer mit in die ¨
Ahnlichkeitsbewertung einzubeziehen. Eine Beurtei-
lung der Ergebnisse kann durch Vergleiche mit ¨
Ahnlichkeitsabsch¨
atzungen
aus einer entsprechend gestalteten Versuchsreihe, etwa mit Musikstudenten,
erfolgen.
Literatur
[1] Piero Cosi, Giovanni De Poli, and Giampaolo Lauzzana. Auditory model-
ling and self-organizing neural networks for timbre classification. Journal
of New Music Research, 23(1):7198, 1994.
[2] Bernhard Feiten and Stefan G¨
unzel. Automatic indexing of a sound
database using self-organizing neural nets. Computer Music Journal,
18(3):5365, 1994.
[3] Petri Toiviainen, Mauri Kaipainen, and Jukka Louhivuori. Musical tim-
bre: Similarity ratings correlate with computational feature space di-
stances. Journal of New Music Research, 24(3):282298, 1995.
[4] Malcolm Slaney and Richard F. Lyon. On the importance of time: A
temporal representation of sound. In Martin Cooke, Steve Beet, and
Malcolm Crawford, editors, Visual Representations of Speech Signals,
pages 95116. John Wiley & Sons, Chichester, UK, 1993.
[5] Malcolm Slaney. Auditory Toolbox: Version 2. Technical Report 1998-
010, Interval Research Corporation, 1998.
[6] Teuvo Kohonen. Self-Organisation and Associative Memory. Springer,
Berlin, third edition, 1989.
[7] John M. Grey. Multidimensional perceptual scaling of musical timbres.
Journal of the Acoustical Society of America, 61(5):12701277, 1977.
[8] Giovanni De Poli and Paolo Tonella.
Self-organizing neural network
and Grey′s timbre space. In Proc. of the International Computer Music
Conference ICMC ′93, pages 260263, Tokyo, 1993.
[9] L. R. Rabiner and B. H. Juang. An introduction to Hidden Markov
Models. IEEE ASSP Magazine, 3(1):416, 1986.
6
Comments
No comments yet
Other users also were interested in the following titles:
Formatvorlage / Vorlage für eine Diplomarbeit - Formatvorlage / Vorlage für eine Hausarbeit für Microsoft Word
Author: GRIN VerlagPresentations, Models, Tutorials, Instructions, 2005 Download as PDF-file for 6,99 EUR
Formatvorlage / Vorlage für eine Diplomarbeit - Formatvorlage / Vorlage für eine Hausarbeit für OpenOffice.org
Author: GRIN VerlagPresentations, Models, Tutorials, Instructions, 2005 Download as PDF-file for 9,99 EUR
Formatvorlage zur Erstellung einer Diplomarbeit / Vorlage zur Erstellung einer Hausarbeit
Author: Marco FeindlerPresentations, Models, Tutorials, Instructions, 2005 Download as PDF-file for 6,99 EUR
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Author: GRIN VerlagPresentations, Models, Tutorials, Instructions, 2008 Download as PDF-file for 6,99 EUR
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wissenschaftlichen Arbeit
Author: Zoran ZivkovicPresentations, Models, Tutorials, Instructions, 2004 Download as PDF-file for 5,99 EUR
Erstellen einer schriftlichen Hausarbeit
Author: Claudia NickelPresentations, Models, Tutorials, Instructions, 2006 Download as PDF-file for 4,99 EUR
Grundtechniken wissenschaftlichen Arbeitens
Author: Maik PhilippPresentations, Models, Tutorials, Instructions, 2004 Download as PDF-file for 5,99 EUR
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - Hausarbeiten - Seminararbeiten
Author: Mark RichterPresentations, Models, Tutorials, Instructions, 2008
This text can be quoted and accessed from this url: