Register or log in at GRIN

Your e-mail-address or password is wrong
Register now
For new authors: free, easy and fast
This will be used as your user name, please specify a valid e-mail address

Lost password

Your e-mail-address or password is wrong

Request a new password
Computerbasierte Erkennung von Klangereignissen close

Please wait

Please install the Adobe Flash Player if no e-book is displayed.

Computerbasierte Erkennung von Klangereignissen

Other, 1999, 7 Pages
Author: Christian Spevak
Subject: Computer Science - Theory

Details

Category: Other
Year: 1999
Pages: 7
Language: German
Archive No.: V104870
ISBN (E-book): 978-3-640-03174-0

File size: 120 KB
Notes :
Vortrag auf dem KlangArt Kongress Neue Musiktechnologie `99, Osnabrück, 10.-13. Juni 1999. Konferenzbeitrag, der im Rahmen meiner Dokorarbeit entstanden ist.



Fulltext (computer-generated)

Computerbasierte Erkennung von Klangereignissen

Christian Spevak

University of Hertfordshire

Juni 1999

Zusammenfassung

Dieser Beitrag skizziert das Konzept f¨

ur ein System zur compu-

terbasierten Erkennung von einander ¨

ahnlichen Klangereignissen. Es

soll als Plug-in f¨

ur den Acousmographe, ein Programm zur graphi-

schen Darstellung und Analyse von Kl¨

angen, realisiert werden. Ziel

ist, anhand eines ausgew¨

ahlten Klangereignisses die gesamte Audioda-

tei nach klanglich ¨

ahnlichen Ereignissen zu durchsuchen. Das Modell

gliedert sich in drei Stufen - eine Vorverarbeitung, ein selbstorgani-

sierendes neuronales Netzwerk und ein Hidden Markov Modell, deren

Funktion dieser Aufsatz im Einzelnen beschreibt. M¨

ogliche Anwen-

dungsgebiete des Systems bestehen sowohl im wissenschaftlichen wie

im p¨

adagogischen Bereich.

1

Einleitung

Der Ausgangspunkt f¨

ur mein Forschungsprojekt im Music Department der

University of Hertfordshire (Großbritannien) bestand in der Idee der ko-

operierenden franz¨

osischen Forschungsgruppe Ina-Grm (Institut National

Audiovisuel - Groupe de Recherches Musicales), f¨

ur ihre Software Acousmo-

graphe ein Plug-in zur automatischen Erkennung von Klangereignissen zu

entwickeln.

Der Acousmographe ist ein Werkzeug zur graphischen Darstellung von

Kl¨

angen, das zur Zeit im Wesentlichen folgende M¨

oglichkeiten bietet:

· Berechnung und Darstellung von Spektrogrammen mittels FFT,

· manuelles Hinzuf¨ugen von graphischen Symbolen zur Klangrepr¨asen-

tation,

· automatische Suche nach signifikanten ¨

Anderungen im Hinblick auf

Tonh¨

ohe, Intensit¨

at und spektrale Dichte.

Sinn und Zweck des Acousmographe ist es, eine anschauliche Darstellung

von Musik, die mit konventioneller Notation nicht hinreichend erfassbar ist,

1


zu erm¨

oglichen. Das betrifft vor allem elektronische Musik, ethnische Musik

und zum Teil auch Jazz. Das Ziel meines Projekts ist die Entwicklung eines

Verfahrens, das an Hand eines ausgew¨

ahlten Klangereignisses die gesamte

Audiodatei nach klanglich ¨

ahnlichen Ereignissen zu durchsuchen vermag.

Ein solches Verfahren w¨

are auch bei einer wahrnehmungsorientierten Orga-

nisation von Kl¨

angen in Datenbanken sehr n¨

utzlich.

Forschungsergebnisse auf diesem Gebiet sind bisher u. a. von Giovanni

De Poli und Piero Cosi (Universit¨

at Padua) [1], Bernhard Feiten (TU Berlin)

[2] sowie Petri Toiviainen (Universit¨

at Jyv¨

askyl¨

a) [3] publiziert worden.

Mein Konzept f¨

ur ein modulares System baut auf diesen Resultaten auf

und bezieht L¨

osungen aus dem Bereich der automatischen Spracherkennung

mit ein. Das System gliedert sich in drei Stufen, die vom Eingangssignal der

Reihe nach durchlaufen werden:

1. die Vorverarbeitung des digitalisierten Audiosignals zwecks Datenre-

duktion und Modellierung des menschlichen Geh¨

ors,

2. eine topologie-erhaltende Abbildung der Daten vermittels einer selbst-

organisierenden Karte (k¨

unstliches neuronales Netzwerk),

3. das Auffinden ¨

ahnlicher Datensequenzen mit Hilfe eines Hidden Mar-

kov Modells.

Die Realisierung dieses Konzepts wird mit dem Program Matlab erfolgen,

das eine einheitliche Umgebung f¨

ur numerische Berechnung und graphische

Darstellung sowie eine leichtverst¨

andliche Programmiersprache bietet. F¨

ur

die Bereiche Digitale Signalverarbeitung, Geh¨

ormodellierung (auditory mo-

delling) und neuronale Netzwerke sind sogar spezielle toolboxes" erh¨

altlich.

"

2

Vorverarbeitung

Die Vorverarbeitung stellt eine f¨

ur den gesamten Prozess entscheidende Stufe

dar, da sie bestimmt, welche Merkmale des Klangsignals an das nachfolgende

neuronale Netz ¨

ubermittelt und zur Klassifizierung verwendet werden. Die

Aufgabe der Vorverarbeitung besteht darin, den Datenstrom so zu reduzie-

ren, dass die f¨

ur unsere Klangwahrnehmung entscheidenden Parameter be-

wahrt und redundante Informationen m¨

oglichst weitgehend entfernt werden.

Dies geschieht in der Regel durch eine Umwandlung der eindimensionalen

Wellenform-Darstellung in eine zweidimensionale Zeit-Frequenz-Repr¨

asen-

tation unter Ber¨

ucksichtigung charakteristischer ¨

Ubertragungseigenschaften

des menschlichen Geh¨

ors. Dazu geh¨

oren vor allem das Konzept der kri-

tischen Bandbreite und die nichtlineare Reaktion der Cochlea. Malcolm

Slaney hat in seiner Auditory Toolbox [4] f¨

ur Matlab verschiedene

Geh¨

ormodelle implementiert, die sich als Vorverarbeitung eignen, darunter

das im Folgenden kurz beschriebene Modell von Richard F. Lyon [5].

2


Ein linearer Filter modelliert zun¨

achst den Frequenzgang des Außen-

und Mittelohrs, bevor eine Kaskade von sich ¨

uberlappenden Tiefpassfiltern

die Ausbreitung des Schallsignals als Wanderwelle in der Cochlea nach-

bildet. Jeder Tiefpassfilter entspricht dabei einem kleinen Abschnitt der

Cochlea. Dann folgt ein Halbwellen-Gleichrichter (half wave rectifier), der

die Erregung der Haarzellen simuliert, und schließlich eine automatische

Lautst¨

arkeregelung (automatic gain control) zur Kompression der Dyna-

mik. Das Ausgangssignal entspricht der Feuerh¨

aufigkeit der Nervenfasern

des jeweiligen Cochlea-Abschnitts und wird in einem Vektor zusammenge-

fasst.

Dieser repr¨

asentiert einen kurzen zeitlichen Ausschnitt aus einem

Klangereignis. Ein komplettes Klangereignis wird--wie in einem Film--

durch eine Sequenz von Einzelbildern (frames) dargestellt. Die graphische

Darstellung des zeitabh¨

angigen Cochlea-Ausgangssignals--einem Spektro-

gramm vergleichbar--wird als Cochleagramm bezeichnet.

Es bietet ge-

gen¨

uber dem durch FFTs gewonnenen Spektrogramm den Vorteil, dass es

bei gleicher Frequenzaufl¨

osung die zeitliche Struktur des Signals besser be-

wahrt.

3

Topologie-erhaltende Abbildung

Da sich musikalische Klangereignisse nicht generell in vorher definierte Klas-

sen einteilen lassen, wie es bei den Sprachlauten der Fall ist (Phoneme),

bietet sich zur Klassifizierung der vorverarbeiteten Signale in der zweiten

Stufe meines Systems ein selbstorganisierendes k¨

unstliches neuronales Netz-

werk an, dessen Funktion an die der biologischen neuronalen Netze in der

Großhirnrinde angelehnt ist. Ein solches Netzwerk stellt die von Teuvo Ko-

honen [6] entwickelte selbstorganisierende Karte (self-organizing map) dar.

Sie ist in der Lage, h¨

oherdimensionale Eingangssignale unter Ber¨

ucksichti-

gung vorhandener Ordnungsrelationen auf niederdimensionale Ausgangssig-

nale abzubilden. Diese topologie-erhaltende Abbildung erfolgt jeweils ent-

lang der Dimensionen mit der gr¨

oßten Varianz. Die Ausgangssignale lassen

sich durch Punkte auf einer gew¨

ohnlich zwei- oder dreidimensionalen topo-

logischen Karte beschreiben, deren Abst¨

ande von der vektoriellen Differenz

der Eingangssignale abh¨

angen. Die topologische Karte stellt also ein ¨

Ahn-

lichkeitsdiagramm dar. Die abzubildenden Eingangssignale sind in diesem

Fall die vorverarbeiteten Vektoren aus der ersten Stufe, daher bildet jedes

Klangereignis eine Sequenz von Punkten auf der topologischen Karte, die

sich graphisch als Bahnkurve darstellen l¨

asst, etwa wie in Abb. 1.

Wie alle neuronalen Netze ben¨

otigt auch die selbstorganisierende Kar-

te eine Lernphase, in der sich die Gewichtsvektoren der einzelnen Units in

geordneter Weise an die Verteilung der Eingabevektoren anpassen. Die Trai-

ningsdaten, die dem Netzwerk im Verlauf der Lernphase bis zu 100.000mal

pr¨

asentiert werden, sollten dabei ein m¨

oglichst breites Spektrum der sp¨

ater

3


Abbildung 1: Bahnkurve auf einer zweidimensionalen topologischen Karte

verwendeten Signale abdecken.

Eine sehr wichtige Eigenschaft der selbstorganisierenden Karte im Zu-

sammenhang mit der Klassifizierung von Klangereignissen ist ihre F¨

ahigkeit

zur Generalisierung, also zur Einordnung von bisher unbekannten Signa-

len auf der Grundlage der gelernten Topologie. Das Ziel ist es, diese Ein-

ordnung m¨

oglichst gut mit unserer Klangvorstellung in ¨

Ubereinstimmung

zu bringen. John Grey hat 1975 an der Stanford University Experimente

zur ¨

Ahnlichkeitsbeurteilung der Klangfarben verschiedener Musikinstrumen-

te durchgef¨

uhrt und die Ergebnisse u. a. durch multidimensionale Skalierung

(multidimensional scaling) in zwei, drei und vier Dimensionen ausgewertet

[7]. Dabei erwies sich die dreidimensionale Darstellung f¨

ur den Klangfar-

benraum am geeignetsten. Grey konnte den Dimensionen in diesem Fall

sogar konkrete physikalische Klangeigenschaften zuordnen (spektrale Ener-

gieverteilung, Anteil von hochfrequenter Energie mit geringer Amplitude

im Einschwingvorgang, spektrale Fluktuation/H¨

ullkurvensynchronit¨

at der

Obert¨

one). Daher scheint eine dreidimensionale topologische Karte f¨

ur die

Klassifizierung von Kl¨

angen besser geeignet zu sein als eine zweidimensio-

nale.

De Poli und Tonella gelang es 1993, Greys Ergebnisse mit einem

neuronalen Netz von 8 × 8 × 8 = 512 Units weitgehend zu reproduzieren [8].

4

Hidden Markov Modell

Aufgabe der dritten Stufe meines Klangerkennungssystems ist es, zu ei-

ner ausgew¨

ahlten Sequenz von Punkten auf der topologischen Karte (einem

Klangereignis) ¨

ahnliche Sequenzen innerhalb der gesamten Abfolge (Audio-

datei) zu finden. Dies l¨

asst sich mit einem sogenannten Hidden Markov

Modell realisieren, einem stochastischen Modell, das im Bereich der au-

4


¢¦

©

!©""

¢¡

CD

E©F

GIH

P©Q

′¢(0)

1243

5©687

9@BA

£¢¤¦¥

§©¨

#$&%

Abbildung 2: Links-Rechts-Modell einer Markov-Kette mit Zust¨

anden q1 bis

q5 und ¨

Ubergangswahrscheinlichkeiten aij

tomatischen Spracherkennung h¨

aufig zur Klassifizierung von Phonem- und

Wortfolgen eingesetzt wird. Grundlage f¨

ur das Hidden Markov Modell ist

die Markov-Kette, ein stochastischer Automat, der ausgehend vom aktuel-

len Zustand mit einer gewissen Wahrscheinlichkeit in einen anderen Zustand

¨

ubergeht (vgl. Abb. 2). Dabei h¨

angt die ¨

Ubergangswahrscheinlichkeit im-

mer nur vom aktuellen Zustand und nicht von vorhergehenden Zust¨

anden

ab (Markov-Bedingung).

Beim Hidden Markov Modell kommt noch eine weitere Ebene--die Beob-

achtungssequenz--hinzu, die mit der darunterliegenden, f¨

ur den Beobachter

verborgenen Markov-Kette wiederum ¨

uber eine Wahrscheinlichkeitsfunktion

(Ausgabewahrscheinlichkeit) verkn¨

upft ist. Es handelt sich daher um einen

doppelt stochastischen Prozess [9].

Ein HMM wird im Wesentlichen durch drei Gr¨

oßen charakterisiert: die

Wahrscheinlichkeitsverteilung f¨

ur den Anfangszustand, die Wahrscheinlich-

keitsverteilung f¨

ur die ¨

Uberg¨

ange zwischen den einzelnen Zust¨

anden und die

Wahrscheinlichkeitsverteilung f¨

ur die Elemente der Beobachtungssequenz.

In meinem System entspricht die Beobachtungssequenz einer Abfolge von

Punkten auf der topologischen Karte. Um ¨

ahnliche Sequenzen mit einem

HMM erkennen zu k¨

onnen, muss man zun¨

achst durch Variation der Para-

meter ein Modell herstellen, das optimal zu der gegebenen Beobachtungs-

sequenz passt. Dies geschieht--¨

ahnlich wie bei neuronalen Netzen--durch

eine Trainingsphase anhand der Beobachtungssequenz. Ein geeignetes itera-

tives Optimierungsverfahren ist die Baum-Welch-Methode. Im Unterschied

zu Spracherkennungssystemen, die mit festen Kategorien arbeiten, muss hier

ur jedes gew¨

unschte Klangereignis ein neues HMM durch iterative Optimie-

rung erstellt werden.

5


5

Geplanter Ablauf des Forschungsprojekts

Bei der Umsetzung des Konzepts werde ich mit der Implementierung der ers-

ten beiden Stufen beginnen, um verschiedene Kombinationen von Geh¨

ormo-

dellen und topologischen Karten mit Hilfe von ausgew¨

ahlten Kl¨

angen zu

erproben. Ausgehend von den in der Literatur beschriebenen Experimen-

ten wird die Klangauswahl zun¨

achst auf geringe Varianz beschr¨

ankt sein

und dann langsam ausgeweitet werden, um Parameter wie Tonh¨

ohe und

Tondauer mit in die ¨

Ahnlichkeitsbewertung einzubeziehen. Eine Beurtei-

lung der Ergebnisse kann durch Vergleiche mit ¨

Ahnlichkeitsabsch¨

atzungen

aus einer entsprechend gestalteten Versuchsreihe, etwa mit Musikstudenten,

erfolgen.

Literatur

[1] Piero Cosi, Giovanni De Poli, and Giampaolo Lauzzana. Auditory model-

ling and self-organizing neural networks for timbre classification. Journal

of New Music Research, 23(1):71­98, 1994.

[2] Bernhard Feiten and Stefan G¨

unzel. Automatic indexing of a sound

database using self-organizing neural nets. Computer Music Journal,

18(3):53­65, 1994.

[3] Petri Toiviainen, Mauri Kaipainen, and Jukka Louhivuori. Musical tim-

bre: Similarity ratings correlate with computational feature space di-

stances. Journal of New Music Research, 24(3):282­298, 1995.

[4] Malcolm Slaney and Richard F. Lyon. On the importance of time: A

temporal representation of sound. In Martin Cooke, Steve Beet, and

Malcolm Crawford, editors, Visual Representations of Speech Signals,

pages 95­116. John Wiley & Sons, Chichester, UK, 1993.

[5] Malcolm Slaney. Auditory Toolbox: Version 2. Technical Report 1998-

010, Interval Research Corporation, 1998.

[6] Teuvo Kohonen. Self-Organisation and Associative Memory. Springer,

Berlin, third edition, 1989.

[7] John M. Grey. Multidimensional perceptual scaling of musical timbres.

Journal of the Acoustical Society of America, 61(5):1270­1277, 1977.

[8] Giovanni De Poli and Paolo Tonella.

Self-organizing neural network

and Grey′s timbre space. In Proc. of the International Computer Music

Conference ICMC ′93, pages 260­263, Tokyo, 1993.

[9] L. R. Rabiner and B. H. Juang. An introduction to Hidden Markov

Models. IEEE ASSP Magazine, 3(1):4­16, 1986.

6



Comments

No comments yet

Add Comment
Your comment is reviewed before being published

Other users also were interested in the following titles:

Erstellen einer schriftlichen Hausarbeit

Author: Claudia Nickel
Presentations, Models, Tutorials, Instructions, 2006 Download as PDF-file for 4,99 EUR

Grundtechniken wissenschaftlichen Arbeitens

Author: Maik Philipp
Presentations, Models, Tutorials, Instructions, 2004 Download as PDF-file for 5,99 EUR

This text can be quoted and accessed from this url:

http://www.grin.com/e-book/104870/computerbasierte-erkennung-von-klangereignissen
please wait Please wait