G¨ angige Features:
• Fourier-Leistungsspektrum Koeffizienten) [7]:
M −1
F ω =
Dies ist eine Transformation vom Zeitbereich in den Frequenzbereich. Die Welle wird als Summe von Sinuswellen mit verschiedener Phasenlage und Amplitude zerlegt. Die Berechnung nach obiger Formel w¨ are
quenzg ¨ ange der dreieckigen Bandpassfilter.
zu ineffizient. Stattdessen verwendet man die Fast-Fourier-Transform (FFT).
• Mel Cepstrum / Mel Frequency Cepstrum Coefficients
(MFCC) [7]: Das Signal wird von einer Filterbank aus dreieckigen Bandpassfiltern zerlegt, und die Energie pro Frequenzband berechnet.
H kω : Frequenzgang des k-ten von M dreieckigen Filters (Abb. 1) in Abh¨ angigkeit von Frequenz ω. F ω : Fourier-Koeffizient M : Anzahl der diskreten Frequenzen
γ l :=
γ l : MFCC an der Stelle l
Die Au߬ osungen von Frequenz und Pegel sind loga-
4.Phonemklassifikation
rithmisch, wie das menschliche Ohr. Daher ist das Mel Cepstrum biologisch plausibler als FFT. Nicht zuletzt deshalb ist es die popul¨ arste Feature-Menge.
In der Spracherkennung gibt es viele Wortuntereinheiten, in die man das Audiosignal zerlegen kann, z.B. Sil-
• ZeitlicheDifferenzen von Features wie FFT, Mel Cep-
be, Halbsilbe, Doppelsilbe, Phon, Phonem und andere [7].
strum.
In dieser Arbeit definiere ich den in der Literatur nicht ganz einheitlich festgelegten Begriff Phonem als die kleins-
Es ist nicht ungew¨ ohnlich, verschiedene Arten von Fea-
te Wortuntereinheit, das heisst, ein Audiosegment mit un-
tures in einen Vektor zu kombinieren. Zur Unterschei-
gef¨ ahr konstantem Spektrum.
dung zwischen Sprache und Stille/Hintergrund/Rauschen
Koartikulatorische Effekte beim ¨
(wichtig zur Erkennung von Wortgrenzen) wird ein Level-Phonemen k¨ onnen die Erkennungsrate degradieren. Ver-Detektor verwendet, der die Short-Time-Energy (Energie eibesserung bringt die Ber¨ ucksichtigung des Kontextes (benes Frames) misst. Beim Auftreten eines Sprach-Frames
nachbarte Frames) oder zeitliche ¨
Anderungen der FFT oder
werden die FFT- oder MFCC-Koeffizienten anhand der MFCC als zus¨ atzliche Features. Short-Time-Energy
normalisiert,
was die Erkennung von Phonemen unabh¨ angig von der Lautst¨ arke erm¨ oglicht.
Anschaulich gesehen sind Klassen Regionen im Feature-Raum (Abb. 2).
4.1. Unsupervised Learning
Beim Unsupervised Learning, auch genannt Clustering und Vector Quantization, werden dem Klassifikator N Trainingsbeispiele x i (Trainingsmenge S) ohne Angabe der gew¨ unschten Ausgabe pr¨ asentiert.
Der Feature-Raum wird selbstst¨ andig in K Sektoren (Clustimierung entgegen der Ableitung der Fehlerfunktion) und ters), entsprechend K Klassen, partitioniert. Dabei w¨ achst stagniert deshalb leicht in einem lokalen Minimum. die lokale Granularit¨ at (Dichte von Clusters) mit der lokalen Dichte von Beispielvektoren (je mehr Beispiele in einem Gebiet, desto feiner die Aufl¨ osung dort). Jeder Cluster 6 GA-Clustering C k wird repr¨ asentiert durch einen Vektor z i , dem Cluster-Zentrum oder Code-Book-Vektor. Diese bilden das Code-
GA-Clustering [6]kombiniert K-Means mit einem ge-
Book. Ein Eingabevektor wird auf die Klasse mit minima-
netischen Algorithmus. Die Koordinaten eines Cluster-
len euklidischen Abstand des Cluster-Zentrums abgebildet.
Zentrums, reell kodiert, bilden ein Gen im Chromosom. Zur
Der Vektor wird sozusagen auf den n¨ achsten Code-Book-
Initialisierung w¨ ahlt man zuf¨ allig eine Teilmenge der Trai-
Vektor gerundet. Damit erh¨ alt man eine adaptive Datenre-
ningspunkteals Clusterzentren aus. Die Fitness-Funktion
duktion des Feature-Raums.
ist die Clustering-Metrik:
Beim Supervised Learning wird zu jedem Trainingsbeispiel die Klasse mitangegeben. Diese dient beim Training Wheel-Selection). Als Crossover gibt es Single-Point mit
als gew¨ unschte Ausgabe des Klassifikators (Target-Wert = konstanter Wahrscheinlichkeit. Die Mutation geschieht mit
Output-Wert).
fester Wahrscheinlichkeit nach der Regel:
v
=
v
+ 2δv
Ziele sind nicht nur das
Lernen der Beispiele
(korrekte mit
δ
∈
[−1; +1]
uniforme Zufallsvariable und
v
eine Va-
Separation der Trainingsmenge), sondern auch die Genera- riableim Chromosom.
lisierungsf¨ ahigkeit: Neue Eingabevektoren aus einer Test- DenExperimenten in [6] zufolge liefert GA-Clustering
menge sollen mit m¨ oglichst hoher Wahrscheinlichkeit kordeutlich bessere L¨ osungen als K-Means.
rekt klassifiziert werden. Die Trainingsmenge wird somit interpoliert, das heisst aus den Beispielen versucht das Sys- 7GP-Klassifikator tem, die tats¨ achliche Klassenzugeh¨ origkeitsfunktion zu approximieren.
In [8] wird ein GP-Klassifikator zur Phonemerkennung vorgestellt, welcher auf genetisch optimierten Program- 5K-Means-Algorithmus men basiert. Besonders erstaunlich ist, dass die Feature-Extraktion ¨ ubersprungen wird. Stattdessen wird ein Frame
Ein einfacher und popul¨ arer Clustering-Algorithmus ist aus dem zeitlichen Audiosignal direkt quasi als Feature-
K-Means [7]:
Vektor verwendet. Dieses Vorgehen stellt eine Ausnahme
1. Initialisierung von z i : W¨ ahle aus Trainingsmenge S unter den Phonemerkennungsalgorithmen dar, denn meiszuf¨ allig K Punkte als Clusterzentren aus. tens wird das Signal in den Frequenzbereich transformiert.
8 Evolution¨ are Neuronale Netze Ein einzelnes (genetisch optimiertes) Programm kann zwischen 2 Klassen unterscheiden (1 bin¨ arer Ausgang). Es liest einen Audio-Frame ein und entscheidet, ob es sich eher um
8.1 Perzeptron diese oder jene Phonemklasse handelt. Zur Differenzierung vieler Phoneme kombiniert man viele solcher Programme,
Summe der Eing ¨ ange aus.
Abbildung 3. GP-Klassifikator. Ein Frame des Zeitsignals wird von einem genetisch optimierten Programm Sample-weise eingelesen. Ein triviales Netz, bestehend aus einem einzigen Neuron, [8] berechnet folgende Funktion:
n
Aus Effizienzgr¨ unden sind die Programme in Maschinencode repr¨ asentiert. Der Instruktionssatz umfasst ausschließlich arithmetische Operationen. Es kommen insbe-
Der Schwellwert w n+1 wird in den Gewichtsvektor sondere keine Sprungbefehle und Schleifen vor; die Programme sind linear. Um die Komplexit¨ at des Genetic Pro-
w =(w 1 , ..., w n+1 ) gramming zu begrenzen, muss die Anzahl der Ein- und Ausg¨ ange klein gehalten werden. Dies wird realisiert, in-
integriert und als Verbindung mit einem virtuellen Knoten dem das Programm nicht den ganzen Frame auf einmal
repr¨ asentiert, der die Konstante “1” ausgibt.
einliest, sondern Sample f¨ ur Sample und dessen Zeitpunkt (Abb. 3). Um das Programm mit einer Art Ged¨ achtnis aus- Aktivierungsfunktionen:
zustatten, gibt es einige (etwa 8-10) zus¨ atzliche Aus- und Eing¨ ange in einer Feedback-Schleife.
• F¨ ur Klassifikationsaufgaben gen¨ ugt im Prinzip als Ak-
Als Fitnessfunktion dient die Summe der Fehler (Differenzen zw. Target und Output). Die so entstehenden Programme enthalten viele Instruktionen, welche die Ausgabe nicht beeinflussen (Introns). Wenn dieser “M¨ ull” wird am Ende eliminiert wird, dann erh¨ alt man sehr schnelle und kompakte Programme. Die Genauigkeit dieses Klassifika-tors ist laut [8] konkurrenzf¨ ahig mit konventionellen Verfahren.
Quote paper:
Alexander Eslava, 2004, Evolutionäre Algorithmen in der Spracherkennung, Munich, GRIN Publishing GmbH
This text can be quoted and accessed from this url:
Embed
DOI
Zur Vielfalt der Relationen zwischen Anaphern und Antezedenten
German - Grammar, Style, Working Technique
Scholary Paper (Seminar), 21 Pages
Derivation von Substantiven im Deutschen
Scholarly Paper (Advanced Seminar), 26 Pages
Die Demaskierung eines dämonischen Intriganten - Die Figur des "A...
German Studies - Modern German Literature
Scholarly Paper (Advanced Seminar), 28 Pages
Maschinelle Übersetzung in Polen: Ein Überblick
Scholarly Paper (Advanced Seminar), 54 Pages
Overview of Translation Tools - Benefits of Translation Memory Managem...
Diploma Thesis, 89 Pages
Modellierung des Markenwahlverhaltens von Konsumenten mittels Markov-K...
Scholary Paper (Seminar), 23 Pages
Die Zagheit Dietrichs von Bern
German Studies - Older German Literature, Mediaevistik
Termpaper, 14 Pages
Die Figur des Dietrich von Bern im "Eckenlied" und im "...
German Studies - Older German Literature, Mediaevistik
Scholary Paper (Seminar), 40 Pages
Die Derivation im Deutschen und das Suffix -lich
Scholary Paper (Seminar), 15 Pages
Ungesteuerter und gesteuerter Zweitspracherwerb
German - Pedagogy, Didactics, Literature Studies
Termpaper, 16 Pages
Die Gegenspieler Dietrichs in der aventiurehaften Dietrichepik
German Studies - Older German Literature, Mediaevistik
Scholary Paper (Seminar), 28 Pages
Eine Einführung in zeit-diskrete homogene Markov-Ketten
Research Paper, 17 Pages
Tabellarische Übersicht über die deutsche Literaturgeschichte
German - History of Literature, Eras
Presentation / Essay (Pre-University), 16 Pages
Die Wahrnehmung von Raumrelationen und die Interpretation raumrelation...
Scholarly Paper (Advanced Seminar), 30 Pages
Alexander Eslava has published the text Evolutionäre Algorithmen in der Spracherkennung
Alexander Eslava has uploaded a new text
Genetische Algorithmen - Strat...
Ingrid Gerdes, Frank Klawonn, Rudolf Kruse
Systemgrundlagen und Entwicklu...
Karsten Berns, Bernd Schürmann, Mario Trapp
Software-Engineering eingebetteter Systeme
Grundlagen-Methodik-Anwendunge...
Peter Liggesmeyer, Dieter Rombach
0 comments