Evolutionäre Algorithmen in der Spracherkennung


Hausarbeit (Hauptseminar), 2004

10 Seiten


Leseprobe

Abstract

Dieser Text stellt einige evolutionar optimierte Klassi­fikatoren vor, mit Fokus auf Erkennung von Phonemen in der Spracherkennung. Das sind zum einen GA-Clustering, ein genetischer Vektor-Quantisierer; außerdem ein GP- Klassifikator, welcher Programme entwickelt, die direkt aus dem rohen Zeitsignal Phoneme extrahieren; und schließ­lich Evolutionare Neuronale Netze mit GA-Optimierung von Verbindungsgewichten, Topologie oder Aktivierungsfunk­tionen.

1. Einleitung

Evolutionare Algorithmen werden zunehmend zur An­wendung in Lernverfahren der Mustererkennung inter­essant, insbesondere zur Erkennung von Sprache. Ziel die­ses Textes ist es, die Anwendungsmoglichkeiten von EAs für die Spracherkennung aufzuzeigen. Es werden exempla­risch einige evolutionär optimierte Klassifikatoren vorge­stellt. Das sind zum einen GA-Clustering, ein genetischer Vektor-Quantisierer; außerdem ein GP-Klassifikator, wel­cher Programme entwickelt, die direkt aus dem rohen Zeit­signal Phoneme extrahieren; und schließlich Evolutionäre Neuronale Netze mit GA-Optimierung von Verbindungsge­wichten, Topologie oder Aktivierungsfunktionen.

Der Rest dieser Arbeit ist folgendermaßen gegliedert: Abschnitt 2 gibt einen knappen Überblick uber die Pha­sen eines typischen Spracherkennungsprozesses. Im An­schluss wird die Extraktion von Features aus dem Zeitsi­gnal erlautert. Abschnitt 4 fuhrt einige Begriffe zum Lernen und Erkennen von Phonemen ein. Die nachsten Abschnit­te stellen die genannten Anwendungsgebiete vor, wobei im Abschnitt 8 über evolutionare Neuronale Netze zuerst die Grundlagen behandelt werden.

2. Signalfluss von Spracherkennungssytemen

Der typische Vorgang der Spracherkennung [7] lasst sich grob folgendermaßen zusammenfassen:

1. Vorverarbeitung des Audiosignals. Das kann z.B. Rauschunterdrückung oder Filterung sein.
2. Feature-Extraktion. Dabei wird das Zeitsignal in eine Sequenz von Feature-Vektoren transformiert. Features sind Merkmale wie z.B. das Spektrum.
3. Phonem-Klassifikation. Ein Feature-Vektor wird auf eine Phonemklasse abgebildet.
4. Worterkennung. In der Folge von Phonemen werden Wörter gesucht, in der Regel durch Vergleichen mit so­genannten Hidden-Markov-Models. Bei Einzelworter­kennung wird nur das ahnlichste Wort ausgegeben. Bei kontinuierlicher Sprache wird eine Menge von mehre­ren moglichen Worten ausgegeben.
5. Eine anschließende kontextabhangige Analyse (gram­matisch oder statistisch) wahlt in kontinuierlicher Sprache das plausibelste Wort aus der Menge aus.

3. Feature-Extraktion

Das rohe Zeitsignal wird in kurze (typischerweise 10- 20ms) gleichgroße überlappende Abschnitte (Frames) zer­schnitten, und jeder Frame wird mit einer Amplitudenhull- kurve multipliziert [7].

Es folgt pro Frame eine Berechnung von mehreren dis­kriminierenden Merkmalen, und diese werden zu einem

Feature-Vektor

Abbildung in dieser Leseprobe nicht enthalten

zusammengefasst.

Gängige Features:

- Fourier-Leistungsspektrum (quadrierte Fourier­Koeffizienten) [7]:

Abbildung in dieser Leseprobe nicht enthalten

Dies ist eine Transformation vom Zeitbereich in den Frequenzbereich. Die Welle wird als Summe von Si­nuswellen mit verschiedener Phasenlage und Amplitu­de zerlegt. Die Berechnung nach obiger Formel ware zu ineffizient. Stattdessen verwendet man die Fast­Fourier-Transform (FFT).

- Mel Cepstrum / Mel Frequency Cepstrum Coefficients (MFCC) [7]: Das Signal wird von einer Filterbank aus dreieckigen Bandpassfiltern zerlegt, und die Energie pro Frequenzband berechnet.

Abbildung in dieser Leseprobe nicht enthalten

H[Abbildung in dieser Leseprobe nicht enthalten] : Frequenzgang des k-ten von M" dreieckigen Filters (Abb. 1) in Abhängigkeit von Frequenz ω.

F[Abbildung in dieser Leseprobe nicht enthalten] : Fourier-Koeffizient

M': Anzahl der diskreten Frequenzen

Abbildung in dieser Leseprobe nicht enthalten

[Abbildung in dieser Leseprobe nicht enthalten]: MFCC an der Stelle l

Die Auflösungen von Frequenz und Pegel sind loga- rithmisch, wie das menschliche Ohr. Daher ist das Mel Cepstrum biologisch plausibler als FFT. Nicht zuletzt deshalb ist es die popularste Feature-Menge.

- Zeitliche Differenzen von Features wie FFT, Mel Cep- strum.

Es ist nicht ungewohnlich, verschiedene Arten von Fea­tures in einen Vektor zu kombinieren. Zur Unterschei­dung zwischen Sprache und Stille/Hintergrund/Rauschen (wichtig zur Erkennung von Wortgrenzen) wird ein Level- Detektor verwendet, der die Short-Time-Energy (Energie ei­nes Frames) misst. Beim Auftreten eines Sprach-Frames werden die FFT- oder MFCC-Koeffizienten anhand der Short-Time-Energy normalisiert, was die Erkennung von Phonemen unabhangig von der Lautstarke ermoglicht.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1. Mel Cepstrum Filterbank. Fre­quenzgänge der dreieckigen Bandpassfilter.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2. Klassen sind Regionen im Feature-Raum. Hier: Erkennung von Vokalen aus 2 Features. [6]

4. Phonemklassifikation

In der Spracherkennung gibt es viele Wortuntereinhei­ten, in die man das Audiosignal zerlegen kann, z.B. Sil­be, Halbsilbe, Doppelsilbe, Phon, Phonem und andere [7]. In dieser Arbeit definiere ich den in der Literatur nicht ganz einheitlich festgelegten Begriff Phonem als die kleins­te Wortuntereinheit, das heisst, ein Audiosegment mit un­gefahr konstantem Spektrum.

Koartikulatorische Effekte beim Übergang zwischen Phonemen konnen die Erkennungsrate degradieren. Ver­besserung bringt die Berücksichtigung des Kontextes (be­nachbarte Frames) oder zeitliche Änderungen der FFT oder MFCC als zusatzliche Features.

Ziel ist die Zuordnung eines Feature-Vektors auf eine von K Klassen:

Abbildung in dieser Leseprobe nicht enthalten

Anschaulich gesehen sind Klassen Regionen im Feature­Raum (Abb. 2).

4.1. Unsupervised Learning

Beim Unsupervised Learning, auch genannt Clustering und Vector Quantization, werden dem Klassifikator N Trai­ningsbeispiele Xi (Trainingsmenge S) ohne Angabe der gewünschten Ausgabe präsentiert.

Abbildung in dieser Leseprobe nicht enthalten

Der Feature-Raum wird selbstständig in K Sektoren (Clus­ters), entsprechend K Klassen, partitioniert. Dabei wachst die lokale Granularitat (Dichte von Clusters) mit der loka­len Dichte von Beispielvektoren (je mehr Beispiele in ei­nem Gebiet, desto feiner die Auflösung dort). Jeder Cluster Ck wird repräsentiert durch einen Vektor zj, dem Cluster­Zentrum oder Code-Book-Vektor. Diese bilden das Code­Book. Ein Eingabevektor wird auf die Klasse mit minima­len euklidischen Abstand des Cluster-Zentrums abgebildet. Der Vektor wird sozusagen auf den nachsten Code-Book- Vektor gerundet. Damit erhalt man eine adaptive Datenre­duktion des Feature-Raums.

4.2. Supervised Learning

Beim Supervised Learning wird zu jedem Trainingsbei­spiel die Klasse mitangegeben. Diese dient beim Training als gewiinschte Ausgabe des Klassifikators (Target-Wert = Output-Wert).

Abbildung in dieser Leseprobe nicht enthalten

Ziele sind nicht nur das Lernen der Beispiele (korrekte Separation der Trainingsmenge), sondern auch die Genera- lisierungsfahigkeit: Neue Eingabevektoren aus einer Test­menge sollen mit moglichst hoher Wahrscheinlichkeit kor­rekt klassifiziert werden. Die Trainingsmenge wird somit interpoliert, das heisst aus den Beispielen versucht das Sys­tem, die tatsachliche Klassenzugehorigkeitsfunktion zu ap­proximieren.

5 K-Means-Algorithmus

Ein einfacher und popularer Clustering-Algorithmus ist K-Means [7]:

1 Initialisierung von ¿j: Wahle aus Trainingsmenge S zufallig K Punkte als Clusterzentren aus.

2. WIEDERHOLE

3. Klassifiziere Trainingsbeispiele gemass nächstem Cluster-Zentrum

Abbildung in dieser Leseprobe nicht enthalten

4. Aktualisiere Clusterzentren als Schwerpunkte:

Abbildung in dieser Leseprobe nicht enthalten

5. BIS keine Änderung mehr

Es ist ein Gradientenabstiegsverfahren (schrittweise Op­timierung entgegen der Ableitung der Fehlerfunktion) und stagniert deshalb leicht in einem lokalen Minimum.

6 GA-Clustering

GA-Clustering [6] kombiniert K-Means mit einem ge­netischen Algorithmus. Die Koordinaten eines Cluster­Zentrums, reell kodiert, bilden ein Gen im Chromosom. Zur Initialisierung wahlt man zufallig eine Teilmenge der Trai­ningspunkte als Clusterzentren aus. Die Fitness-Funktion ist die Clustering-Metrik:

Abbildung in dieser Leseprobe nicht enthalten

Selektion erfolgt proportional zur Fitness (Roulette- Wheel-Selection). Als Crossover gibt es Single-Point mit konstanter Wahrscheinlichkeit. Die Mutation geschieht mit fester Wahrscheinlichkeit nach der Regel:

Abbildung in dieser Leseprobe nicht enthalten

mit δ g [-1; +1] uniforme Zufallsvariable und v eine Va­riable im Chromosom.

Den Experimenten in [6] zufolge liefert GA-Clustering deutlich bessere Losungen als K-Means.

7 GP-Klassifikator

In [8] wird ein GP-Klassifikator zur Phonemerkennung vorgestellt, welcher auf genetisch optimierten Program­men basiert. Besonders erstaunlich ist, dass die Feature­Extraktion ubersprungen wird. Stattdessen wird ein Frame aus dem zeitlichen Audiosignal direkt quasi als Feature­Vektor verwendet. Dieses Vorgehen stellt eine Ausnahme unter den Phonemerkennungsalgorithmen dar, denn meis­tens wird das Signal in den Frequenzbereich transformiert.

[...]

Ende der Leseprobe aus 10 Seiten

Details

Titel
Evolutionäre Algorithmen in der Spracherkennung
Hochschule
Friedrich-Alexander-Universität Erlangen-Nürnberg  (Institut für Informatik, Lehrstuhl Informatik II Programmiersysteme)
Veranstaltung
Hauptseminar Einsatz Evolutionärer Strategien in Eingebetteten Systemen
Autor
Jahr
2004
Seiten
10
Katalognummer
V46763
ISBN (eBook)
9783638438919
Dateigröße
784 KB
Sprache
Deutsch
Schlagworte
Evolutionäre, Algorithmen, Spracherkennung, Hauptseminar, Einsatz, Evolutionärer, Strategien, Eingebetteten, Systemen
Arbeit zitieren
Alexander Eslava (Autor), 2004, Evolutionäre Algorithmen in der Spracherkennung, München, GRIN Verlag, https://www.grin.com/document/46763

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Evolutionäre Algorithmen in der Spracherkennung



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden