Keyword Spotting in Videodateien mit Techniken der automatischen Spracherkennung


Bachelorarbeit, 2013

46 Seiten, Note: 1,0


Leseprobe

Inhaltsverzeichnis

1 Aufgabenstellung

2 Stand der Technik bei der automatischen Spracherkennung
2.1 Grundmodelle in der Spracherkennung
2.2 Vorbereiten der Analyse des Audiosignals
2.3 Spracherkennung auf Basis von Mustervergleichen
2.4 Statistischer Ansatz mit Hilfe von Hidden-Markov-Modellen (HMM)
2.5 Spracherkennung unter Verwendung von künstlichen neuronalen Netzen
2.6 Aktuelle Forschungsrichtungen zur Verbesserung der Erkennungsleistung
2.7 Anwendungen im kommerziellen Umfeld

3 Wörterbuchkonzeptionierung für den Keyword-Spotter
3.1 Lösungsskizze zu Problemen bei spontanen Artikulationen
3.2 Initiale Keyword-Liste und ihre Erweiterbarkeit

4 Prototypische Realisierung eines Video-Indexierungssystems
4.1 Grundsätzliche Systemarchitektur
4.2 Beschreibung der Anwendung
4.3 Testbericht

5 Ausblick

6 Abbildungs- und Tabellenverzeichnis

7 Anhang

8 Literaturverzeichnis

1 Aufgabenstellung

Der nachfolgende Anwendungsfall soll im Rahmen der vorliegenden Bachelorarbeit untersucht werden Während einer aufgezeichneten Videokommunikation zwischen einem technischen Mitarbeiter und einem Experten wurde eine Lösung zur Fehlerbeseitigung bei einer Anlage bzw. einer Maschine entwickelt. Ziel ist es, Teile des Videos unter Verwendung von gesprochenen Schlüsselwörtern durchsuchbar zu machen. Das Auftreten eines Schlüsselwortes soll mit einem Zeitindex versehen werden, um direkt zu dieser Position auf dem Video zu gelangen. Eine prototypische Implementierung soll diese Aufgaben realisieren.

2 Stand der Technik bei der automatischen Spracherkennung

Aufgabe der Spracherkennung ist es, die Wörter einer gesprochenen Äußerung korrekt zu rekonstruieren. (Euler 2006, S. 15) Dabei lässt sich die grundsätzliche Schwierigkeit bei der Sprachverarbeitung durch die hohe Variabilität des Sprachsignals erklären. Das Sprachsignal entsteht durch den Sprechprozess und wird durch andere Quellen beeinflusst. Zum einen wir- ken die Physiologie und der psychische Zustand sowie auch die Herkunft (Dialekt) des Spre- chers auf die Signalbildung. Daneben wirken Umgebung, also der Geräuschhintergrund, und auch der Übertragungsweg (z. B. Telefon) auf das Signal ein. Diese Einflüsse werden aus Sicht der Spracherkennung als störend bewertet. (Pfister 2008, S. 286) Grundsätzlich kann die Variabilität aus vier Richtungen betrachtet werden: Die Lautsprache besitzt etwas Zufälliges, weil keine Person etwas völlig Identisches äußern kann. Des Weiteren haben unterschiedliche Menschen unterschiedliche Sprechgewohnheiten und Stimmen. Auch die Umgebungsakustik und die Schallübertragung gehen in das Sprachsignal ein, und schließlich beeinflussen die lautsprachlichen Grundeinheiten sich gegenseitig (Koartikulation). (Pfister 2008, S. 286) Das so zusammengesetzte Sprachsignal bedarf daher einer der Analyse vorgeschalteten Bereini- gung bzw. Transformierung.

Weitere Problembereiche zeichnen sich durch das begrenzte Erkennervokabular ab. Da dies dem Benutzer unbekannt ist, müssen Spracherkennungssysteme Lösungen zur Feststellung und Behandlung von Wörtern anbieten, die nicht im Vokabular enthalten sind. Weiterhin sind im Allgemeinen im kontinuierlichen Sprachsignal keine Wortgrenzen zu lokalisieren. Da die Detektion von Wortgrenzen und die Worterkennung voneinander abhängen, müssen beide Aufgaben vom System gleichzeitig gelöst werden. Eine weitere Problemlage ist durch Mehr- deutigkeit von lautsprachlichen Äußerungen geprägt (z. B. mehr / Meer). Erkenner müssen darüber hinaus in der Lage sein, auf Grund der bei gesprochener Sprache weniger praktizier- ten formalen Korrektheit mit Füllwörtern, Aussetzern bzw. falschen Wortfolgen umzugehen. (Pfister 2008, S. 288)

Spracherkennungssysteme können nach unterschiedlichen Fragestellungen klassifiziert wer- den. Die reine Spracherkennung befasst sich mit der Frage, was gesprochen wurde, also dem Text der Äußerung. Keyword-Spotting-Systeme sollen bestimmte Schlüsselwörter in den Äu- ßerungen finden. Die Sprechererkennung identifiziert den Sprecher als Person. Die Sprecher- verifikation entscheidet, ob der Sprecher tatsächlich die bestimmte (i. d. R. autorisierte Per- son) ist. Die Sprachenidentifikation ermittelt die gesprochene Sprache. (Euler 2006, S. 15)

Ein wichtiges Unterscheidungsmerkmal für Spracherkennungssysteme ist, ob die Erkennung unabhängig vom Sprecher gelingt oder nicht. Sprecherabhängige Systeme sind meist leicht zu implementieren und zu trainieren. Allerdings ist das Spektrum der zu erkennenden Wörter stark eingeschränkt. Hinzu kommt, dass bei neu zu erfassenden Sprechern, in der Regel neue Sprachdaten erfasst und berechnet werden müssen. Mit zunehmender Sprecher- und Wortan- zahl kann der Aufwand eines sprecherabhängigen den eines sprecherunabhängigen Systems übersteigen. Sprecherunabhängige Systeme sind aufgrund der zu berücksichtigenden höheren Variabilität durch verschiedene Sprecher aufwändiger zu realisieren. Die Variabilität kann über effizientere Modelle und Trainings über verschiedene Sprecher nivelliert wird. Sprecher- adaptive Systeme als hybrider Ansatz verwenden zu Beginn einen sprecherunabhängigen Er- kenner, der sich im Laufe der Benutzung an die Sprechweise bzw. an die sprecherindividuel- len Merkmale des Benutzers anpasst. Im Allgemeinen erfordert dieser Ansatz vorhergehende, kurze Trainingsphasen. (Euler 2006, S. 19)

Als Metrik zur Bewertung der Erkennungsleistung eines Spracherkenners hat sich die Wortfehlerrate (WER) etabliert, welche drei Kategorien von Fehlern berücksichtigt. Die erste Kategorie umfasst korrekte Wörter, die durch falsche ersetzt worden sind. Auslassungen und Einfügungen von Wörtern beinhalten die anderen beiden Kategorien. Insgesamt kann die Wortfehlerrate nach (Pfister 2008, S. 293) wie folgt berechnet werden:

Abbildung in dieser Leseprobe nicht enthalten

Die Wortfehlerrate kann in bestimmten Fällen Werte über 100% annehmen.

Andere Kenngrößen sind Wortkorrektheit und Wortakkuratheit. Die Wortkorrektheit berücksichtigt keine Einfügungen von Wörtern. (Euler 2006, S. 22)

Abbildung in dieser Leseprobe nicht enthalten

Die letzte Kennzahl lässt sich aus der ersten durch Bildung der Inversen ableiten:

Abbildung in dieser Leseprobe nicht enthalten

Die Erkennungsleistungen heutiger Systeme sind unter kontrollierten Laborbedingungen

(deutliche Artikulation von gelesener Sprache) als sehr gut zu bewerten. Dies gilt gerade für sprecherabhängige Systeme, die zuvor gut trainiert worden sind. Ein Beispiel für eine derarti- ge Anwendung ist das kommerzielle System Naturally Speaking, das laut Werbeaussagen eine Worterkennungsrate von 99 % hat. (Nuance) Deutlich geringer fällt die Leistung bei spontanen Keyword-Spotting-Systemen aus. Bei einer vergleichenden Untersuchung ver- schiedener Keyword-Spotting-Ansätze von Szöke et al. konnte das beste getestete Keyword- Spotting-System konnte nur eine Performance von 66,95 % erreichen. Als Performanceindi- kator wurde der Durchschnitt der korrekten Erkennungen pro 1,2 ... 10 Falscherkennungen pro Stunde definiert. (Szöke 2005)

2.1 Grundmodelle in der Spracherkennung

Zur Formulierung von Lösungen, die sich für die Spracherkennung eignen, existiert in der Literatur ein Grundmodell, das mehrere Teilmodelle beinhaltet. Zunächst soll auf die Bedeutung des Vokaltraktes für die Lautartikulation hingewiesen werden:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Vokaltrakt beim Menschen

http://www.drhoffmann.ch/cms/content/images/ab3cf52a7fecd7f8c65e7b547d8a21f4.jpg

Der Vokaltrakt umfasst den Mund-, Nasen- und Rachenbereich beginnend ab der Stimmritze (Glottis) aufwärts. Die aus der Lunge strömende Luft wird am unteren Ende durch zwei Stimmbänder der Glottis gepresst. Auf diese Weise wird entweder ein Strömungsrauschen erzeugt oder die Stimmbänder werden in Schwingung versetzt, wobei die Frequenz abhängig vom Anspannungszustand ist. Die Stimmbänder werden durch Muskeln angeregt oder ent- spannt. Sie bilden somit den sogenannten Primärschall der Stimme. Dieser Schall breitet sich in den Vokaltrakt aus und wird durch Mund und Nase in die Umgebung abgestrahlt. Durch Muskeln bedingt kann die Länge und der Querschnitt des Vokaltraktes variiert werden, was zur Folge hat, dass unterschiedliche Töne bzw. Artikulationen erzeugt werden können. Zur mathematischen Beschreibung hat Fant 1960 ein Modell zur Erzeugung von stimmhaften und stimmlosen Lauten in einer umschaltbaren Kette von linearen Funktionsblöcken vorgeschla- gen (Source-Filter-Modell):

Abbildung 2: Source-Filter-Modell nach Fant (in Anlehnung an Wendemuth und Andelic 2004)

Abbildung in dieser Leseprobe nicht enthalten

Das Modell besteht aus unabhängigen Komponenten. Die Anregung stammt aus einer zwischen periodischem Signal (stimmhaft) und Rauschsignal (stimmlos) umschaltbaren Quelle. Das Frequenzverhalten wird durch ein digitales Filter beschrieben. Ein zweites Filter modelliert die Schallabstrahlung am Mund.

In Spracherkennungssystemen steht häufig die Schätzung der Parameter des digitalen Filters im Mittelpunkt.

Glottismodell

Werden die Stimmbänder an der Glottis angespannt, werden sie durch die aus der Lunge ausgeblasene Luft in Schwingung versetzt. Das Schwingungsmuster ähnelt einer Sägezahn- schwingung mit einer Grundfrequenz von 80 Hz (Männer) bis zu 330 Hz (Kinder). Auf diese Weise werden stimmhafte Laute (z. B. Vokale der deutschen Sprache) erzeugt.

Stimmlose Laute (z. B. “h”, “f”, “v”, “s”, “x”, “z”) entstehen auf Grund turbulenter Luftströmungen durch ein- oder ausgeatmeter Luft. Das Signal ähnelt einem Weißen Rauschen. Entstehen können diese Turbulenzen durch Wandungen im Rachenraum (z. B. “h”) oder Vokaltrakteinengungen zwischen Lippen und Zähnen (labiodental: z. B. “f”, “v”) oder zwischen Zunge und vorderen Gaumen (alveolar: “z”, “s”, “ss”).

Das Source-Filter-Modell geht im Falle stimmloser Laute immer vom Weißen Rauschen und berücksichtigt nicht die unterschiedlichen Entstehungsorte stimmloser Laute. Daneben werden Laute, die sich keiner Kategorie zuordnen lassen (z. B. Plosivlaute: “t”, “d” und Nasallaute “ng”) mit stimmhafter oder stimmloser Anregung imitiert.

Vokaltraktmodell

Es ist möglich, den Vokaltrakt über elektronische Schaltungen zu simulieren. Es wird ein nicht-sinusförmiges Eingangssignal durch eine Anordnung von Filtern mit variablen Filtergrößen geleitet. Für den Zeitraum von einigen Millisekunden bis zu mehreren hundert Millisekunden sind Eingangssignal und Filter stabil. Für den Sprachschall bedeutet dies, dass ein Anregungsschall an der Glottis (Stimmritze) produziert und durch Resonanz und Dämpfung zu gewünschten Lauten, Wörtern oder Wortfolgen transformiert wird.

Abbildung 3: Schema der Sprachbildungsorgane und des Vokaltraktes (entnommen aus Wendemuth und Ande- lic 2004)

Abbildung in dieser Leseprobe nicht enthalten

Die Produktion des Sprachschalls verläuft wie zuvor ausgeführt über die ausströmende Luft und der Stellung der Stimmbänder. Die Vokaltraktveränderung in der Form (Querschnitt) hat einen Einfluss auf das Resonanzverhalten (Nachweis über Formanten). Der zuschaltbare Na- senraum bewirkt weitere Variabilität des Vokaltraktmodells (Dämpfung, Antiformaten). Die Schallabstrahlung über die Lippen erzeugt eine Hochpassfilterung, da Niederfrequenzen ge- dämpft werden.

Abbildung 4: Röhrenmodell des Vokaltraktes (entnommen aus Wendemuth und Andelic 2004)

Abbildung in dieser Leseprobe nicht enthalten

Das Vokaltraktmodell kann als Röhrenmodell formuliert werden. Die Röhre besteht aus in der Regel gleichlangen Segmenten unterschiedlicher Durchmesser. Allerdings verläuft in der Realität der Schall durch den Vokaltrakt weder verlustfrei, noch sind die Segmente im Quer- schnitt kreisförmig. Ebenso wird auf die Aufteilung in Nasen- und Mundraum verzichtet. Dennoch liefert das Modell brauchbare Ergebnisse. Mathematisch kann zwischen einer einfa- chen Beschreibung als Allpolfilter (IIR-Filter mit Zählerpolynom 0-ten Grades, das nur Pole besitzt) oder einer aufwändigen Polynomfunktion gewählt werden. Die Wahl ist abhängig von der benötigten Genauigkeit. Wenn Dämpfungen im Nasenraum berücksichtigt werden sollen, müssen Nullstellen im Sprachfrequenzbereich vorhanden sein (Antiformanten). Die Reso- nanzfrequenzen des Vokaltraktes (Formanten) können für Männer über die Formel fk = (2k-1) * 500 Hz ermittelt werden (für Frauen um 10 % höher). Die Formanten F1, F2, … lassen sich aus der physikalischen Gleichung ! =($&)∗'∗ + herleiten, wobei c die Schallgeschwindigkeit und L die mittlere Vokaltraktlänge ist. Männer besitzen im Durchschnitt eine Vokaltraktlänge von 17 cm. F1 bis F5 sind bei der Produktion von Vokalen deutlich im Frequenzspektrum erkennbar. Bei Telefonübertragungen sind wegen der eingeschränkten Frequenzbandbreite die Formanten F1 bis F4 relevant.

Schallabstrahlung über die Lippen

Hauptsächlich durch die Lippen wird die Schallabstrahlung beeinflusst. Der sich in einer Longitudinalwelle ausbreitende Schall überträgt sich auf die Umgebungsluft und wird so weiteren Einflüssen unterworfen. Durch Überlagerung von Nebengeräuschen, Reflexion und Dämpfung wird ein Schallfeld erzeugt. (Wendemuth und Andelic 2004)

Abbildung in dieser Leseprobe nicht enthalten

2.2 Vorbereiten der Analyse des Audiosignals

Um eine spätere Sprachverarbeitung durchführen zu können, ist zunächst eine Kurzzeitanaly- se erforderlich. Das Sprachsignal ist nicht stationär, sondern ändert sich aufgrund des Sprech- vorgangs in der Zeit. Auch zufällige Größen beeinflussen das Sprachsignal. Nützlich ist der Umstand, dass sich die zeitabhängigen Eigenschaften langsam verändern, da die Stimmlippen und die Vokaltraktanpassungen nicht hochfrequent verlaufen. Das Signal wird in kurze Blö- cke zerlegt, um die zeitlichen Veränderungen erfassen zu können. Hierauf werden verschie- dene Verfahren angewendet, aus deren Ergebnissen schließlich die extrahierten Merkmale herrühren. (Pfister 2008, S. 59-60)

Bei der Festlegung der Blockgröße gilt es zu beachten, dass über längere Blöcke die Statisti- ken leichter zu ermitteln sind. Andererseits kann man bei kürzeren Blöcken das Signal eher als stationär betrachten. Üblich sind Blockgrößen zwischen 15 und 20 ms. Zur Erfassung von schnellen Veränderungen können auch überlappende Blöcke gebildet werden. Ein Gegenvor- schlag zu stationären Blöcken wäre die Etablierung von dynamischen Blöcken nach Laut- grenzen. Problematisch sind an dieser Stelle die Auswirkungen von Fehlern. Die automati- sche, fehlerfreie Segmentierung nach Lauten ist de facto unmöglich. Zur Erzielung einer ho- hen Genauigkeit müssten Informationen über die gesamte Äußerung vorliegen, die naturge- mäß erst zu einem späteren Zeitpunkt der Verarbeitung bereitstehen. Demgegenüber wirken frühe Fehler bei der Blockgrößenentscheidung verheerend auf die Analyseresultate. (Euler 2006, S. 31)

Spektrumdarstellung des Sprachsignals

Um die erfassten Blöcke vergleichen zu können, werden sie im Frequenzbereich ausgewertet, was bedeutet, dass eine Transformation von Zeit- in den Frequenzbereich stattfinden muss. Die Abtastrate ist in Übereinstimmung mit dem Shannon´schen Abtasttheorem bei mindestens 8 kHz anzusetzen, da der Sprachfrequenzbereich zwischen 300 Hz und in etwa 4 kHz liegt.

Da die abgetasteten Werte diskret sind, wird in der Regel die Diskrete Fourier Transformation (DFT) verwendet. Als besonders schnelle Variante eignet sich die Diskrete Kosinus Trans- formation (DCT). An den Blockgrenzen können große Signalsprünge entstehen, die durch geeignete Fensterfunktionen gedämpft werden können. Verbreitet sind u. a. die Rechteckfunk- tion sowie die Hamming-Fensterfunktion. Die Umwandlung in den Frequenzraum macht es möglich, eine Einteilung in Gruppen, den sogenannten Frequenzbändern vorzunehmen. Das menschliche Gehör nimmt akustische Ereignisse nicht in absoluten Größen wahr, sondern auf Grund einer Bewertung in komplexer nichtlinearer Form. Frequenzunterschiede können bis zu 8 0,3 % aufgelöst werden. Mit zunehmender Frequenz erhöhen sich demzufolge auch die Diffe- renzfrequenzen zur Wahrnehmung. (Wendemuth und Andelic 2004, S. 21) Daher können Tonheit-Skalen verwendet werden. Die Tonheit gibt an, wie eine Frequenz wahrgenommen wird. Bis etwa 500 Hz verlaufen beide Skalen in etwa linear, um danach in zunehmender Weise abzuflachen. Bis ca. 1 kHz liegt der Abstand der Mittenfrequenzen bei 100 Hz. Ober- halb von 1 kHz ist jede Oktave logarithmisch in fünf Bänder aufgeteilt. Das bedeutet bei einer angenommenen Maximalfrequenz von 8 kHz eine Merkmalsreduktion auf 20 bis 30 Werte pro Block. Als Skalen können die Barkskala (nach Heinrich Barkhausen) oder die Mel-Skala verwendet werden. Die Darstellung des gefensterten Frequenzspektrums wird für die weitere Cepstrumanalyse benötigt.

Cepstrumanalyse

Hauptgegenstand der Cepstrumanalyse ist die Entfaltung des Spektrums, was bedeutet, dass auf die ursprünglichen Eingangsgrößen des Resultatsignals zurückgeführt werden soll. Nach Fant ist das Sprachsignal eine Faltung aus Anregungssignal u(n) und Impulsantwort h(n) mit ,(-) = (-) ∗ ℎ(-). Die Anregung hat ihre Quelle in den Stimmbändern, und die Impulsantwort stammt aus Vokaltrakt und Lippenabstrahlung. (Wendemuth und Andelic 2004, S. 41) Es wird somit versucht, die Parameter von Quelle und Filter zu ermitteln.

Zu den Werten des Spektrums werden die jeweiligen Logarithmen gebildet. Anschließend wird durch eine erneute Transformation (DCT) das Cepstrum ermittelt. Der Logarithmus er- möglicht es, dass vormals multiplikative Anteile durch additive Anteile ersetzt werden. Damit ist es möglich, Störsignale durch Subtraktion aus dem Cepstrum zu entfernen. Im Cepstrum mündet die Anregungsfrequenz in einem cepstralen Gipfel, der sich bei der inversen Anre- gungsfrequenz bzw. einem Vielfachen davon befindet. Konsonanten besitzen ein Rauschsig- nal als Anregung, so dass ein cepstraler Gipfel in diesem Fall nicht auftritt. Niedrige Cep- strumkoeffizienten zeigen die Grobstruktur des Signalverlaufs. Cepstrumkoeffizienten höhe- rer Ordnung beziehen sich auf die Feinstruktur. Für die Sprachsignalglättung werden die nied- rigen Koeffizienten verwendet.

Im Cepstrum sind Anregung und Impulsantwort additiv überlagert. Die Trennung erfolgt durch einen Tiefpassfilter (Lifter). Zur Bildung des Cepstrums wird meist ein Mel-skaliertes Spektrum verwendet. (Wendemuth und Andelic 2004, S. 42)

Leistungsdichtespektrum und Autokorrelation

Rauschartige Signale, wie sie bei stimmlosen Konsonanten gebildet werden, besitzen kein diskretes Spektrum und können somit nicht über eine DFT geschätzt werden. Sprachsignale von stimmlosen Lauten werden in der Regel durch das Leistungsdichtespektrum dargestellt. Die Leistungsdichte zeigt die Leistungsverteilung des Signals als Funktion der Frequenz.

Die Autokorrelationsfunktion AKF ist für ein energiebegrenztes, zeitdiskretes Signal x(n) wie folgt definiert: ( )=∑ 3 2 /(-)/(- + ). Die Autokorrelation vergleicht das Signal mit einem Versatz mit sich selbst. Nach dem Wiener-Khintchine-Theorem bilden das Leistungsdichtespektrum und die Autokorrelationsfunktion ein Fourierpaar. (Pfister 2008, S. 71-76) Die Kurzzeit-Autokorrelation wird für zeitlich begrenzte, gefensterte Signalabschnitte verwendet (1. gefenstertes Signal, 2. Kurzzeit-AKF):

Abbildung in dieser Leseprobe nicht enthalten

Bei ausreichend großem N kann die Kurzzeit-AKF effizient über eine Fouriertransformation aus dem Leistungsdichtespektrum ermittelt werden. Vielmals werden jedoch nicht die Abso- lutwerte der Kurzzeit-AKF benötigt, sondern nur das jeweilige Verhältnis zu r(0). Die Divisi- on jedes AKF-Koeffizienten durch r(0) erzeugt die normierte AKF. (Pfister 2008, S. 71-76)

Lineare Prädiktive Codierung

Einen anderen Weg beschreibt die Lineare Prädiktive Codierung (LPC), bei der versucht wird, aus den Vorgängerwerten den mutmaßlichen Folgewert zu bestimmen. Dies folgt aus dem Umstand, dass aufeinander folgende Sprachsignalwerte statistisch nicht unabhängig sind. Vergleicht man diesen mit dem tatsächlichen, kann der Abstand zwischen tatsächlichem Wert und Vorhersagewert als Differenz zwischen beiden definiert werden (Prädiktionsfehler). Um eine gute Prädiktion zu erreichen, muss der mittlere quadratische Prädiktionsfehler minimiert werden. Die LPC glättet unter Verlust von Details den Spektrumverlauf und eignet sich daher für die Verwendung in sprecherunabhängigen Erkennern. Gerade bei jenen ist diese Eigen- schaft erwünscht. Bei der LPC wird das angenommene Source-Filter-Modell stark verein- facht, indem nur Impulsgenerator, die Quelle des Weißen Rauschens und das Vokaltraktmo- dell für die Sprachproduktion benutzt werden. Dieses Modell ist bekannt unter dem Namen autoregressives Modell. Die Vernachlässigung von Glottiswellenform und Lippenabstrahlung wird durch ein weiteres Filter, der sogenannten Preemphasis, kompensiert.

Zeitliche Veränderungen im Sprachsignal

Für jeden Kurzzeitblock werden die Merkmalswerte berechnet und als Vektor dargestellt. Die Aneinanderreihung der verschiedenen Vektoren mündet in eine Matrix als Abfolge von Vektoren, die die Äußerung darstellt. Zusätzlich kann der Verlauf über mehrere Blöcke mit dynamischen Merkmalen dargestellt werden, was für die Erkennung von Vorteil sein kann (z. B. starke Änderungen bzw. ähnliche Werte). (Euler 2006, S. 45) Änderungen benachbarter Vektoren werden als Deltas bezeichnet.

Kompression des Datenmaterials

Um die gewonnenen Daten aus der Merkmalsextraktion zu vermindern, kann die Vektorquantisierung als Verfahren für die Quellencodierung eingesetzt werden. Das Resultat mündet im Codebuch. Dabei wird für eine Menge von Vektoren ein Repräsentant dieser Menge ausgewählt und für den späteren Merkmalsvergleich als Mustervektor zu Rate gezogen. Der Repräsentant wird aus Distanzmaßen (z. B. Summe der Betragsabstände oder der quadrierten euklidischen Abstände der Komponenten) ermittelt. (Euler 2006, S. 48)

Üblicherweise wird für einen Ausschnitt aus der Menge der Vektoren (Partition) der Zentroid ermittelt. Der Zentroid ist derjenige Vektor, bei welchem die Summe aller Distanzen zu den anderen Vektoren der Partition minimiert wird. Das Codebuch wird in der Regel auf Grund fehlender Information über die Verteilung der Grundgesamtheit der zu quantisierenden Vektoren über repräsentative Stichproben ermittelt. (Pfister 2008, S. 102-103)

2.3 Spracherkennung auf Basis von Mustervergleichen

Die älteste und zugleich einfachste Methode der Spracherkennung basiert auf einem Muster- vergleich, wobei eine Äußerung mit einer Referenzäußerung verglichen wird. Mit Hilfe eines Distanzmaßes wird der Abstand zwischen Äußerung und Referenz abgebildet. Ein Wort gilt als erkannt, sobald eine Distanz einen Schwellwert unterschreitet. Im Idealfall bei einer Ein- zelworterkennung liegt die Distanz bei 0. Weil von einem menschlichen Sprecher keine Äu- ßerung exakt repetiert werden kann, können die zu vergleichenden Merkmalswerte nicht ein- fach subtrahiert werden. Aufgrund der Varianz innerhalb der Dauer von gesprochenen Lauten, muss sie zweckmäßig berücksichtigt werden.

[...]

Ende der Leseprobe aus 46 Seiten

Details

Titel
Keyword Spotting in Videodateien mit Techniken der automatischen Spracherkennung
Hochschule
FernUniversität Hagen  (Lehrgebiet Multimedia und Internetanwendungen)
Note
1,0
Autor
Jahr
2013
Seiten
46
Katalognummer
V293459
ISBN (eBook)
9783656909545
ISBN (Buch)
9783656909552
Dateigröße
866 KB
Sprache
Deutsch
Schlagworte
Spracherkennung, Keyword Spotting, Automatische Indexierung, Inhaltsextraktion, Multimedia, Videospotting
Arbeit zitieren
Riccardo Böttcher (Autor:in), 2013, Keyword Spotting in Videodateien mit Techniken der automatischen Spracherkennung, München, GRIN Verlag, https://www.grin.com/document/293459

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Keyword Spotting in Videodateien mit Techniken der automatischen Spracherkennung



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden