Diese Bachelorarbeit umfasst die Themen Acoustic Echo Cancellation und Speech
Separation. Zunächst wird ein Acoustic Echo Cancellation System in Matlab im-
plementiert und anschließend werden Teile dieses Systems für die Sprachtrennung
genutzt. Die Experimente zur Sprachtrennung werden mit einem automatischen
Spracherkennungsystem ausgewertet und mit Hilfe des benutzten Filters ist eine
deutliche Verbesserung der Sprachtrennung zu beobachten. Das System erreicht
eine Word-Error-Rate von 44,20 %. Dies entspricht einer Verbesserung von 24 %
im Vergleich zum Superdirective Beamformer.
Inhaltsverzeichnis
1 Introduction
1.1 Motivation
1.2 Overview
2 Digital Filters
2.1 FIR-Filter
2.2 IIR-Filter
2.3 Wiener Filter
2.3.1 Solution in the Time Domain
2.3.2 Solution in the Frequency Domain
2.4 Adaptive Filters
2.4.1 LMS Algorithm
2.4.2 NLMS Algorithm
3 Acoustic Echo Cancellation
3.1 Problem Definition
3.2 Adaptive Filter
3.3 Voice Activity Detection VAD
3.4 Pre-Emphasis/De-Emphasis
3.5 Residual Echo Suppression
3.6 Matlab Results
4 Speech Separation
4.1 Beamforming
4.1.1 Diffuse Noise Field and Directivity
4.1.2 Delay-and-Sum Beamformer
4.1.3 MVDR Beamformer
4.1.4 Superdirective Beamformer
4.1.5 Zelinski Postfilter
4.2 Echo Suppression Postfilter ES
5 Experiments
5.1 Corpus
5.2 Automatic Speech Recognition System ASR
5.3 Experiments and Results
5.3.1 Superdirective Beamformer
5.3.2 Zelinski Postfilter
5.3.3 Echo Suppression Filter
5.3.4 Row of Echo Suppression Systems
5.3.5 Zelinski Postfilter and Echo Suppression System
6 Summary, Conclusions and Future Work
Zielsetzung & Themen
Diese Arbeit untersucht Möglichkeiten zur Verbesserung der Sprachtrennung durch den Einsatz von Komponenten der akustischen Echokompensation. Das primäre Ziel ist es, die Qualität von Sprachsignalen in Umgebungen mit mehreren sprechenden Personen durch den Einsatz adaptiver Filter und Beamforming-Techniken zu optimieren, um die Fehlerrate bei der automatischen Spracherkennung (ASR) zu reduzieren.
- Implementierung von Systemen zur akustischen Echokompensation
- Einsatz von Beamforming (räumliche Filterung) zur Isolierung von Sprechern
- Optimierung durch adaptive Filteralgorithmen (LMS/NLMS)
- Bewertung der Leistungsfähigkeit durch Wortfehlerraten (WER)
- Untersuchung von Postfilter-Methoden (Zelinski-Filter) und Echosuppression
Auszug aus dem Buch
3.1 Problem Definition
Audio feedback is often a problem of speakerphones or audio conference systems. The microphone receives the speaker's voice in addition to an input loudspeaker signal that is reflected by the walls or the ceiling. The result leads to a superposition of speech and disturbing echo, which makes the utterance hard to understand for the receiver. Figure 3.1 shows the scheme of such an audio conference system.
In order to avoid the superposition, an acoustic echo cancellation system tries to estimate the echo with certain filters and then subtracts the estimated echo from the microphone signal. So, at the end the echo is reduced and the receiver hears a clear speech signal.
Figure 3.2 illustrates the scheme of an acoustic echo cancellation system. Two speakers with microphones and loudspeakers are placed in two different rooms. The microphone signal x(t) of the far-end room is sent to the loudspeaker in the near-end room. There the signal, which is reflected by the wall and the ceiling, is received at the microphone in addition to the voice of the second speaker v(t). This signal is sent to the far-end room and the speaker there would hear a disturbing echo. To solve this problem, we have to estimate the echo y(t) and then subtract it from the microphone signal. For this estimation an adaptive filter is used to estimate the impulse response of the room.
Zusammenfassung der Kapitel
1 Introduction: Einführung in die Problematik der Sprachkommunikation und Motivation für akustische Echokompensation sowie eine Übersicht über den Aufbau der Arbeit.
2 Digital Filters: Grundlagen zu FIR- und IIR-Filtern sowie der Wiener-Filter-Theorie und adaptiven Algorithmen wie LMS und NLMS.
3 Acoustic Echo Cancellation: Detaillierte Beschreibung der Echokompensation, inklusive Voice Activity Detection, Pre-Emphasis und Methoden zur residualen Echosuppression.
4 Speech Separation: Theoretische Grundlagen des Beamformings, einschließlich verschiedener Methoden wie Delay-and-Sum, MVDR, Superdirective Beamformer und Zelinski-Postfiltern.
5 Experiments: Darstellung der Versuchsreihen basierend auf dem Wall Street Journal Korpus und Evaluation der Ergebnisse mittels automatischer Spracherkennung.
6 Summary, Conclusions and Future Work: Zusammenfassung der wichtigsten Erkenntnisse der Arbeit und Ausblick auf zukünftige Forschungsmöglichkeiten.
Schlüsselwörter
Akustische Echokompensation, Sprachtrennung, Adaptive Filter, Beamforming, LMS-Algorithmus, NLMS-Algorithmus, Spracherkennung, Wortfehlerrate, Signalverarbeitung, Postfilter, Zelinski, Echosuppression, Mikrofon-Array, Matlab, Signalrauschen
Häufig gestellte Fragen
Worum geht es in der Arbeit grundlegend?
Die Arbeit behandelt die Verbesserung der Trennung von Sprachsignalen in Umgebungen, in denen Störgeräusche oder Echos die Verständlichkeit beeinträchtigen.
Welche zentralen Themenfelder werden abgedeckt?
Die Schwerpunkte liegen auf digitaler Filtertechnik, akustischer Echokompensation und verschiedenen Methoden der Sprachtrennung durch räumliche Filterung (Beamforming).
Was ist die primäre Forschungsfrage?
Es wird untersucht, wie Teile eines Echokompensationssystems effektiv zur Sprachtrennung genutzt werden können, um die Wortfehlerrate bei automatischen Spracherkennungssystemen zu senken.
Welche wissenschaftliche Methode wird verwendet?
Es handelt sich um einen ingenieurwissenschaftlichen Ansatz mit Implementierung von Algorithmen in Matlab, gefolgt von einer experimentellen Evaluation anhand von Sprachdatenkorpora.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil gliedert sich in theoretische Grundlagen zu Filtern, die Implementierung der Echokompensation sowie die detaillierte Analyse verschiedener Beamforming-Ansätze und deren Kombination mit Postfiltern.
Welche Schlüsselbegriffe charakterisieren die Arbeit?
Wichtige Begriffe sind unter anderem Beamforming, adaptive Filter, Signal-Rausch-Verhältnis, Wortfehlerrate (WER) und akustische Echokompensation.
Warum wird ein Pre-Emphasis Filter eingesetzt?
Er wird verwendet, um die Magnitude höherer Frequenzen gegenüber niedrigeren Frequenzen zu erhöhen, da dies die Schätzung der Impulsantwort verbessert und den quadratischen Fehler minimiert.
Welches Ergebnis lieferte die Untersuchung der Echo-Suppression-Systeme?
Die Versuche zeigten, dass eine signifikante Verbesserung der Sprachtrennung erzielt werden kann, wobei die besten Ergebnisse mit einem noise over estimation factor von 0.8 erreicht wurden.
- Quote paper
- Christian Siegwart (Author), 2012, Improving Speech Separation by Acoustic Echo Cancellation, Munich, GRIN Verlag, https://www.grin.com/document/207359