Source separation and interference reduction for automatic speech recognition in dynamic acoustic environments (Transfer Project)

Overview

This project is dedicated to a holistic approach for speech enhancement, separation and recognition in an automatic house environment. Financed by the “Deutsche Forschungsgemeinschaft” (DFG) a new system is researched combining the hand-on experience from a third-party company with the recent scientific advances in speech enhancement through deep learning at the Department of Communications Engineering (EIM-E/NT) . As basis for the speech enhancement and separation task a spectral masking beamformer inspired by an approach developed in our department is considered.

Key Facts

Project duration:
08/2016 - 12/2021
Funded by:
DFG
Websites:
DFG-Datenbank gepris
Abgeschlossene Projekte des Fachgebietes

More Information

Principal Investigators

contact-box image

Prof. Dr. Reinhold Häb-Umbach

Communications Engineering / Heinz Nixdorf Institute

About the person

Cooperating Institutions

voice INTER connect GmbH

Cooperating Institution

Go to website

Results

Die Verbesserung der Robustheit von automatischen Spracherkennungssystemen in schwierigen akustischen Umgebungen ist eine seit Jahren intensiv untersuchte Fragestellung. Die Problematik hat in den letzten Jahren durch das Aufkommen von sog. digitalen Assistenten (auch intelligente Lautsprecher genannt), die über Sprache aus einer Entfernung bedient werden, an Aktualität hinzugewonnen. Die Firma VIC entwickelt Sprachschnittstellen für Smart Home, aber auch für viele andere Anwendungen im industriellen Umfeld und in Nutzfahrzeugen. Sie setzt dabei auf lokale Verarbeitung statt Verarbeitung in der Cloud, was für viele Firmenkunden sehr attraktiv und für einige der genannten Anwendungsfälle essentiell ist. Bei diesen Anwendungen befindet sich der Sprecher nicht in unmittelbarer Nähe zum Mikrofon, so dass das aufgenommene Signal verhallt und von unabsichtlich aufgenommenen Störgeräuschen überlagert ist. Ausgangspunkt für die Entwicklung einer effektiven Signalverbesserungseinheit war ein in einem DFG-Vorgängerprojekt entwickeltes Verfahren zur blinden Quellentrennung. Dieses hatte als Kernkomponente ein räumliches Mischungsmodell zur Schätzung der Sprach- bzw. Sprecherpräsenzwahrscheinlichkeit für jeden einzelnen Zeit-Frequenzpunkt der Kurzzeit-Fourieranalyse des Signals. In diesem Projekt wurde dieses Verfahren weiterentwickelt und unter anderem erfolgreich beim internationalen CHiME-5 Wettbewerb eingesetzt. Der als "Guided Source Separation" bekanntgewordene Algorithmus wurde sogar in das Baselinesystem des Nachfolgewettbewerbs, CHiME-6, im Frühjahr 2020 aufgenommen. Darüber hinaus wurden während der Projektlaufzeit Entstörverfahren, die auf neuronalen Netzen beruhen, immer wichtiger. Der am Fachgebiet des Berichters entwickelte akustische Strahlformer mit einer auf einem neuronalen Netz basierenden Sprachaktivitätsschätzung wurde in Hinblick auf die Anforderungen beim Projektpartner weiterentwickelt, wobei insbesondere folgende Aspekte zu nennen sind: Das ursprüngliche O ine-Verfahren wurde zu einem Block-online-Verfahren weiterentwickelt, um die Latenz von der Spracheingabe bis zur Ausgabe der erkannten Wortfolge zu verringern und um sich bewegende Sprecher verfolgen zu können. - War das Verfahren ursprünglich zur Störgeräuschunterdrückung entwickelt worden, konnte es durch Hinzufugen einer sprecherabhängigen Netzwerkschicht zur Extraktion eines Zielsprechers aus einem Sprachgemisch verwendet werden. Dieser Ansatz wurde hier weiterentwickelt, indem räumliche Information zur besseren Trennung von Sprachsignalen von Sprechern gleichen Geschlechts verwendet wurden und indem auch hier eine Block-online Variante entwickelt wurde. - Das Zusammenspiel mit einer vorgeschalteten Enthallungskomponente wurde untersucht, und es wurden ausführliche Tests auf international verbreiteten Datenbasen, aber auch auf vom Projektpartner zur Verfügung gestellten Daten durchgeführt. Beispielimplementierungen wurden dem Projektpartner zur Verfügung gestellt.


Projektbezogene Publikationen (Auswahl)


Benchmarking Neural Network Architectures for Acoustic Sensor Networks, in ITG 2018, Oldenburg, Germany, 2018

J. Ebbers, J. Heitkaemper, J. Schmalenstroeer, R. Haeb-Umbach


Front-End Processing for the CHiME-5 Dinner Party Scenario, in CHiME-5 Workshop, Hyderabad, India, 2018

C. Boeddeker, J. Heitkaemper, J. Schmalenstroeer, L. Drude, J. Heymann, R. Haeb-Umbach


Smoothing along Frequency in Online Neural Network Supported Acoustic Beamforming, in ITG 2018, Oldenburg, Germany, 2018

J. Heitkaemper, J. Heymann, R. Haeb-Umbach


The RWTH/UPB System Combination for the CHiME 2018 Workshop, in CHiME-5 Workshop, Hyderabad, India, 2018

M. Kitza, W. Michel, C. Boeddeker, J. Heitkaemper, T. Menne, R. Schlüter, H. Ney, J. Schmalenstroeer, L. Drude, J. Heymann, R. Haeb-Umbach


A Study on Online Source Extraction in the Presence of Changing Speaker Positions, in International Conference on Statistical Language and Speech Processing 2019, Ljubljana, Slovenia, 2019

J. Heitkaemper, T. Feher, M. Freitag, R. Haeb-Umbach

(Siehe online unter https://doi.org/10.1007/978-3-030-31372-2_17)


Guided Source Separation Meets a Strong ASR Backend: Hitachi/Paderborn University Joint Investigation for Dinner Party ASR, in Proc. of Annual Conference of the International Speech Communication Association (Interspeech), Graz, Austria, 2019

N. Kanda, C. Boeddeker, J. Heitkaemper, Y. Fujita, S. Horiguchi, R. Haeb-Umbach

(Siehe online unter https://arxiv.org/abs/1905.12230)


Multi-Channel Block-Online Source Extraction based on Utterance Adaptation, in Proc. of Annual Conference of the International Speech Communication Association (Interspeech), Graz, Austria, 2019

J. M. Martin-Donas, J. Heitkaemper, R. Haeb-Umbach, A. M. Gomez, A. M. Peinado


SMS-WSJ: Database, performance measures, and baseline recipe for multi-channel source separation and recognition. 2019

L. Drude, J. Heitkaemper, C. Boeddeker, R. Haeb-Umbach:

(Siehe online unter https://arxiv.org/abs/1910.13934)


Demystifying Tasnet: A Dissecting Approach, in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 2020

J. Heitkaemper, D. Jakobeit, C. Boeddeker, L. Drude, R. Haeb-Umbach

(Siehe online unter https://doi.org/10.1109/ICASSP40776.2020.9052981)