Quellentrennung und Störreduktion für die automatische Spracherkennung in dynamischen akustischen Szenarien
Überblick
In diesem Projekt soll die Robustheit eines Spracherkennungssystems für Sprachbedienung im Freisprechmodus mit Anwendungen im Smart Home Bereich verbessert werden. Aufbauend auf den Ergebnissen aus dem DFG-Vorgängerprojekt sollen die dort entwickelten mehrkanaligen Quellentrennungs- und Störreduktionsverfahren unter realistischen Randbedingungen hinsichtlich Störszenarien, erlaubter Latenz der Verarbeitung und Realisierbarkeit auf eingebetteten Systemen weiterentwickelt werden. Es soll ein Prototyp entwickelt werden, der unter praktischen raumakustischen Umgebungsbedingungen und typischen Anwendungsszenarien in Echtzeit mit geringer Latenz lauffähig ist und ein bereits beim Anwendungspartner existierendes Spracherkennungssystem in der erreichbaren Erkennungsrate schlägt. Als Alternative zu dem parametrischen Quellentrennungs- und Störreduktionsverfahren soll weiterhin ein Signalverbesserungsverfahren basierend auf einem neuronalen Netzwerk entwickelt werden und die Vor- und Nachteile der jeweiligen Verfahren in realistischen Anwendungsszenarien hinsichtlich erreichbarer Signalqualität, Latenz, Rechen- und Speicherressourcenbedarf, sowie Robustheit gegenüber variierenden akustischen Umgebungsbedingungen herausgearbeitet werden.
DFG-Verfahren Sachbeihilfen (Transferprojekt)
Anwendungspartner voice INTER connect GmbH
Key Facts
- Laufzeit:
- 08/2016 - 12/2021
- Gefördert durch:
- DFG
Detailinformationen
Ergebnisse
Die Verbesserung der Robustheit von automatischen Spracherkennungssystemen in schwierigen akustischen Umgebungen ist eine seit Jahren intensiv untersuchte Fragestellung. Die Problematik hat in den letzten Jahren durch das Aufkommen von sog. digitalen Assistenten (auch intelligente Lautsprecher genannt), die über Sprache aus einer Entfernung bedient werden, an Aktualität hinzugewonnen. Die Firma VIC entwickelt Sprachschnittstellen für Smart Home, aber auch für viele andere Anwendungen im industriellen Umfeld und in Nutzfahrzeugen. Sie setzt dabei auf lokale Verarbeitung statt Verarbeitung in der Cloud, was für viele Firmenkunden sehr attraktiv und für einige der genannten Anwendungsfälle essentiell ist. Bei diesen Anwendungen befindet sich der Sprecher nicht in unmittelbarer Nähe zum Mikrofon, so dass das aufgenommene Signal verhallt und von unabsichtlich aufgenommenen Störgeräuschen überlagert ist. Ausgangspunkt für die Entwicklung einer effektiven Signalverbesserungseinheit war ein in einem DFG-Vorgängerprojekt entwickeltes Verfahren zur blinden Quellentrennung. Dieses hatte als Kernkomponente ein räumliches Mischungsmodell zur Schätzung der Sprach- bzw. Sprecherpräsenzwahrscheinlichkeit für jeden einzelnen Zeit-Frequenzpunkt der Kurzzeit-Fourieranalyse des Signals. In diesem Projekt wurde dieses Verfahren weiterentwickelt und unter anderem erfolgreich beim internationalen CHiME-5 Wettbewerb eingesetzt. Der als "Guided Source Separation" bekanntgewordene Algorithmus wurde sogar in das Baselinesystem des Nachfolgewettbewerbs, CHiME-6, im Frühjahr 2020 aufgenommen. Darüber hinaus wurden während der Projektlaufzeit Entstörverfahren, die auf neuronalen Netzen beruhen, immer wichtiger. Der am Fachgebiet des Berichters entwickelte akustische Strahlformer mit einer auf einem neuronalen Netz basierenden Sprachaktivitätsschätzung wurde in Hinblick auf die Anforderungen beim Projektpartner weiterentwickelt, wobei insbesondere folgende Aspekte zu nennen sind: Das ursprüngliche O ine-Verfahren wurde zu einem Block-online-Verfahren weiterentwickelt, um die Latenz von der Spracheingabe bis zur Ausgabe der erkannten Wortfolge zu verringern und um sich bewegende Sprecher verfolgen zu können. - War das Verfahren ursprünglich zur Störgeräuschunterdrückung entwickelt worden, konnte es durch Hinzufugen einer sprecherabhängigen Netzwerkschicht zur Extraktion eines Zielsprechers aus einem Sprachgemisch verwendet werden. Dieser Ansatz wurde hier weiterentwickelt, indem räumliche Information zur besseren Trennung von Sprachsignalen von Sprechern gleichen Geschlechts verwendet wurden und indem auch hier eine Block-online Variante entwickelt wurde. - Das Zusammenspiel mit einer vorgeschalteten Enthallungskomponente wurde untersucht, und es wurden ausführliche Tests auf international verbreiteten Datenbasen, aber auch auf vom Projektpartner zur Verfügung gestellten Daten durchgeführt. Beispielimplementierungen wurden dem Projektpartner zur Verfügung gestellt. Benchmarking Neural Network Architectures for Acoustic Sensor Networks, in ITG 2018, Oldenburg, Germany, 2018 J. Ebbers, J. Heitkaemper, J. Schmalenstroeer, R. Haeb-Umbach Front-End Processing for the CHiME-5 Dinner Party Scenario, in CHiME-5 Workshop, Hyderabad, India, 2018 C. Boeddeker, J. Heitkaemper, J. Schmalenstroeer, L. Drude, J. Heymann, R. Haeb-Umbach Smoothing along Frequency in Online Neural Network Supported Acoustic Beamforming, in ITG 2018, Oldenburg, Germany, 2018 J. Heitkaemper, J. Heymann, R. Haeb-Umbach The RWTH/UPB System Combination for the CHiME 2018 Workshop, in CHiME-5 Workshop, Hyderabad, India, 2018 M. Kitza, W. Michel, C. Boeddeker, J. Heitkaemper, T. Menne, R. Schlüter, H. Ney, J. Schmalenstroeer, L. Drude, J. Heymann, R. Haeb-Umbach A Study on Online Source Extraction in the Presence of Changing Speaker Positions, in International Conference on Statistical Language and Speech Processing 2019, Ljubljana, Slovenia, 2019 J. Heitkaemper, T. Feher, M. Freitag, R. Haeb-Umbach (Siehe online unter https://doi.org/10.1007/978-3-030-31372-2_17) Guided Source Separation Meets a Strong ASR Backend: Hitachi/Paderborn University Joint Investigation for Dinner Party ASR, in Proc. of Annual Conference of the International Speech Communication Association (Interspeech), Graz, Austria, 2019 N. Kanda, C. Boeddeker, J. Heitkaemper, Y. Fujita, S. Horiguchi, R. Haeb-Umbach (Siehe online unter https://arxiv.org/abs/1905.12230) Multi-Channel Block-Online Source Extraction based on Utterance Adaptation, in Proc. of Annual Conference of the International Speech Communication Association (Interspeech), Graz, Austria, 2019 J. M. Martin-Donas, J. Heitkaemper, R. Haeb-Umbach, A. M. Gomez, A. M. Peinado SMS-WSJ: Database, performance measures, and baseline recipe for multi-channel source separation and recognition. 2019 L. Drude, J. Heitkaemper, C. Boeddeker, R. Haeb-Umbach: (Siehe online unter https://arxiv.org/abs/1910.13934) Demystifying Tasnet: A Dissecting Approach, in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 2020 J. Heitkaemper, D. Jakobeit, C. Boeddeker, L. Drude, R. Haeb-Umbach (Siehe online unter https://doi.org/10.1109/ICASSP40776.2020.9052981)Projektbezogene Publikationen (Auswahl)