Lernen tiefer Sprachrepräsentationen für die Phonetikforschung

Überblick

Neben dem linguistischen Inhalt enthält ein Sprachsignal weitere, extra/paralinguistische Informationen, wie beispielsweise Geschlecht, emotionaler Zustand, Alter, sozialer Status oder die Identität von Sprecherinnen oder Sprechern. Diese Charakteristika sind jedoch in komplexen, nicht unmittelbar transparenten Variationen des Sprachsignals verborgen und der phonetischen Forschung nur schwer zugänglich. Mit der Verbesserung, die tiefe neuronale Netze, insbesondere tiefe generative Modelle, im Bereich der Sprachsynthese und der Sprecherkonversion erzielt haben, erwarten wir, dass diese Verfahren auch zu einem nützlichen Werkzeug für die Phonetikforschung werden können.Das übergreifende Ziel dieses Vorhabens ist daher, das Potenzial tiefer generativer Modelle als Werkzeug für die phonetische Grundlagenforschung auszuloten und ggf. zu etablieren. Dabei beschränken wir uns auf die gezielte Modifikation von existierenden Sprachbeispielen, um Signale mit gewünschten dedizierten Eigenschaften zu erzeugen, und betrachten nicht die Erzeugung von Sprachstimuli auf der Basis von Text. Es sollen tiefe generative Modelle entwickelt werden, die latente Variablen aus einem Sprachsignal berechnen, welche kompakt und informativ über das zugrundeliegende Sprachsignal sind, und welche verschiedene Ursachen von Variationen im Signal in verschiedenen Dimensionen der latenten Repräsentation enkodieren. Weiterhin sollen sie eine dedizierte Manipulation des Sprachsignals entlang phonetisch plausibler Dimensionen erlauben und somit einer menschlichen Interpretation zugänglich sein. Damit soll der Phonetik ein Werkzeug in die Hand gegeben werden, welches ihr Kontrolle sowohl über grundsätzliche akustisch-phonetische Eigenschaften als auch über abstrakte Konzepte ermöglicht. Als Beispiele für solche abstrakten Konzepte werden hier die Entflechtung von vom Sprecher und vom linguistischen Inhalt hervorgerufenen Variationen im Signal sowie die Extraktion von von einem Dialekt hervorgerufenen Variationen im Signal betrachtet. Da die zu entwickelnden Verfahren datengetrieben sind, können sie jedoch auch auf andere Konzepte angewandt werden, wenn entsprechende Trainingsdaten vorhanden sind. Die Qualität und Nützlichkeit der entwickelten Methoden werden sowohl mit maschinellen Klassifikationstests als auch mit menschlichen Perzeptionsstudien bewertet, sowie durch Signalanalyse durch phonetische Expertinnen oder Experten.

DFG-Verfahren Sachbeihilfen

Antragstellerinnen / Antragsteller Professor Dr.-Ing. Reinhold Häb-Umbach; Professorin Dr. Petra Wagner

Key Facts

Laufzeit:
04/2021 - 12/2024
Gefördert durch:
DFG
Websites:
DFG-Datenbank gepris
Tiefe generative Modelle für die Phonetikforschung

Detailinformationen

Projektleitung

contact-box image

Prof. Dr. Reinhold Häb-Umbach

Nachrichtentechnik (NT) / Heinz Nixdorf Institut

Zur Person
contact-box image

Petra Wagner

Universität Bielefeld

Zur Person (Orcid.org)