CNRS

Rechercher




Accueil > Formation > SRPP > Programme 2015-2016

SRPP du Vendredi 5 Février 2016

Benjamin Elie (Loria, Inria/CNRS/Université de Lorraine)

mis à jour le 5 février 2016

Intervenant : Benjamin Elie (Loria, Inria/CNRS/Université de Lorraine)

Titre : Modélisation globale de la production de la parole pour la synthèse articulatoire

Résumé :
La synthèse articulatoire consiste à simuler numériquement les phénomènes articulatoires, mécaniques, et acoustiques mis enjeu lors de la production de la parole. Située à l’opposé de l’approche concaténative, elle permet à la fois d’étudier ces phénomènes, de modifier le rendu de parole en modifiant virtuellement les paramètres physiologiques du locuteur, et également de lier les indices acoustiques à l’origine de l’identification des sons à leur origine articulatoire. L’approche globale présentée ici s’appuie sur une modélisation fine de la production de la parole à différents niveaux, à savoir une modélisation articulatoire de la déformation de la géométrie du conduit vocal au cours du temps, une modélisation mécanique aéroacoustique et géométrique de la glotte, ainsi qu’une modélisation numérique de la propagation acoustique à l’intérieur du conduit vocal.

La modélisation articulatoire s’appuie sur les premiers modes de déformation des différents articulateurs (langue, lèvres, mâchoire, vélum, et larynx) calculés à partir de leurs contours extraits de coupes médio-sagittales du conduit vocal obtenues par IRM statiques. Une nouvelle approche utilisant une reconstruction de films articulatoires à haute définition spatio-temporelle obtenus par IRM sera également présentée. Une vue médio-sagittale du conduit vocal est ainsi modélisée à l’aide d’un petit nombre de paramètres.

Ensuite un modèle de glotte est spécialement conçu pour reproduire le caractère auto-entretenu des oscillations des plis vocaux. Ainsi, leurs mouvements sont pilotés par les conditions aéroacoustiques au voisinage de la glotte. Le modèle présenté permet également l’ajout en parallèle d’une fente glottique nécessaire à la simulation de fricatives voisées ou de voix soufflées. La propagation acoustique au sein du conduit vocal est alors assurée à l’aide d’une méthode de résolution des équations de l’acoustique à chaque pas temporel. Elle se base sur l’analogie électrique-acoustique de Maeda adaptée à un réseau de guides d’onde.

Enfin, des exemples de synthèse par copie sont présentés. Ils ont pour but de reproduire la parole naturelle d’un locuteur à partir de l’acquisition simultanée du signal audio et des images du conduit vocal ou de l’estimation des données géométriques du conduit vocal par l’intermédiaire de techniques inverses.


Title :
Global modeling of speech production for articulatory synthesis

Abstract :
Articulatory synthesis consists in the numerical simulation of the articulatory, mechanical and acoustic phenomena involved in speech production. Unlike the concatenative approach, it enables these phenomena to be investigated, the speech signal to be specifically designed by virtually modifying the physiological parameters of the speaker, and the acoustic clues of natural speech to be related to their articulatory origin. The global approach that is presented is based on fine modelings of speech production at several levels, namely an articualtory modeling of the deformation of the vocal tract shape as a function of time, a mechanical and geometric modeling of the glottis, as well as a numeric modeling of the acoustic propagation inside the vocal tract.

The articulatory modeling is based on the first deformation modes of the articulators (tongue, lips, jaw, velum, and larynx) computed from the contours extracted from midsagittal slices of the vocal tract obtained from static MRI. A new approach using reconstruction of articulatory films with high spatiotemporal resolution obtained by cineMRI is also presented. The midsagittal shape of the vocal tract is then modeled thanks to a small amount of parameters.

Then, a glottis model is designed in order to reproduce the self-sustaining nature of the vocal folds oscillations. Thus, their movements are driven by the aeroacoustic conditions at the glottis vicinity. The presented model allows a parallel glottal chink to be integrated to accurately simulate voiced fricatives and breathy voices. Acoustic propagation inside the vocal tract is guaranteed by solving the acoustic equations at each time step. It is based on the electric-analogy by Maeda that is adapted to a waveguide network.

Finally, a few examples of copy synthesis are presented. They aim at reproducing the natural speech of a speaker from the simultaneous acquisition of the audio signal and images of the vocal tract, or by recovering the geometry of the vocal tract using inverse techniques.