Accueil > Recherche > Projets / Contrats > Projets / Contrats en cours > ANR ARTSPEECH

ANR ARTSPEECH

Synthèse Articulatoire Phonétique

Responsable LPP  : Didier Demolin

Financement : Programme ANR : Interactions humain-machine, objets connectés, contenus numériques, données massives et connaissance (DS0707) 2015

Référence projet : ANR-15-CE23-0024

Partenaires :

  • Gipsa-lab Grenoble Images Parole Signal Automatique - UMR 5216
  • IADI IMAGERIE ADAPTATIVE DIAGNOSTIQUE ET INTERVENTIONNELLE - INSERM U947
  • LPP Laboratoire de phonétique et phonologie - UMR 7018
  • LORIA Laboratoire Lorrain de Recherche en Informatique et ses applications - UMR 7503 (Coordinateur du projet : Yves Laprie)

Durée du projet : Octobre 2015 - 42 mois

Description du projet

L’objectif est de synthétiser de la parole à partir du texte en simulant numériquement le processus physique de production de la parole chez un humain, c’est-à-dire les aspects articulatoires, aérodynamiques et acoustiques.
Les approches à base de corpus ont pris une place hégémonique en synthèse de la parole. Elles exploitent des bases de données acoustiques de très bonne qualité tout en couvrant un grand nombre d’expressions et de contextes phonétiques, ce qui suffit à produire de la parole intelligible. Malgré cela, ces approches font face à des obstacles presque insurmontables dès qu’il faut modifier des paramètres intimement liés au processus physique de production de la parole. Au contraire, une approche reposant sur la simulation du processus de production fait explicitement appel aux paramètres de la source, à l’anatomie et la géométrie du conduit vocal, ainsi qu’à une stratégie de supervision temporelle. Elle offre donc un contrôle direct de la nature de la parole synthétique.

Ce projet s’organise en 5 tâches :
1. Simulations aérodynamiques et acoustiques afin de produire le signal acoustique de parole connaissant l’aire transverse en tout point de toutes les cavités du conduit vocal.
2. Source et scenarii de coordination afin de coordonner les sources avec l’évolution temporelle de la forme du conduit vocal, ce qui est crucial lors de la production des consonnes pour assurer leur identification par des auditeurs humains.
3. Contrôle de l’évolution temporelle de la géométrie du conduit vocal afin d’anticiper la production des sons à venir et produire des gestes articulatoires réalistes.
4. Acquisition de données de production de la parole indispensables pour connaître l’activation des plis vocaux, les paramètres aérodynamiques, et la forme géométrique du conduit vocal (grâce à l’IRM à cadence élevée).
5. Architecture générale pour intégrer les différents niveaux et synthétiser un signal acoustique à partir du texte.

Le développement de simulations réalistes des processus de production de la parole sera un atout absolument déterminant pour comprendre les contributions respectives des caractéristiques anatomiques, des capacités de coordination, et du contrôle des plis vocaux dans le signal de parole. La portée de ce projet va bien au-delà de la compréhension des processus de la production de la parole et concerne la phonétique, le contrôle moteur, et dans le domaine du traitement automatique de la parole la synthèse à partir du texte.
Les applications sont très étendues. Elles concernent les situations dans lesquelles la synthèse de la parole standard n’est pas bien adaptée comme c’est le cas pour l’apprentissage des langues étrangères ou l’acquisition du langage. Ce projet ouvre aussi de nouvelles perspectives dans le domaine de la synthèse de parole expressive avec des répercutions attendues dans le cadre des agents conversationnels. Dans le domaine médical les applications portent sur les algorithmes d’acquisition IRM à cadence élevée qui concernent les organes se déformant rapidement au cours du temps, et sur les pathologies de la production de la parole, ou l’impact des interventions chirurgicales sur les plis vocaux ou le conduit vocal.

Nous avons la conviction profonde que ArtSpeech réalisera des avancées scientifiques et techniques majeures et apportera ainsi la preuve de l’intérêt de l’approche physique qu’il s’agisse d’ouvrir de nouvelles perspectives de recherche, ou d’applications très innovantes dans le domaine de la production de la parole au sens large.

Le consortium est formé de quatre équipes de recherche remarquablement complémentaires avec des expériences théoriques et pratiques de premier plan international dans les domaines de :
• la simulation aérodynamique et acoustique de la production de la parole et la modélisation de la source et de la géométrie du conduit vocal,
• l’imagerie par résonance magnétique et les autres techniques d’acquisition de données de parole.