Cédric Gendrot


« Traitement automatique et analyse de la variation dans la parole : des mesures phonétiques sur grands corpus aux réseaux de neurones profonds »

Jury :

  • Laurent Besacier, Président, Professeur, Université Grenoble Alpes et Naver Labs Europe
  • Ann R. Bradlow, Rapporteur, Professeur, Northwestern University, Department of Linguistics
  • Corinne Fredouille, Rapporteur, Maitre de Conférences HDR, Avignon Université, UR 4128 Laboratoire Informatique d’Avignon
  • Kim Gerdes, Examinateur, Professeur, Université Paris-Saclay, UMR9015 Laboratoire Interdisciplinaire des Sciences du Numérique
  • Christine Meunier, Rapporteur, Directeur de Recherche CNRS, Aix-Marseille Université, UMR7309 Laboratoire Parole et Langage
  • François Pellegrino, Garant, Directeur de Recherche CNRS, Université Lumière Lyon 2, UMR5596 Dynamique du Langage

Résumé :

Dans ce document d’Habilitation à Diriger des Recherches sont présentées mes activités pédagogiques et académiques, ainsi que mes activités de recherche depuis mon recrutement en tant que Maitre de Conférences à l’Université Sorbonne Nouvelle en 2006. Ce résumé se concentre sur le dernier point en suivant le fil rouge de mes travaux : l’utilisation de grands corpus de parole non préparée pour des analyses phonétiques automatiques afin de mieux comprendre la variation présente dans la parole.

Dans la première section, après avoir présenté des valeurs formantiques de référence pour le français, j’ai montré des phénomènes de réduction acoustique pour toutes les voyelles en fonction de leur durée phonétique, du contexte consonantique et du style de parole. Cette réduction s’observe également dans plusieurs langues avec des contraintes phonologiques différentes. Il a été démontré au cours de ces travaux que des mesures effectuées de façon automatique sur des corpus alignés automatiquement restent cohérentes à la condition de respecter certaines précautions méthodologiques.

Dans la deuxième section, les travaux présentés ont mis en évidence l’importance de la prosodie sur la réalisation acoustique des voyelles. La position dans le mot, le syntagme accentuel et le syntagme intonatif sont trois facteurs de variation récurrents que l’on observe en français, en allemand et en espagnol.  La comparaison entre trois langues aux systèmes accentuels différents m’a permis de séparer la structure accentuelle et la structure prosodique, pouvant être mise en avant respectivement soit par des informations spectrales (formants) de façon prépondérante, soit par des paramètres prosodiques (f0 et durée).

Dans la troisième section, je me suis appliqué à traiter des phénomènes linguistiques dont la variation soulève des questions sur la séparation entre phonétique et phonologie. J’ai pu montrer dans le cadre de l’analyse du schwa que la prise en compte de multiples facteurs était possible et souhaitable dans des grands corpus. La mise en évidence de variables différentes pour la réduction du schwa vs. son élision complète a permis de conclure à des mécanismes différents, l’un phonétique et l’autre phonologique. L’analyse du /r/ français standard d’après une combinaison de corpus de données articulatoires et de grands corpus de parole a permis de considérer la forme non voisée du /r/ comme la réalisation hyper-articulée de la forme voisée, et a montré que la variation du /r/ est grandement influencée par la position prosodique et par le style de parole, en plus du contexte consonantique.  Pour finir, dans une étude postulant que /e/ et /ɛ/ sont entrés dans un processus de fusion, j’ai montré que les grands corpus avec de multiples locuteurs sont des outils parfaits pour repérer des tendances globales dans une langue malgré le maintien de variations inter-locuteurs. Ces études ont également été l’occasion de tester perceptivement les variations mesurées et ainsi valider leur pertinence dans le cadre de la communication parlée. Plusieurs aspects méthodologiques fondamentaux ainsi des méthodes innovantes sont présentés.

Dans la quatrième et dernière section, une discussion est proposée : l’utilisation des grands corpus y est comparée à celle des petits corpus de parole lue. Une remise en question des méthodes, tant pour les données que pour les analyses est également avancée et des solutions sont proposées. Mes travaux récents m’ont guidé vers la recherche de stratégies propres au locuteur et de sa caractérisation phonétique. Depuis moins de dix ans, les réseaux de neurones profonds ont bouleversé le domaine de la classification, et il paraissait indispensable d’essayer de les utiliser pour l’analyse phonétique. En ayant recours à des réseaux de neurones convolutifs (CNN) par le biais des spectrogrammes, le but était double : (1) savoir jusqu’à quel point le spectrogramme permet de caractériser le locuteur au-delà d’une analyse phonétique classique et (2) au moyen de techniques de visualisation, parvenir à localiser les zones du spectrogrammes utilisées par les CNN. Des résultats encourageants présentés dans la discussion finale donnent un aperçu de mes projets de recherche futurs.

 

Document de la HDR: https://halshs.archives-ouvertes.fr/tel-03303801/document