Accueil > Formation > SRPP > Programme 2017-2018

SRPP du Vendredi 4 Mai 2018

Ewan Dunbar (LLF, Université Paris-Diderot)

Titre : Reconnaissance de la parole "zéro-ressource" et modèles d’apprentissage phonétique et phonologique

Résumé :
Les systèmes de reconnaissance de la parole (ASR) sont fonctionnellement similaires à l’être humain. Ils prennent de l’audio en entrée dans une représentation basée sur une analyse spectrale, et ils sortent une séquence de mots, souvent découpés en segments. Ils diffèrent à deux égards essentiels. Pour une chose, bien sûr, les systèmes ASR ne prétendent pas respecter les modèles théoriques en phonétique et en phonologie des mécanismes et des représentations chez l’être humain, et les théories linguistiques ne sont pas contraintes par ce qui marche ou non chez les systèmes ASR. Mais, plus fondamentalement, l’apprentissage chez l’être humain est plus efficace que chez les systèmes ASR par ordre de grandeur. On estime qu’avant l’âge de 4 ans, un enfant aura entendu entre 200 et 4800 heures de parole, selon la culture ; pour arriver à une bonne performance, les systèmes ASR de pointe utilise des dizaines ou des milliers d’heures d’enregistrements pour s’entraîner. En plus, ces données sont accompagnées d’une transcription phonémique ou textuelle, ce qui est une information entièrement inaccessible à l’apprenant humain, et même les systèmes très performants ont beaucoup de difficulté à reconnaitre des locuteurs et des dialectes sur lesquels ils n’ont pas été entraînés.

La recherche en apprentissage « zéro ressource » propose d’éliminer les transcriptions de la « pipeline » ASR. Le double objectif : d’améliorer les systèmes ASR, en réduisant la dépendance sur l’annotation ; et de proposer des modèles psycholinguistique de l’apprentissage phonétique et phonologique qui utilisent le même type de données brutes accessibles à l’enfant, en prenant comme point de départ le simple défi d’avoir un système fonctionnel. Je résume les résultats du challenge « ZeroSpeech 2017 » que nous avons organisé en décembre, en les mettant dans le contexte de la problématique de la modélisation cognitive, et en faisant une comparaison avec la génération précédente de modèles psycholinguistique d’apprentissage et de perception de la parole.