BULB


Le projet BULB vise à soutenir la documentation des langues non écrites à l’aide de méthodes de traitement automatique de la langue et de la parole telles que la reconnaissance vocale (ASR) et la traduction automatique (MT). Nous aborderons la documentation de trois langues essentiellement non écrites de la famille bantu (Basaa, Myene et Embosi). Les principales étapes du projet sont les suivantes:
1. Pour recueillir des données à un coût raisonnable, nous utilisons une méthode en trois étapes, à la suite des travaux de S. Bird et M. Lieberman:
a. collecte d’un grand corpus de parole (100 heures) dans une communauté, contenant des énoncés variés: contes,  les dialogues et émissions radio-diffusées;
b. ré-enregistrement. La qualité sonore des enregistrements étant très spontanée et effectuée dans des environnements bruyants, un ré-enregistrement soigneusement articulé par un locuteur de référence permettra de produire des transcriptions automatiques plus précises et d’améliorer le matériel pour les études phonétique/phonologique.
c. traduction orale. La traduction est une manière naturelle de documenter une nouvelle langue; les traductions orales accéléreront le processus de documentation. Nos données bantu seront traduites en français, une langue majeure et une langue seconde dans les régions de nos communautés étudiée.
2. Les données orales collectées (les données originales en bantu et traductions françaises) contiennent l’information nécessaire pour documenter les langues étudiées. La reconnaissance vocale devrait produire automatiquement des transcriptions précises dans les langues sources et cibles et de dériver des alignements fins entre les données spontanées et ré-enregistrées très utiles pour des études phonologiques et prosodiques; et la traduction permettra de calculer des alignements entre les deux langues, afin d’accélérer les tâches principales de documentation, de description et d’analyse. Ces alignements pourront en effet s’avérer très utiles pour les études morphologiques, lexicales et l’élaboration de dictionnaires de prononciations.

Responsables scientifiques :

François YVON et Gilles ADDA (équipe TLP)

Financeur :

ANR

Montant :

216 875 €

Date de début :

Novembre 2014