Soutenance de thèse Djegdjiga Amazouz

Études linguistiques et phonétiques du code-switching français-arabe: analyses de grands corpus et traitement automatique de la parole
03 décembre 2019, 14h0018h00
Salle Athena de la Maison de la recherche - Sorbonne Nouvelle
4 Rue des Irlandais, 75005 Paris

Elle sera présentée en français devant le jury composé de:

Rudolph Sock, LILPA/IPS, Université de Strasbourg, rapporteur
Kamel Smaili, LORIA, Université de Nancy, rapporteur
Barbara E. Bullock, University of Texas, examinatrice
Rachid Ridouane, LPP-CNRS Sorbonne Nouvelle, examinateur
Martine Adda-Decker, LPP-CNRS Sorbonne Nouvelle, directrice de thèse
Lori Lamel, LIMSI-CNRS Orsay, co-encadrante de thèse

Résumé:
Cette thèse traite du code-switching français-arabe algérien à l’aide d’outils de traitement automatique de la parole. Un corpus de 7h30 de parole de 20 locuteurs bilingues (5h de parole spontanée et 2h30 de parole lue) a été conçu, enregistré et annoté. L’un des premiers défis abordés a consisté à développer des méthodes de traitement des données telles que la segmentation en langues, la transcription du français et de l’arabe algérien. Les méthodes d’alignement automatique de la parole ont été adaptées pour traiter les données du code-switching en combinant deux systèmes d’alignement monolingues, produisant ainsi des transcriptions orthographiques et phonémiques avec des localisations temporelles dans les deux langues. Une expérience a été menée pour détecter automatiquement les changements de langue, mais cela reste un défi, en particulier pour les durées monolingues très courtes. Le second aspect de la recherche de cette thèse porte sur l’influence du système phonologique de la langue A sur la deuxième langue B dans la parole du code-switching, en l’occurrence les productions phonétiques de l’arabe et du français.

Le corpus annoté a été utilisé pour effectuer des études phonétiques sur la variation des voyelles et des consonnes en utilisant un paradigme de discrimination automatique de type ABX. Avec ce paradigme, nos résultats sur la variation de la production correspondent aux hypothèses a priori: considérant les voyelles périphériques /i, a, u/, des taux de variantes plus élevés sont mesurés en arabe algérien (40%) qu’en français (27%). Une comparaison avec des locuteurs de langue maternelle française suggère que les locuteurs bilingues ont des productions de voyelles plus conservatrices que les locuteurs natifs (34%), du moins dans le code-switching. Trois études sur la variation des consonnes ont également été menées: la gemination, l’emphatisation et le voisement. Globalement, les consonnes présentent des tendances similaires à celles des voyelles: 42% de taux de variantes pour l’arabe algérien et 30% pour le français en code-switching, contre 38% pour les natifs français. De futures études utilisant ce corpus novateur pourront contribuer à démêler l’interaction complexe entre la variation phonétique et les systèmes phonologiques chez les bilingues dans le code-switching.

Prochains événements

Voir la liste d'événements