Aerodynamic, articulatory and acoustic realization of French /R/

French uvular /ʁ/ is usually considered as problematic due to its variability, especially in positions such as word initial and word final.
In this presentation, physiological and aerodynamic analyses allowed us to determine its major axes of variation as well as to validate the use of several acoustic measurements.
An acoustic study is then presented on large corpora of continuous speech, so as to test the variability of French /ʁ/ in terms of the aforementioned results. Finally, a parallel with perception is drawn.

Issues in the morphology and phonology of Arabic

How different is the phonology and morphology of nontemplatic (concatenative) word formation from that of templatic (nonconcatenative) word formation ? We will focus on the Arabic verbal system, the prototypical example of templatic morphology, with the aim of deriving some of its distinctly special traits from basic principles. The key novel aspect of the approach is its focus on paradigms. The main result is that the paradigm coupled with general phonotactic constraints sets limits on the theoretically possible diversity of stems within that paradigm. The core analysis will be on Classical Arabic. However, we will bring in data from dialects which justify the approach and/or permit further theory development.

Linking perception and production in a cue-distractor paradigm (Adamantios Gafos, joint work with Kevin Roon and Chris Kirov)

When speaking words, a person must retrieve the phonological representation of a target lexical item by assembling a set of parameter values that specify the required vocal tract action.
We present a computationally explicit model of the process by which phonological production parameters are set. The model focuses on a specific task that requires the concurrent use of both speech perception and production, which in turn allows us to shed light on the nature of the representations involved in the perception-production link. Specifically, the proposed model formalizes how ongoing response planning is affected by perception and accounts for a range of results reported across previous studies. The key unit of the model is that of the dynamic field, a distribution of activation over the entire range of values associated with each representational parameter. The setting of parameter values takes place by the attainment of a stable distribution of activation over the entire field, stable in the sense that it persists even after the response cue in the above experiments has been removed. This and other properties of representations which have been taken as axiomatic in previous work are derived by the dynamics of the proposed model.

Suggested readings :
- Roon and Gafos, in press, Perceiving while producing. Journal of Memory and Language. http://www.sciencedirect.com/science/article/pii/S0749596X16000073
- Schoner et Erlhagen 2002 Dynamic field theory of movement preparation. Psychol Rev. 2002 Jul ;109(3):545-72

Kinematics and dynamics of gesture (joint work with Tanner Sorensen)

We propose a theory of gestural timing. It is a theory of how a gesture determines change in vocal tract state (e.g., change in constriction degree) based on the vocal tract state. A core postulate of the theory is that no executive time-keeper determines change in vocal tract state. That is, it is a theory of intrinsic timing. We compare the theory against others in which an executive time-keeper determines change in vocal tract state. Theories which employ an executive time-keeper have been proposed to correct for disparities between theoretically predicted and experimentally observed velocity profiles. Such theories of extrinsic timing make the gesture a nonautonomous dynamical system. For a nonautonomous dynamical system, the change in state depends not just on the state, but also on time. We show that this nonautonomous extension makes surprisingly weak kinematic predictions both qualitatively and quantitatively. We propose instead that the gesture is a theoretically simpler nonlinear autonomous dynamical system. For the proposed nonlinear autonomous dynamical system, the change in state depends nonlinearly on the state (and does not depend on time). This new theory provides formal expression to the notion of intrinsic timing. Furthermore, it predicts experimentally specific relations among kinematic variables which we can verify in datasets we have examined.

Suggested readings :

- Fowler, C. A. (1980). Coarticulation and theories of extrinsic timing. Journal of Phonetics 8, 113–33.
- Mottet, D., & Bootsma, R. J. (1999). The dynamics of goal-directed rhythmical aiming. Biological cybernetics 80(4), 235-245.
http://diabeto.enseeiht.fr/download/handwriting/Mottet_Bootsma.pdf

Phonetic nomograms for abstract phonological units (joint work with Jason Shaw, Philip Hoole, Chakir Zeroual and Simon Charlow)

We pursue an analysis of the relation between qualitative syllable parses and their quantitative phonetic consequences. To do this, we express the statistics of a symbolic organization corresponding to a syllable parse in terms of continuous phonetic parameters consonantal plateau durations, vowel durations, and their variances. These parameters can be estimated from continuous phonetic data. This enables analysis of the link between symbolic phonological form and the continuous phonetics in which this form is manifest. We illustrate the predictions of different syllabic organizations and derive a number of previously experimentally observed and simulation results. Specifically, we derive the canonical phonetic manifestations of different syllabic organizations but also the result that, under certain conditions we can make precise, the phonetic indices of one organization can change to a range of values characteristic of the other, phonologically distinct organization. Finally, we explore the behavior of phonetic indices for syllabic organization by progressively increasing the size of the lexical sample and concomitantly diversifying the phonetic context over which these indices are taken.

Suggested readings :
- Shaw, J. and A. Gafos (2015). Stochastic time models of syllable structure. PLoS ONE 10(5), DOI : 10.1371/journal.pone.0124714.
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0124714
- Shaw, J., Gafos, A., Hoole, P., Zeroual, C.(2011) Dynamic invariance in the phonetic expression of syllable structure. Phonology 28, 455-490.

Aperçu phonétique et phonologique des langues du sud-ouest de la Colombie

L’exposé est divisé en trois parties. La première donne un regard sur la diversité linguistique de l’Amérique latine et de la Colombie. Après on donnera un aperçu des systèmes phonologiques des langues du sud-ouest du pays et plus particulièrement des langues nasa et nam trik. Finalement on fera une très rapide présentation d’un software développé pour supporter l’apprentissage de la langue nam trik à Totoro.

La nasalité en fon comme un marqueur de catégorie nominale

Lors de cette présentation, nous proposerons que la nasalité en fon, langue présentée comme une langue sans consonnes nasales phonologiques, serait en réalité une langue sans phonèmes nasals. La nasalité y serait en réalité un trait morphologique marquant une certaine partie des noms de la langue. En se propageant d’un nom nasalisé vers un nom non-nasalisé associés dans le cadre de la composition, elle permettrait une lexicalisation et souvent, l’attribution d’un sens non-compositionnel à l’ensemble, validant en quelque sorte son statut de nouveau nom. Lorsque les conditions phonologiques ne permettraient pas la propagation de la nasalité, le processus serait accompli par la propagation d’un suffixe flottant -i.

Modélisation globale de la production de la parole pour la synthèse articulatoire

La synthèse articulatoire consiste à simuler numériquement les phénomènes articulatoires, mécaniques, et acoustiques mis enjeu lors de la production de la parole. Située à l’opposé de l’approche concaténative, elle permet à la fois d’étudier ces phénomènes, de modifier le rendu de parole en modifiant virtuellement les paramètres physiologiques du locuteur, et également de lier les indices acoustiques à l’origine de l’identification des sons à leur origine articulatoire. L’approche globale présentée ici s’appuie sur une modélisation fine de la production de la parole à différents niveaux, à savoir une modélisation articulatoire de la déformation de la géométrie du conduit vocal au cours du temps, une modélisation mécanique aéroacoustique et géométrique de la glotte, ainsi qu’une modélisation numérique de la propagation acoustique à l’intérieur du conduit vocal.

La modélisation articulatoire s’appuie sur les premiers modes de déformation des différents articulateurs (langue, lèvres, mâchoire, vélum, et larynx) calculés à partir de leurs contours extraits de coupes médio-sagittales du conduit vocal obtenues par IRM statiques. Une nouvelle approche utilisant une reconstruction de films articulatoires à haute définition spatio-temporelle obtenus par IRM sera également présentée. Une vue médio-sagittale du conduit vocal est ainsi modélisée à l’aide d’un petit nombre de paramètres.

Ensuite un modèle de glotte est spécialement conçu pour reproduire le caractère auto-entretenu des oscillations des plis vocaux. Ainsi, leurs mouvements sont pilotés par les conditions aéroacoustiques au voisinage de la glotte. Le modèle présenté permet également l’ajout en parallèle d’une fente glottique nécessaire à la simulation de fricatives voisées ou de voix soufflées. La propagation acoustique au sein du conduit vocal est alors assurée à l’aide d’une méthode de résolution des équations de l’acoustique à chaque pas temporel. Elle se base sur l’analogie électrique-acoustique de Maeda adaptée à un réseau de guides d’onde.

Enfin, des exemples de synthèse par copie sont présentés. Ils ont pour but de reproduire la parole naturelle d’un locuteur à partir de l’acquisition simultanée du signal audio et des images du conduit vocal ou de l’estimation des données géométriques du conduit vocal par l’intermédiaire de techniques inverses.


Title :
Global modeling of speech production for articulatory synthesis

Abstract :
Articulatory synthesis consists in the numerical simulation of the articulatory, mechanical and acoustic phenomena involved in speech production. Unlike the concatenative approach, it enables these phenomena to be investigated, the speech signal to be specifically designed by virtually modifying the physiological parameters of the speaker, and the acoustic clues of natural speech to be related to their articulatory origin. The global approach that is presented is based on fine modelings of speech production at several levels, namely an articualtory modeling of the deformation of the vocal tract shape as a function of time, a mechanical and geometric modeling of the glottis, as well as a numeric modeling of the acoustic propagation inside the vocal tract.

The articulatory modeling is based on the first deformation modes of the articulators (tongue, lips, jaw, velum, and larynx) computed from the contours extracted from midsagittal slices of the vocal tract obtained from static MRI. A new approach using reconstruction of articulatory films with high spatiotemporal resolution obtained by cineMRI is also presented. The midsagittal shape of the vocal tract is then modeled thanks to a small amount of parameters.

Then, a glottis model is designed in order to reproduce the self-sustaining nature of the vocal folds oscillations. Thus, their movements are driven by the aeroacoustic conditions at the glottis vicinity. The presented model allows a parallel glottal chink to be integrated to accurately simulate voiced fricatives and breathy voices. Acoustic propagation inside the vocal tract is guaranteed by solving the acoustic equations at each time step. It is based on the electric-analogy by Maeda that is adapted to a waveguide network.

Finally, a few examples of copy synthesis are presented. They aim at reproducing the natural speech of a speaker from the simultaneous acquisition of the audio signal and images of the vocal tract, or by recovering the geometry of the vocal tract using inverse techniques.

SRPP dédié à la linguistique africaine

14h00-15h30 :
Firmin Ahoua, Président de la SLAO (Univ. Houphouët Boigny, Abidjan) & Rémy
Bôle-Richard, Besançon : Vers la reconstruction du proto-potou

15h30-16h00 : pause

16h00-18h00 :
Table ronde, avec les communications de :
Constantine Yuka, Secrétaire de la SLAO, Univ. du Benin, Nigeria :
Refocusing the study of African languages : An agreement-based approach
Eno-Abasi Urua & Moses Ekpenyong, Univ. d’Uyo (Nigeria) :
Naming and Trending Name Patterns among the Ibibio of Nigeria.

Prise de données aérodyamiques : principes, méthodes de mesures et d’analyse.

La présentation discutera des principes fondamentaux à connaître sur l’aérodynamique de la parole : pression et volume, pression et masse d’air, débit d’air, vélocité des particules, intensité de la turbulence, effet de Bernoulli et principes de mesure des paramètres aérodynamiques. Les conséquences phonologiques de ces paramètres seront discutées pour des sons particuliers : implosives sonores et sourdes en fulfulde, éjectives en amharique, nasales et nasalisation en guarani ainsi que les types phonatoires en nasa yuwe.
Quelques éléments à connaître sur la calibration et la quantification des données avec l’appareil EVA seront présentés avant une démonstration de prise de données (débit d’air oral, nasal et pression pharyngale synchronisés avec un enregistrement acoustique et d’électroglottographe).