[Soutenance de thèse] 15/09/2025 – Yanis Labrak : « Les Modèles de Langage au Carrefour du Texte et de la Parole pour les Applications de Santé » (UPR LIA)

Actualité recherche 4 septembre 2025

Yanis LABRAK soutiendra publiquement ses travaux de thèse intitulés : « Les Modèles de Langage au Carrefour du Texte et de la Parole pour les Applications de Santé », dirigés par Mickaël ROUVIER le lundi 15 septembre 2025.

Date et lieu

Soutenance prévue le lundi 15 septembre 2025 à 14h00
Lieu : CERI, 339 Chem. des Meinajaries, 84000 Avignon, France
Salle : Amphithéâtre Blaise

Discipline

Informatique

Laboratoire

UPR 4128 LIA – Laboratoire Informatique d’Avignon

Composition du jury de soutenance

Mme Asma BEN ABACHA Microsoft Health AI Examinatrice
Mme Elena V. EPURE Deezer Research Examinatrice
M. Laurent BESACIER Naver Labs Europe Examinateur
M. Mickaël ROUVIER LIA, Avignon Université Co-directeur de thèse
M. Richard DUFOUR LS2N, Nantes Université Co-directeur de thèse
M. Pierre ZWEIGENBAUM LISN, Université Paris-Saclay Rapporteur
M. Philippe LANGLAIS DIRO, Université de Montréal Rapporteur
M. Julien NAVE Zenidoc Invité

Résumé

Le domaine médical présente des défis uniques en matière de traitement du langage à travers sa terminologie spécialisée, ses réglementations strictes sur les données et ses besoins critiques en information. Avec la démocratisation des modèles de langage pour assister les professionnels de santé dans leur quotidien, leur adaptation aux domaines d’application est devenue nécessaire pour faciliter leur accessibilité à un public plus large, à différentes langues et domaines, tout en réduisant le coût computationnel de leur utilisation.

D’autre part, les approches traditionnelles du traitement de la parole médicale reposent sur des systèmes en cascade qui convertissent la parole en texte, appliquent un traitement du langage naturel (TAL), et parfois régénèrent la parole. Bien que pratiques, ces systèmes perdent souvent des caractéristiques paralinguistiques essentielles à la communication clinique et souffrent de la propagation d’erreurs entre les étapes de traitement. Les récentes avancées dans la quantification des représentations vocales auto-supervisées ont créé de nouvelles possibilités d’intégration de la représentation vocale dans d’autres systèmes sans conversion intermédiaire en texte, préservant potentiellement plus de nuances communicatives.

Dans cette thèse, j’examine entre autre comment les capacités vocales peuvent être intégrées aux modèles de langage pré-entraînés basés sur le texte et possédant des connaissances liées aux domaines de la santé, en exploitant leurs connaissances médicales acquises tout en permettant un traitement direct de la parole, sans étapes intermédiaires. L’analyse des capacités d’alignement entre les représentations vocales et textuelles à différents niveaux d’abstraction ont révélé des méthodes plus optimales pour un transfert efficace de connaissances intermodales et favorisant ainsi l’apprentissage contraint par une quantité de données d’entraînement limitées, une considération cruciale étant donné les contraintes de données dans le domaine de la santé.

Mots-clés : Traitement de la Parole, Adaptation au Domaine, Transfert Intermodal, Adaptation aux domaines de la santé, Modèles de Langage, Grand Modèle de Langage (GLM)

Mots clés associés
soutenance de thèse