[Soutenance de thèse] 15/09/2025 – Yanis Labrak : « Les Modèles de Langage au Carrefour du Texte et de la Parole pour les Applications de Santé » (UPR LIA)
Yanis LABRAK soutiendra publiquement ses travaux de thèse intitulés : « Les Modèles de Langage au Carrefour du Texte et de la Parole pour les Applications de Santé », dirigés par Mickaël ROUVIER le lundi 15 septembre 2025.
Date et lieu
Soutenance prévue le lundi 15 septembre 2025 à 14h00
Lieu : CERI, 339 Chem. des Meinajaries, 84000 Avignon, France
Salle : Amphithéâtre Blaise
Discipline
Informatique
Laboratoire
UPR 4128 LIA – Laboratoire Informatique d’Avignon
Composition du jury de soutenance
Mme Asma BEN ABACHA | Microsoft Health AI | Examinatrice |
Mme Elena V. EPURE | Deezer Research | Examinatrice |
M. Laurent BESACIER | Naver Labs Europe | Examinateur |
M. Mickaël ROUVIER | LIA, Avignon Université | Co-directeur de thèse |
M. Richard DUFOUR | LS2N, Nantes Université | Co-directeur de thèse |
M. Pierre ZWEIGENBAUM | LISN, Université Paris-Saclay | Rapporteur |
M. Philippe LANGLAIS | DIRO, Université de Montréal | Rapporteur |
M. Julien NAVE | Zenidoc | Invité |
Résumé
Le domaine médical présente des défis uniques en matière de traitement du langage à travers sa terminologie spécialisée, ses réglementations strictes sur les données et ses besoins critiques en information. Avec la démocratisation des modèles de langage pour assister les professionnels de santé dans leur quotidien, leur adaptation aux domaines d’application est devenue nécessaire pour faciliter leur accessibilité à un public plus large, à différentes langues et domaines, tout en réduisant le coût computationnel de leur utilisation.
D’autre part, les approches traditionnelles du traitement de la parole médicale reposent sur des systèmes en cascade qui convertissent la parole en texte, appliquent un traitement du langage naturel (TAL), et parfois régénèrent la parole. Bien que pratiques, ces systèmes perdent souvent des caractéristiques paralinguistiques essentielles à la communication clinique et souffrent de la propagation d’erreurs entre les étapes de traitement. Les récentes avancées dans la quantification des représentations vocales auto-supervisées ont créé de nouvelles possibilités d’intégration de la représentation vocale dans d’autres systèmes sans conversion intermédiaire en texte, préservant potentiellement plus de nuances communicatives.
Dans cette thèse, j’examine entre autre comment les capacités vocales peuvent être intégrées aux modèles de langage pré-entraînés basés sur le texte et possédant des connaissances liées aux domaines de la santé, en exploitant leurs connaissances médicales acquises tout en permettant un traitement direct de la parole, sans étapes intermédiaires. L’analyse des capacités d’alignement entre les représentations vocales et textuelles à différents niveaux d’abstraction ont révélé des méthodes plus optimales pour un transfert efficace de connaissances intermodales et favorisant ainsi l’apprentissage contraint par une quantité de données d’entraînement limitées, une considération cruciale étant donné les contraintes de données dans le domaine de la santé.
Mots-clés : Traitement de la Parole, Adaptation au Domaine, Transfert Intermodal, Adaptation aux domaines de la santé, Modèles de Langage, Grand Modèle de Langage (GLM)
Mis à jour le 4 septembre 2025