[Soutenance de thèse] 24/10/2025 – Lucas Maison : « Robustesse des modèles neuronaux pour le traitement automatique de la parole » (UPR LIA)
Lucas Maison soutiendra publiquement ses travaux de thèse le vendredi 24 octobre 2025, intitulés « Robustesse des modèles neuronaux pour le traitement automatique de la parole ».
Date et lieu
Soutenance prévue le vendredi 24 octobre 2025 à 13h30
Lieu : CERI, Université d’Avignon, 339 Chemin des Meinajaries, 84000 Avignon
Salle : Amphi Blaise
Discipline
Informatique
Laboratoire
UPR 4128 LIA – Laboratoire Informatique d’Avignon
Composition du jury de soutenance
M. Yannick ESTEVE | Avignon Université | Directeur de thèse |
M. Benjamin LECOUTEUX | LIG/GETALP | Rapporteur |
Mme Irina ILLINA | LORIA-INRIA | Rapporteure |
M. François CAPMAN | Thales SIX | Co-encadrant de thèse |
M. Jean-François BONASTRE | Inria Défense & Sécurité | Examinateur |
Mme Marcely ZANON BOITO | Naver Labs | Examinatrice |
Résumé
La reconnaissance automatique de la parole est devenue un outil populaire avec de nombreuses applications ; elle sert également comme étape intermédiaire pour d’autres tâches liées à la parole, telles que la compréhension du langage parlé ou la synthèse vocale. En reconnaissance automatique de la parole, le signal vocal est d’abord émis par le locuteur, transmis à travers l’environnement, avant d’être capturé par un dispositif d’enregistrement et traité par un modèle d’apprentissage automatique. Cependant, chacune de ces étapes peut être source de variabilité et entraîner des erreurs de transcription, ce qui affecte la robustesse du système. Dans cette thèse, nous étudions divers facteurs influençant le traitement de la parole par les machines. Plus précisément, nous nous concentrons sur les modèles pré-entraînés en Français et affinés pour la reconnaissance vocale. Nous commençons par présenter nos travaux sur la robustesse aux accents. À travers de nombreuses expériences, nous évaluons la résilience du modèle aux variations d’accents et explorons différentes façons de combler les écarts entre ces derniers. Nous examinons en particulier l’impact des proportions de voix accentuées dans l’ensemble d’apprentissage. En outre, nous présentons CEREALES, un nouvel ensemble de données en Français Québécois. Au-delà des accents, nous nous intéressons également à l’impact des variables démographiques sur les performances de la reconnaissance vocale. À l’aide du corpus Common Voice, nous mettons en évidence les biais du modèle et tentons de les réduire en utilisant des ensembles d’entraînement volontairement biaisés. Enfin, le dernier chapitre explore la question de la robustesse acoustique à l’aide de modèles de reconnaissance de mots-clés : nous montrons comment les performances ID et OOD sont corrélées et étudions comment les données d’entraînement ou les différents pré-traitements influencent la robustesse.
Mots-clés : robustesse, reconnaissance vocale, apprentissage auto-supervisé, apprentissage automatique, parole
Mis à jour le 16 octobre 2025