[Soutenance de thèse] 12/12/2025 – Nathan Griot : « Vérification du locuteur dépendante du texte robuste par alignement temporel, apprentissage multitâche, adversarial et auto-supervisé » (UPR LIA)
Monsieur Nathan GRIOT soutiendra publiquement ses travaux de thèse intitulés : « Vérification du locuteur dépendante du texte robuste par alignement temporel, apprentissage multitâche, adversarial et auto-supervisé », dirigés par Monsieur Driss MATROUF et Jean-François BONASTRE, le vendredi 12 décembre 2025.
Date et lieu
Soutenance prévue le vendredi 12 décembre 2025 à 15h00
Lieu : 339 Chem. des Meinajaries, 84000 Avignon, CERI, 84000,Avignon
Salle : Amphi Ada
Discipline
Informatique
Laboratoire
UPR 4128 LIA – Laboratoire Informatique d’Avignon
Composition du jury de soutenance
| M. Driss MATROUF | Avignon Université | Directeur de thèse |
| Mme Irina ILLINA | Lorraine University | Rapporteure |
| M. Massimiliano TODISCO | EURECOM | Rapporteur |
| M. Jean-francois BONASTRE | Université d’avignon | Co-directeur de thèse |
| M. Raphael BLOUET | Ardelan | Directeur de thèse |
| M. Anthony LARCHER | Le Mans Université | Examinateur |
| M. Dehak REDA | LRE – EPITA | Examinateur |
| Mme Adda-Decker MARTINE | CNRS | Examinatrice |
Résumé
La vérification du locuteur constitue une forme naturelle et sécurisée d’authentification biométrique. Parmi ses variantes, la vérification du locuteur dépendante du texte (TD-SV) offre une protection renforcée en validant à la fois l’identité du locuteur et le contenu lexical prononcé, combinant ainsi les avantages d’une caractéristique biométrique et d’un facteur de connaissance. Malgré ces atouts, la TD-SV a suscité moins d’intérêt que son équivalent indépendant du texte. Cette thèse s’attaque à plusieurs défis clés : le manque de données adaptées, l’enchevêtrement entre les informations liées à la voix et au texte, et la nécessité d’une meilleure généralisation à travers différentes langues et conditions acoustiques. Ces problématiques sont abordées au travers de trois contributions principales. Premièrement, nous explorons l’utilisation de réseaux de neurones profonds, notamment ResNet34 associé au regroupement statistique attentionnel (Attentive Statistical Pooling), pour la validation textuelle. L’analyse des activations intermédiaires montre qu’elles conservent une information linguistique pertinente. Sur cette base, nous proposons le Comparative Attentive System (CAS), une architecture fondée sur l’alignement temporel qui combine les activations à l’échelle des trames avec le Dynamic Time Warping (DTW) afin de capturer les différences fines de contenu et de temporalité entre deux énoncés. Deuxièmement, nous introduisons une architecture multitâche unifiée exploitant l’apprentissage auto-supervisé (SSL) via WavLM et un schéma enseignant–élève. Le modèle enseignant, entraîné sur la validation textuelle au niveau de la phrase, guide l’élève à apprendre conjointement des représentations de la voix et du texte à partir de données annotées uniquement par locuteur. Cette approche permet au modèle élève d’acquérir des capacités de discrimination lexicale sans supervision explicite et de généraliser à plusieurs langues. Nous proposons également une méthode adversariale, basée sur l’inversion du gradient, pour supprimer les informations indésirables susceptibles de nuire aux performances. Enfin, nous étudions l’augmentation de données synthétiques à l’aide de techniques modernes de clonage vocal afin de pallier les limitations des corpus existants. Les expériences montrent que les modèles entraînés sur ces données artificielles atteignent des performances proches de celles obtenues avec des données réelles, démontrant ainsi le potentiel de cette approche pour la création de ressources à grande échelle. Des évaluations complètes sur les bases Common Voice, VoxCeleb et DeepMine mettent en évidence des réductions significatives du taux d’erreur égal (EER) et du Tandem-EER (T-EER), surpassant des systèmes de référence robustes en contexte multilingue. Ces résultats confirment que l’attention basée sur l’alignement, l’apprentissage multitâche auto-supervisé, l’entraînement adversarial et l’utilisation de données synthétiques constituent des stratégies efficaces pour construire des systèmes TD-SV robustes, généralisables et économes en données.
Mots-clés : locuteur, verification, text dependent, réseaux de neurones
Mis à jour le 1 décembre 2025