[Soutenance de thèse] 9/09/2024 – Gaëlle Laperrière : « Compréhension de la parole dans un contexte multilingue » (UPR LIA)

Gaëlle Laperrière soutiendra sa thèse le 9 septembre 2024 sur le thème : « Compréhension de la parole dans un contexte multilingue ».

Date et lieu

Soutenance prévue le lundi 09 septembre 2024 à 15h00
Lieu : 339 Chemin des Meinajaries, Centre d’Enseignement et de Recherche en Informatique, 84911, Avignon
Salle : Amphithéâtre Ada Lovelace

Discipline

Informatique

Laboratoire

UPR 4128 LIA – Laboratoire Informatique d’Avignon

Composition du jury de soutenance

M. Yannick ESTÈVE Avignon Université Directeur de thèse
M. Benoit FAVRE Aix-Marseille Université Rapporteur
M. Alexandre ALLAUZEN Université Paris Dauphine-PSL Rapporteur
M. Fabrice LEFÈVRE Avignon Université Examinateur
M. Marco DINARELLI Centre National de la Recherche Scientifique Examinateur
Mme Nathalie CAMELIN Le Mans Université Examinatrice
M. Philippe LANGLAIS Université de Montréal Examinateur
Mme Sahar GHANNAY Université Paris-Saclay Co-encadrante de thèse
M. Bassam JABAIAN Avignon Université Invité

Résumé

Cette thèse s’inscrit dans le cadre de l’Apprentissage Profond appliqué au domaine de la Compréhension Automatique de la Parole. Son objectif principal consiste à tirer bénéfice de données existantes dans des langues bien dotées en annotation sémantique de la parole afin de développer des systèmes de compréhension performants dans des langues moins dotées. Ces dernières années ont connu des avancées considérables dans le domaine de la traduction automatique de la parole grâce à de nouvelles approches permettant de faire converger les modalités audio et textuelle, cette dernière disposant de vastes quantités de données. Associant la compréhension de la parole à une traduction depuis une langue source naturelle vers une langue cible conceptuelle, nous considérons l’encodeur de parole SAMU-XLSR dont l’encodage enrichi sémantiquement est agnostique à la langue. Nous montrons l’impact positif de ce type d’encodeur dans un modèle neuronal de compréhension de la parole de bout-en-bout et étudions finement ses capacités d’encodage linguistique et sémantique. Cette étude se poursuit par la spécialisation de l’enrichissement de cet encodeur, dans l’objectif d’orienter son encodage vers le domaine sémantique des ensembles de données françaises MEDIA, italiennes PortMEDIA et tunisiennes TARIC-SLU. Une double spécialisation est proposée afin de préserver la faculté de l’encodeur à générer certaines abstractions sémantiques tout en limitant la perte de ses capacités cross-lingues pendant la phase classique de fine-tuning du modèle sur la tâche finale. Nos contributions ont permis de faire avancer l’état-de-l’art de la portabilité entre langues et domaines pour les ensembles de données MEDIA, PortMEDIA et TARIC-SLU. Le projet SpeechBrain a été déterminant pour l’implémentation de nos expérimentations. Nous avons apporté notre contribution à ce projet open-source par l’intégration dans sa distribution officielle d’une recette complète pour l’ensemble de données MEDIA.

Mots-clés  : Compréhension Automatique de la Parole, Apprentissage Profond, Multilinguisme, Extraction de concepts sémantiques, Représentations de la parole, Portabilité cross-lingue

Mots clés associés
soutenance de thèse