[Soutenance de thèse] 24/10/2024 – Lucas Druart : « Vers une Compréhension Contextuelle et Structurée de la Parole Dialogique Orientée Tâche » (UPR LIA)
Monsieur Lucas DRUART soutiendra publiquement ses travaux de thèse intitulés : « Vers une Compréhension Contextuelle et Structurée de la Parole Dialogique Orientée Tâche » le jeudi 24 octobre 2024 à 15h00.
Date et lieu
Soutenance prévue le jeudi 24 octobre 2024 à 15h00
Lieu : 74 Rue Louis Pasteur, 84029 Avignon
Salle des thèses
Discipline
Informatique
Laboratoire
UPR 4128 LIA – Laboratoire Informatique d’Avignon
Composition du jury de soutenance
M. YANNICK ESTEVE | Avignon Université | Directeur de thèse |
M. Valentin VIELZEUF | Orange | Co-encadrant de thèse |
M. Frédéric BéCHET | Université Aix Marseille | Examinateur |
Mme Dilek HAKKANI-TüR | University of Illinois Urbana-Champaign | Examinatrice |
M. François PORTET | Université Grenoble Alpes | Rapporteur |
Mme Sophie ROSSET | Laboratoire Interdisciplinaire des Sciences du Numérique | Rapporteure |
M. Renato DE MORI | McGill University | Invité |
Résumé
Il est essentiel de comprendre précisément les demandes de l’utilisateur pour assurer une interaction fluide avec les systèmes de Dialogues Orientés Tâche (DOT). Traditionnellement, ces systèmes adoptent des approches en cascade qui combinent la Reconnaissance Automatique de la Parole (RAP) avec la Compréhension du Language Naturel (CLN). Cependant, ces systèmes ont encore du mal à correctement associer les demandes complexes des utilisateurs avec leurs représentations internes. Des travaux récents mettent en évidence les possibilités d’amélioration de ces systèmes. D’une part, les approches de bout-en-bout ont permis d’améliorer les performances des systèmes de Compréhension de la Parole (CP). En effet, elles fournissent des prédictions plus précises et robustes en exploitant l’optimisation jointe et des informations paralinguistiques. D’autre part, des jeux de données textuels proposent des représentations sémantiques structurées. En effet, de telles représentations semblent plus adéquates pour représenter les demandes complexes des utilisateurs. Cette thèse explore ces deux directions pour une compréhension contextuelle et structurée de la parole dialogique orientée tâche. Nous menons d’abord une étude préliminaire consacrée à la CP dans le contexte des DOT. Nous avons conçu une approche en cascade pour effectuer le Suivi d’État du Dialogue (SED) parlé sur MultiWOZ. Notre approche s’est classée première dans le Speech Aware Dialogue System Technology Challenge grâce à une correction automatique des transcriptions et à de l’augmentation des données. Ensuite, nous avons proposé une nouvelle méthode pour réaliser le SED parlé de manière complètement neuronale pour MultiWOZ et SpokenWOZ. Notre approche fusionne une représentation latente du contexte textuel avec une représentation latente des derniers tours de parole afin de conditionner le décodeur d’états de dialogue. Bien qu’elle bénéficie d’optimisation jointe, en particulier dans les contextes purement audio, elle peine à propager correctement le contexte du dialogue. Enfin, en réponse à la différence de représentations sémantiques entre les jeux de données de DOT textuels et parlés, nous avons introduit le jeu de données ReMEDIATES. Celui-ci a été construit en augmentant, de manière semi-automatique, le jeu de données MEDIA avec des arbres sémantique. Le benchmark associé permet d’évaluer les modèles d’analyse sémantique des dialogues parlés avec des représentations contextuelles et structurées, ce qui ouvre des perspectives pour les défis à venir.
Mots-clés : compréhension de la parole, dialogue orientés tâche, neuronale de bout en bout
Mis à jour le 23 octobre 2024