[Soutenance de thèse] 24/10/2024 – Lucas Druart : « Vers une Compréhension Contextuelle et Structurée de la Parole Dialogique Orientée Tâche » (UPR LIA)

Actualité recherche 16 octobre 2024

Monsieur Lucas DRUART soutiendra publiquement ses travaux de thèse intitulés : « Vers une Compréhension Contextuelle et Structurée de la Parole Dialogique Orientée Tâche » le jeudi 24 octobre 2024 à 15h00.

Date et lieu

Soutenance prévue le jeudi 24 octobre 2024 à 15h00
Lieu : 74 Rue Louis Pasteur, 84029 Avignon
Salle des thèses

Discipline

Informatique

Laboratoire

UPR 4128 LIA – Laboratoire Informatique d’Avignon

Composition du jury de soutenance

M. YANNICK ESTEVE	Avignon Université	Directeur de thèse
M. Valentin VIELZEUF	Orange	Co-encadrant de thèse
M. Frédéric BéCHET	Université Aix Marseille	Examinateur
Mme Dilek HAKKANI-TüR	University of Illinois Urbana-Champaign	Examinatrice
M. François PORTET	Université Grenoble Alpes	Rapporteur
Mme Sophie ROSSET	Laboratoire Interdisciplinaire des Sciences du Numérique	Rapporteure
M. Renato DE MORI	McGill University	Invité

Résumé

Il est essentiel de comprendre précisément les demandes de l’utilisateur pour assurer une interaction fluide avec les systèmes de Dialogues Orientés Tâche (DOT). Traditionnellement, ces systèmes adoptent des approches en cascade qui combinent la Reconnaissance Automatique de la Parole (RAP) avec la Compréhension du Language Naturel (CLN). Cependant, ces systèmes ont encore du mal à correctement associer les demandes complexes des utilisateurs avec leurs représentations internes. Des travaux récents mettent en évidence les possibilités d’amélioration de ces systèmes. D’une part, les approches de bout-en-bout ont permis d’améliorer les performances des systèmes de Compréhension de la Parole (CP). En effet, elles fournissent des prédictions plus précises et robustes en exploitant l’optimisation jointe et des informations paralinguistiques. D’autre part, des jeux de données textuels proposent des représentations sémantiques structurées. En effet, de telles représentations semblent plus adéquates pour représenter les demandes complexes des utilisateurs. Cette thèse explore ces deux directions pour une compréhension contextuelle et structurée de la parole dialogique orientée tâche. Nous menons d’abord une étude préliminaire consacrée à la CP dans le contexte des DOT. Nous avons conçu une approche en cascade pour effectuer le Suivi d’État du Dialogue (SED) parlé sur MultiWOZ. Notre approche s’est classée première dans le Speech Aware Dialogue System Technology Challenge grâce à une correction automatique des transcriptions et à de l’augmentation des données. Ensuite, nous avons proposé une nouvelle méthode pour réaliser le SED parlé de manière complètement neuronale pour MultiWOZ et SpokenWOZ. Notre approche fusionne une représentation latente du contexte textuel avec une représentation latente des derniers tours de parole afin de conditionner le décodeur d’états de dialogue. Bien qu’elle bénéficie d’optimisation jointe, en particulier dans les contextes purement audio, elle peine à propager correctement le contexte du dialogue. Enfin, en réponse à la différence de représentations sémantiques entre les jeux de données de DOT textuels et parlés, nous avons introduit le jeu de données ReMEDIATES. Celui-ci a été construit en augmentant, de manière semi-automatique, le jeu de données MEDIA avec des arbres sémantique. Le benchmark associé permet d’évaluer les modèles d’analyse sémantique des dialogues parlés avec des représentations contextuelles et structurées, ce qui ouvre des perspectives pour les défis à venir.

Mots-clés : compréhension de la parole, dialogue orientés tâche, neuronale de bout en bout

Mis à jour le 23 octobre 2024