[Soutenance de thèse] 09/12/2024 – Arthur AMALVY : « Traitement du langage naturel appliqué à la représentation de textes narratifs par réseaux de personnage » (UPR LIA)

Actualité recherche 26 novembre 2024

Arthur AMALVY soutiendra sa thèse le 9 décembre 2024 sur le thème : « Traitement du langage naturel appliqué à la représentation de textes narratifs par réseaux de personnage ».

Date et lieu

Soutenance prévue le lundi 09 décembre 2024 à 9h00
Lieu : 339 Chemin des Meinajaries, 84000 Avignon
Salle : Amphithéatre Ada Lovelace

Discipline

Informatique

Laboratoire

UPR 4128 LIA – Laboratoire Informatique d’Avignon

Composition du jury de soutenance

M. Vincent LABATUT	Avignon Université	Directeur de thèse
Mme Claire GARDENT	Université de Lorraine	Rapporteure
M. Richard DUFOUR	Université de Nantes	Co-directeur de thèse
Mme Farah BENAMARA	Université Paul Sabatier	Examinatrice
M. David BAMMAN	University of Californa, Berkeley	Examinateur
M. Christophe CERISARA	Université de Lorraine	Rapporteur

Résumé

Un réseau de personnages représente des personnages comme des sommets dans un graphe, et leurs relations comme les arêtes entre ces sommets. Dans le cas des œuvres littéraires, ils permettent de modéliser un récit entier en utilisant un seul objet mathématique. En fonction des besoins, leurs arêtes peuvent représenter différents types d’interactions : co-occurrence, conversation, action directe… De plus, les changements temporels dans les relations peuvent être modélisés avec des réseaux dynamiques. Grâce à cette flexibilité, les réseaux de personnages ont été utilisés pour s’attaquer à plusieurs tâches, comme la classification de genre littéraire, la segmentation de récit, la recommandation ou le résumé automatique. Extraire ces réseaux manuellement est cependant coûteux, et de nombreux chercheurs sont donc intéressés par l’automatisation de ce processus. Cette automatisation nécessite de résoudre différentes tâches de traitement du langage naturel telles que la reconnaissance d’entités nommées (REN), la résolution de coréférences ou l’attribution de locuteur.

Dans cette thèse, nous présentons des contributions à ce processus d’extraction automatique dans le cas des romans, ainsi qu’à des applications des réseaux de personnages. Nous proposons Renard, un pipeline d’extraction modulaire que nous mettons à disposition sous une licence libre. Nous l’utilisons pour mieux comprendre la performance des pipelines existants en étudiant l’impact des erreurs de REN et de résolution de coréférences sur la qualité des réseaux extraits. Nous observons que la performance des deux tâches est importante, et dépend fortement du roman étudié. Pour la résolution de coréférences, nous notons également que l’impact dépend du type d’erreur : la précision des liens de coréférence extraits est particulièrement importante afin de détecter des personnages. En outre, nous identifions et contribuons à deux défis des systèmes d’extraction de réseaux de personnages. Le premier est le manque de données littéraires pour entraîner ces systèmes. Nous nous nous y attaquons 1) en proposant un nouveau jeu de données littéraire couvrant la REN et la résolution d’alias et 2) en proposant d’utiliser une technique d’augmentation de données, le remplacement de mentions, dans le cas de la REN inter-domaines.

Le second défi que nous identifions est la portée limitée des modèles à base de transformers, qui peut être préjudiciable à la performance de certaines tâches. Nous proposons de récupérer du contexte pertinent au niveau du document pour atténuer le manque d’information induit par cette faible portée, et montrons que cela peut augmenter la performance de la tâche de REN. Enfin, nous présentons des contributions aux applications des réseaux de personnages dans le cadre de deux études de cas. Premièrement, nous utilisons des réseaux modélisant différents types d’interactions dans une analyse de Lorenzaccio d’Alfred de Musset. En utilisant la détection de communautés, nous identifions les intrigues de la pièce, quantifions leurs importances relatives et déterminons les interactions entre elles. De plus, nous proposons une méthode automatique pour détecter des conspirations. Deuxièmement, nous proposons d’employer les réseaux de personnages pour résoudre la tâche d’alignement narratif sur trois adaptations du Trône de Fer de George R. R. Martin : les romans originaux, les comics adaptés de ceux-ci et la série télévisée.

Nos résultats montrent que les méthodes basées sur les réseaux peuvent être meilleures que celles basées sur le texte, et peuvent être combinées avec ces dernières pour améliorer la performance. Nous mettons aussi en valeur l’importance de réaliser la tâche d’alignement sur des unités narratives commensurables. Dans ces deux études de cas, nous montrons l’intérêt des réseaux dynamiques.

Mots-clés : Traitement automatique du langage naturel, Apprentissage profond, Réseaux Complexes, Documents narratifs

Mis à jour le 28 novembre 2024