[Soutenance de thèse] 19/12/2025 – Ahmed NJIFENJOU : « Agents conversationnels à domaine ouvert fondés sur des modèles de langue à base de transformeurs : vers le multilinguisme et la personnalité » (UPR LIA)

News Research news 8 December 2025

Monsieur Ahmed NJIFENJOU soutiendra publiquement ses travaux de thèse intitulés : « Agents conversationnels à domaine ouvert fondés sur des modèles de langue à base de transformeurs : vers le multilinguisme et la personnalité » dirigés par Monsieur Fabrice LEFEVRE, le vendredi 19 décembre 2025.

Date and place

Oral defense scheduled on vendredi 19 décembre 2025 at 2pm
Lieu :   339 chemin des Menajaries, 849111 Avignon
Salle : Amphi CERI

Discipline

Computer Science

Laboratory

UPR 4128 LIA - Avignon Computing Laboratory

Composition of the jury

M. Fabrice LEFEVRE Avignon University Thesis supervisor
Mme Lina Maria ROJAS-BARAHONA Orange Innovation Rapporteur
M. Didier SCHWAB Grenoble Alpes University Rapporteur
Sophie ROSSET Paris Saclay University Examiner
M. David TRAUM University of Southern California Examiner
Bassam JABAIAN Avignon University Thesis co-supervisor

Summary

Les systèmes de dialogues à domaines ouverts (DDO) sont des agents conversationnels (CAI) conçus pour interagir avec les humains de manière naturelle et ouverte. La prolifération de CAI telles que ChatGPT a transformé les attentes des utilisateurs : au-delà de la simple qualité syntactique, ceux-ci exigent désormais des agents capables de démontrer une compréhension contextuelle et une sensibilité culturelle, de maintenir une personnalité distincte, d’être factuels ainsi qu’avoir d’autres compétences proches de celles des humains. Malgré des avancées remarquables, le développement des systèmes de DDO continue de faire face à plusieurs limitations majeures, notamment un fort biais linguistique en faveur de l’anglais et du chinois, ainsi que par le « paradoxe du domaine ouvert » (ODP), qui stipule que la définition de ce concept restreint la diversité et l’ouverture réelles des jeux de données existants et des modèles qui en résultent. Cette thèse s’attaque à ces défis en explorant des stratégies multilingues et centrées sur la personnalité pour construire des systèmes de DDO contrôlables et culturellement adaptatifs à l’aide de grands modèles de langue (GML) basés sur les Transformers. Les contributions de cette recherche s’articulent autour des axes complémentaires suivants. Tout d’abord, nous étudions la portabilité multilingue à l’aide d’approches basées sur la Traduction Automatique (TA), en comparant deux configurations : « Train on Target » qui consiste à traduire les données sources afin d’affiner les modèles dans la langue cible et « Test on Source » qui applique une traduction au moment de l’inférence à partir des modèles de langue source. Nos résultats montrent que les modèles multilingues tels que BLOOM présentent une certaine robustesse face aux artefacts de traduction, bien que leurs performances demeurent inférieures à celles des modèles entraînés dans la langue source. Ensuite, pour surmonter les limites de la TA, nous introduisons le jeu de données MOUD, un corpus de dialogues synthétiques multilingue et culturellement nuancé, généré à l’aide de GML optimisés pour suivre des instructions. MOUD transforme des instructions de collecte de données communiquées aux humains en prompts structurés qui forcent à l’intégration des connaissances propres à chaque langue, telles que des entités nommées et des éléments de psychologie populaire liés à celles-ci, enrichissant ainsi la diversité linguistique et atténuant le ODP. Nous explorons ensuite la modélisation de la personnalité et des caractéristiques conversationnelles proches de celles de l’humain dans les agents de dialogue. Nous avons développé une approche de « role-play prompting » structurée pour simuler les comportements humains dans une conversation à domaine ouvert et proposé une nouvelle représentation vectorielle de la personnalité fondée sur le modèle dit OCEAN : Ouverte, Conscienciosité, Extraversion, Agréabilité et Névrotisme. Ces approches permettent un contrôle précis du style de dialogue et de l’expression de la personnalité. Les évaluations empiriques montrent des améliorations significatives de la perception de l’humanité des agents, leur cohérence et leur engagement dans la discussion, tout en mettant en évidence une dépendance vis-à-vis des capacités émergentes propres à chaque modèle. Afin d’atténuer cette dépendance et de tirer parti du jeu de données MOUD, nous explorons des solutions architecturales pour le transfert interlinguistique. Nous adaptons les méthodes à base d’adapters à la tâche de DDO comme point de départ et proposons une nouvelle architecture, Sem2Seq-ns, qui est une approche hybride combinant des représentations sémantiques indépendantes de la langue d’entrée avec une spécialisation neuronale au sein des couches du Transformer générant les sorties. Bien que les résultats complets soient encore attendus, nous espérons des gains de performance, en particulier pour les langues à faibles ressources non vues lors de l’affinage.

Keywords : Dialogue à domaine ouvert, Transformers, Domaine Ouvert, Modèles de langue, Multilinguisme, Personnalité

Associated key words
thesis defence