[Soutenance de thèse] 18/01/2024, Noé Cécillon : « Combinaison des graphes et du texte pour la modélisation de conversations: Application à la détection d’abus en ligne »

Actualité recherche 15 janvier 2024

Titre de la thèse

Combinaison des graphes et du texte pour la modélisation de conversations: Application à la détection d’abus en ligne

Date et lieu

Jeudi 18 janvier 2024 à 14h00

Centre d’Enseignement et de Recherche en Informatique 339 Chemin des Meinajaries, 84000 Avignon
Salle : Amphithéâtre ADA

Discipline

Informatique

Laboratoire

Laboratoire Informatique d’Avignon

Encadrement

Monsieur Vincent LABATUT
Monsieur Richard DUFOUR

Composition du jury de soutenance

M. Vincent LABATUT Avignon Université Directeur de thèse
Mme Irina ILLINA Université de Lorraine Rapporteure
M. Richard DUFOUR Nantes Université Co-directeur de thèse
M. Julien VELCIN Université Lyon 2 Rapporteur
Mme Serena VILLATA CNRS – Université Côte d’Azur Examinatrice
M. Harold MOUCHERE Nantes Université Examinateur

Résumé de la thèse

Les comportements abusifs en ligne peuvent avoir des conséquences dramatiques sur les utilisateurs et les communautés. Avec l’avènement d’internet et des réseaux sociaux, personne n’est à l’abri de ce genre de comportement. La responsabilité incombe principalement aux entreprises hébergeant ces plateformes de discussion. Celles-ci se doivent de surveiller le comportement de ses utilisateurs afin d’éviter la prolifération de propos abusifs. Une détection et un traitement rapide des cas abusifs est un facteur important afin de réduire leur impact et leur nombre. Cette tâche de modération impliquant d’importants coûts humains et financiers, les entreprises ont un gros intérêt à l’automatiser. La détection automatique de contenu abusif se révèle assez complexe. Par exemple, les propos implicites et l’utilisation de sous-entendus permettent souvent de ne pas se faire détecter par les méthodes automatiques standards. Pour contrer ce problème, il a été montré que prendre en compte le contexte dans lequel un message est posté permet d’améliorer la détection. Cependant la méthode la plus courante dans la littérature consiste à traiter des messages pris en dehors de leur contexte. Dans ce manuscrit, on s’intéresse plus particulièrement à la combinaison du contenu et de la structure pour la détection de contenu abusif. Utiliser le contenu textuel des messages est l’approche la plus courante. Cette méthode est facile à mettre en place, mais elle est aussi très vulnérable aux attaques basées sur le texte, notamment aux techniques d’obfuscation. La structure de la conversation, représentant le contexte, est beaucoup moins étudiée car elle est plus complexe à manipuler. Pourtant, elle permet d’introduire une notion de contexte qui permet de détecter des cas abusifs là où le texte seul n’en est pas capable. Ce contexte peut être modélisé sous la forme d’un graphe conversationnel représentant la conversation contenant le message étudié. En comparant deux méthodes construites à partir d’un procédé d’extraction de caractéristiques, nous avons montré qu’une méthode n’utilisant que des graphes conversationnels et ignorant le contenu textuel des messages était capable d’obtenir de meilleures performances. Comme suggéré dans la littérature, nous proposons plusieurs stratégies pour combiner le contenu et la structure des conversations et par nos expériences, nous prouvons que cela est en effet bénéfique pour la détection. Une limitation de ces méthodes basées sur un ensemble de mesures est qu’elles sont assez coûteuses tant en ressources informatiques qu’en temps de conception. Notre étude montre également que seule une partie des mesures calculées sont réellement importantes pour cette tâche. Les méthodes d’apprentissage de représentations peuvent être une solution à ce problème, en permettant d’apprendre automatiquement la représentation numérique d’un message ou d’un graphe conversationnel. Pour les graphes, nous avons démontré que considérer les attributs des liens, permet d’améliorer les performances. La littérature ne proposant aucune méthode de plongement de graphe entier signé, nous comblons ce vide en développant deux méthodes de ce type. Nous les évaluons sur un benchmark nouvellement créé et constitué de trois jeux de données de graphes signés, et prouvons qu’ils obtiennent de meilleurs résultats que leurs équivalents ne prenant pas en compte les signes. Finalement, nous menons une étude comparative de plusieurs méthodes de plongement lexical et de graphes pour la détection de messages abusifs en les appliquant à un jeu de données de conversations. Nos résultats montrent qu’elles sont plus efficaces que les méthodes se basant sur un ensemble de mesures pour le texte, et légèrement moins efficaces pour les graphes. Cependant, ces méthodes possèdent de nombreux autres avantages tels qu’être complètement indépendantes de la tâche, plus faciles à adapter à d’autres environnements d’utilisation, et beaucoup plus efficaces en termes de temps.

Mots-clés : Apprentissage de représentations, Détection d’abus, Conversations, Graphes

Mis à jour le 15 janvier 2024