[Soutenance de thèse] 26 avril 2023 – Paul-Gauthier Noé : « Représentation de la preuve pour le respect de la vie privée : inférence bayésienne, preuve compositionnelle et calibration », LIA
Date et lieu
26 avril à 14h30
Avignon Université, Campus Jean-Henri Fabre, CERI, Amphi Ada Lovelace
discipline
Informatique
Laboratoire
Laboratoire Informatique d’Avignon (LIA)
Encadrement
Jean-François Bonastre (Directeur)
Driss Matrouf (Co-encadrant)
Composition du jury de soutenance
- Frédéric Bimbot (rapporteur)
- Daniel Ramos (rapporteur)
- Isabel Trancoso (examinatrice)
- David Lovell (examinateur)
- Junichi Yamagishi (examinateur)
- Corinne Fredouille (examinatrice)
- Pierre-Michel Bousquet (examinateur)
- Jean-François Bonastre (directeur de thèse)
- Driss Matrouf (co-encadrant de thèse)
Résumé de la thèse
Le respect de la vie privée dans les technologies multimédia consiste généralement à dissimuler l’identité d’un individu. Cette thèse s’intéresse cependant au respect de la vie privée dit orienté attributs. Le but est de dissimuler l’information relative à un seul attribut de l’individu comme son sexe, sa nationalité ou son état de santé, tout en préservant les autres attributs ou caractéristiques de l’individu. Quand l’attribut à dissimuler ne peut prendre qu’une seule valeur parmi un ensemble fini de valeurs possibles, la connaissance d’un attaquant sur l’attribut est représentée par une distribution de probabilité discrète sur l’ensemble des valeurs possibles. L’inférence bayésienne décrit comment une connaissance a priori, c’est-à-dire avant d’avoir observé des données, est transformée en une connaissance a posteriori par une fonction de vraisemblance.
Dans le cas binaire, c’est-à-dire lorsque l’ensemble de valeurs possibles pour l’attribut ne contient que deux éléments, la fonction de vraisemblance peut être écrite comme le log-ratio des deux vraisemblances (LRV). Le LRV est connu en inférence bayésienne comme le poids de la preuve et informe quelle hypothèse (ou valeur de l’attribut) une observation appuie et à quel point. La formule de Bayes peut être écrite comme la somme du LRV et du log-ratio des probabilités a priori. De cette manière, la contribution de l’observation et la contribution de la connaissance a priori sont séparées dans le calcul des probabilités a posteriori.
Dans cette thèse, il est proposé que l’information relative à l’attribut, révélée par une donnée, soit représentée par une fonction de vraisemblance. Dans le cas binaire, le LRV exprime de manière intuitive la fonction de vraisemblance. Cependant, cette manière d’écrire la formule de Bayes n’est pas directement généralisable aux cas avec plus de deux hypothèses, ou valeurs de l’attribut possibles. Cette thèse propose donc de traiter les distributions de probabilité et les fonctions de vraisemblance comme des données compositionnelles. La formule de Bayes peut ainsi être réécrite comme une somme entre la contribution des données et la connaissance a priori. Les données compositionnelles vivent sur le simplexe sur lequel un espace vectoriel euclidien, connu sous le nom de géométrie d’Aitchison, peut être défini. Avec le système de coordonnées défini par l’approche isometrique-log-ratio, l’inférence bayésienne est la translation de la distribution a priori par la fonction de vraisemblance. Dans cet espace, la fonction de vraisemblance, appelée Isométrique-Log-Ratio-Vraisemblance (ILRV), est considérée comme la généralisation multidimensionnelle et multi-hypothèses du LRV. La norme du ILRV est la force de la preuve et mesure la distance entre la distribution a priori et la distribution a posteriori ce qui peut être vu comme une mesure de l’information révélée par les données.
La notion de secret parfait introduite par Claude Shannon, peut être appliquée au respect de la vie privée. Le secret parfait correspond à la situation où la distribution a posteriori de l’attaquant est égale à sa distribution a priori. De cette manière, les données n’ont fourni aucune information à l’attaquant. Le secret parfait est atteint lorsque le LRV est zéro pour les cas binaires et, par extension, lorsque le ILRV est égal au vecteur nul pour les cas non-binaires.
Pour que les ILRVs représentent correctement l’information révélée par les données, ils doivent être calibrés. Le concept de calibration est habituellement appliqué aux probabilités mais peut être appliqué aux vraisemblances. L’idempotence des LRVs calibrés et sa contrainte sur la distribution des LRVs normalement distribués sont des propriétés bien connues. Dans cette thèse, ces propriétés sont généralisées aux ILRVs pour des applications multi-hypothèses.
À partir de ces propriétés et de la nature compositionnelle des fonctions de vraisemblance, une nouvelle analyse discriminante est proposée. D’abord présentée pour des applications binaires, l’analyse discriminante plonge les vecteurs de caractéristiques en entrée dans un espace où la composante discriminante est un LRV calibré. La transformation est apprise avec un flot normalisant (normalizing flow) qui est une cascade de réseaux de neurones artificiels inversibles.
Dans cette thèse, nous proposons d’utiliser cette analyse discriminante pour le respect de la vie privée orienté attributs. La transformation étant inversible, le LRV peut être mis à zéro, avant de replonger les données dans l’espace des caractéristiques, respectant ainsi l’idée de secret parfait. Cette approche est testée sur la dissimulation du sexe du.de la locuteur.trice sur des représentations locuteur.trice issues de réseaux de neurones artificiels profonds. Une fois protégées, ces représentations sont testées sur une tâche de vérification automatique du.de la locuteur.trice et sur une tâche de conversion de la voix.
Les propriétés du LRV étant généralisables au ILRV grâce à la géométrie d’Aitchison, l’analyse discriminante proposée dans le cas binaire se généralise facilement aux cas non-binaires. De manière similaire au cas binaire, cette approche, que nous proposons et appelons Analyse Discriminante Compositionnelle, plonge les données dans un espace où les dimensions discriminantes forment une fonction de vraisemblance calibrée exprimée par l’ILRV.
L’idée d’utiliser un flot normalisant peut être expérimentée pour apprendre une transformation de calibration de LRV. Ce point est brièvement abordé à la fin de cette thèse.
Même si les travaux de cette thèse sont principalement présentés dans un contexte de sécurité des données personnelles, les notions abordées ouvrent des directions de recherche dans les domaines de la calibration des probabilités et des vraisemblances et dans l’apprentissage automatique, en particulier pour l’apprentissage de représentations interprétables de l’information.
Mis à jour le 20 avril 2023