[Soutenance de thèse] 25/04/2024 – Imen BEN-AMOR, « modélisation profonde basée sur la notion d’attributs de voix pour la reconnaissance du locuteur explicable : application au domaine criminalistique »(LIA)

Titre de la thèse

« Modélisation profonde basée sur la notion d’attributs de voix pour la reconnaissance du locuteur explicable : application au domaine criminalistique »

Date et lieu

Soutenance prévue le jeudi 25 avril 2024 à 14h00
Lieu :   339 Chem. des Meinajaries, CERI, 84000 Avignon
Salle : Amphi ADA

>> A suivre en direct sur BBB

Discipline

Informatique

Laboratoire

UPR 4128 LIA – Laboratoire Informatique d’Avignon

Chaire LIAvignon

Encadrement

  • Monsieur Jean-François BONASTRE

Composition du jury de soutenance

M. Jean-François BONASTRE Avignon Université Directeur de thèse
M. Tomi KINNUNEN University of Eastern Finland Rapporteur
M. Alessandro VINCIARELLI University of Glasgow Rapporteur
Mme Tanja SCHULTZ University Bremen Examinatrice
M. Didier MEUWLY University of Twente Examinateur
Mme Corinne FREDOUILLE Avignon Université Examinatrice

Résumé de la thèse

La Reconnaissance Automatique du Locuteur (RAL) a été intégrée dans différentes applications, allant de la sécurisation des accès ou l’identification en criminalistique. Son objectif est de déterminer automatiquement si deux échantillons vocaux proviennent du même locuteur. Les systèmes de RAL reposent principalement sur des réseaux neuronaux (DNN) complexes et présentent leurs résultats par une seule valeur. Malgré leurs performances élevées, ils sont incapables de fournir des informations sur la nature des représentations vocales utilisées, leur encodage et leur influence sur la prise de décision. Ce manque de transparence pose d’importants défis pour aborder les préoccupations éthiques et légales, en particulier dans des applications à haut risque telles que la comparaison de voix criminalistique. Cette thèse introduit une approche en trois étapes basée sur l’apprentissage profond, conçue pour fournir des résultats de RAL interprétables et explicables.

Dans la première étape, nous représentons un extrait vocal par la présence ou l’absence d’un ensemble d’attributs vocaux, partagés entre des groupes de locuteurs et sélectionnés pour être discriminants du point de vue locuteur. Cette information est encodée par un vecteur binaire où un coefficient égal à 1 indique la présence de l’attribut correspondant dans l’extrait vocal et 0 son absence. Cette représentation permet d’apporter de l’interprétabilité, tout en offrant un niveau de performance proche de celui des systèmes état de l’art (SOTA) de RAL.

La deuxième étape s’intéresse au calcul explicite du score de RAL, représenté ici par un rapport de vraisemblance (LR). Nous proposons pour cela une méthode dénommée BA-LR qui décompose le processus de calcul en sous-processus, chacun dédié à un attribut. Un LR d’attribut, est estimé pour chaque attribut en utilisant uniquement la présence ou l’absence de celui-ci et sa description, définie par trois paramètres comportementaux explicites. Le LR final est calculé comme le produit des LR d’attribut, en supposant leur indépendance. Cette estimation permet un calcul transparent du LR, associé à des explications détaillées sur la contribution de chaque attribut à la valeur finale du LR, à même d’aider les utilisateurs, tels que les juges, dans leur prise de décision.

La troisième étape est dédiée à la découverte de la nature des attributs. Nous proposons une description automatique des attributs en informations acoustiques, phonétiques et phonémiques à l’aide de différentes méthodes d’explicabilité. Les explications obtenues permettent de mieux appréhender les attributs de la voix utilisés en RAL et offrent des perspectives pour les phonéticiens. Pour valider l’efficacité de notre approche en criminalistique, nous l’avons évaluée à l’aide d’une base de données spécifique à ce domaine. Nous avons défini pour cela une approche de calibration adaptée au domaine. Les résultats démontrent la robustesse et la capacité de généralisation de BA-LR dans un contexte criminalistique. Les différentes contributions de cette thèse ouvrent une nouvelle perspective en termes d’explicabilité en RAL, en proposant d’accompagner l’inférence, le LR, par les explications nécessaires à une prise de décision transparente, avec un niveau de performance comparable aux systèmes SOTA. En criminalistique, notre approche semble prometteuse, facilitant la compréhension des éléments de décision par les experts et leur prise en compte par la cour. Elle offre également aux phonéticiens un outil pour mieux comprendre les informations vocales. Toutefois, ces résultats encourageants doivent être approfondis avec une variété de cas d’utilisation avant d’être appliqués dans des contextes réels en criminalistique, en respectant le « devoir de précaution » propre à ce domaine.

Mots-clés

Reconnaissance du locuteur, Réseaux de neurones, Explicabilité, Interprétabilité, Attributs de voix, Criminalistiques


Imen Ben Amor (chaire LIAvignon, Laboratoire Informatique d’Avignon) a remporté le « Best Paper Award » (prix du meilleur papier) lors de l’ « International Workshop on Biometrics and Forensics 2022 » (forum international sur la biométrie et la criminalistique)
Imen Ben Amor (chaire LIAvignon, Laboratoire Informatique d’Avignon) a remporté le « Best Paper Award » (prix du meilleur papier) lors de l’ « International Workshop on Biometrics and Forensics 2022 » (forum international sur la biométrie et la criminalistique)
Mots clés associés
soutenance de thèse