[Soutenance de thèse] 2 mai 2023 – Sondes Abderrazek : « Évaluation de l’intelligibilité de la parole par apprentissage profond : vers plus d’interprétabilité en phonétique clinique », LIA

Date et lieu

2 mai à 14h
Avignon Université, Campus Jean-Henri Fabre, CERI, Amphi Ada

Discipline

Informatique

Laboratoire

Laboratoire informatique d’Avignon

Encadrement

Pr. Corinne Fredouille (directrice de thèse)

Composition du jury de soutenance

  • M. HENNEBERT Jean (Rapporteur)
  • M. LOLIVE Damien (Rapporteur)
  • MME TRANCOSO Isabel (Examinatrice)
  • MME WOISARD Virginie (Examinatrice)
  • M. LARCHER Anthony (Examinateur)
  • M. BONASTRE Jean-François (Examinateur)
  • MME FREDOUILLE Corinne (Directrice de thèse)

Résumé de la thèse

L’intelligibilité de la parole est une composante essentielle d’une communication efficace. Elle peut être définie comme le degré avec lequel le message d’un locuteur peut être compris par un auditeur. Cette capacité peut être entravée par des troubles de la parole, entraînant potentiellement une diminution de la qualité de vie pour les individus. Dans le cas du cancer de la tête et du cou, la parole peut être affectée par la présence de tumeurs dans l’appareil de production de la parole. Néanmoins, la cause principale est généralement le traitement de la tumeur, impliquant notamment la chirurgie, la radiothérapie, la chimiothérapie ou une combinaison de ces traitements. Dans de tels cas, l’évaluation de la qualité de la parole est cruciale pour évaluer le déficit de communication des patients et élaborer des plans de traitement ciblés. En pratique clinique, les mesures perceptives sont considérées comme un standard pour l’évaluation des troubles de la parole. Bien que ces mesures soient largement utilisées, elles présentent plusieurs limites, la plus importante étant leur subjectivité. Par conséquent, l’évaluation automatique des troubles de la parole s’est révélée être une alternative prometteuse aux mesures perceptives des les années 90. Dans cette thèse, nous explorons le potentiel des techniques d’apprentissage profond pour évaluer les troubles de la parole tout en abordant les limites des outils d’évaluation existants. Dans ce contexte clinique sensible où les enjeux sont élevés et la confiance primordiale, nous considérons l’explicabilité et l’interprétabilité de ces outils comme une caractéristique obligatoire plutôt qu’optionnelle. Nous proposons une méthodologie en trois étapes basée sur l’apprentissage profond et dédiée à l’évaluation interprétable de l’intelligibilité dans le contexte des troubles de la parole. Dans la première étape, nous abordons un problème majeur dans les outils automatiques actuels dédiés à l’évaluation de la parole altérée, à savoir une connaissance limitée sur la relation entre les troubles de la parole et le score d’évaluation qui en découle. À cette fin, nous mettons en place un modèle basé sur l’apprentissage profond, entraîné sur de la parole saine et dédié à une tâche intermédiaire de classification des phonèmes du Français. Ce choix méthodologique a deux vocations. La première est de tirer bénéfice des connaissances au niveau phonème apportées par la tâche de classification pour répondre au problème majeur évoqué précédemment. La seconde est en lien avec l’utilisation de la parole saine (normale). Elle permet de pallier la quantité très limitée de données pathologiques à disposition, tout en répondant aux exigences élevées en matière de quantité de données de l’apprentissage profond. Dans la deuxième étape, l’objectif majeur est de garantir le développement d’une solution interprétable, en vue de son acceptation en pratique clinique. Dans cette optique, nous étudions la capacité du modèle de classification des phonèmes à produire des connaissances pertinentes liées aux caractéristiques des troubles de la parole ciblés. Nous proposons ainsi un cadre analytique général et original, nommé Neuro-based Concept Detector – NCD, spécialement conçu pour interpréter les représentations profondes d’un modèle. Ce cadre permet de mettre en évidence au sein du modèle de classification issu de la première étape une représentation des caractéristiques acoustiques et articulatoires de la parole saine en terme de traits phonétiques, facilement interprétables en matière d’altérations en cas de troubles de la parole. Enfin, la troisième étape est consacrée à la prédiction d’un score final évaluant l’intelligibilité de la parole d’un individu. Cette étape repose sur les différents niveaux de représentation apportés par les deux étapes précédentes, permettant de mettre en relation le score d’intelligibilité prédit avec le degré d’altération de la parole au niveau phonème et traits phonétiques. Cette méthodologie globale apporte ainsi une interprétation du score d’évaluation dans le domaine de la phonétique à destination des cliniciens. Les résultats prometteurs obtenus sur une population de patients atteints de cancer de la tête et du cou laissent envisager le potentiel d’une telle méthodologie pour suivre les progrès d’une thérapie ou développer des protocoles de rééducation sur mesure qui amélioreraient la capacité du patient à communiquer efficacement et, par conséquent, sa qualité de vie. La validation de cette méthodologie en pratique clinique est l’une des nombreuses perspectives de ce travail de thèse.

Mots clés associés
soutenance de thèse