[Soutenance de thèse] 26/11/2025 – Andrea Fox : « Apprentissage par renforcement pour l’affectation des ressources dans les systèmes Edge/Fog computing » (UPR LIA)
Monsieur Andrea FOX soutiendra publiquement ses travaux de thèse intitulés : « Apprentissage par renforcement pour l’affectation des ressources dans les systèmes Edge/Fog computing », dirigés par Monsieur Francesco DE PELLEGRINI et Monsieur Eitan ALTMAN, le mercredi 26 novembre 2025 à 13h00.
Date et lieu
Soutenance prévue le mercredi 26 novembre 2025 à 13h00
Lieu : Avignon Université, site centre-ville, Campus Hannah Arendt
Salle des thèses
Discipline
Informatique
Laboratoire
UPR 4128 LIA – Laboratoire Informatique d’Avignon
Composition du jury de soutenance
| M. Francesco DE PELLEGRINI | Avignon Université | Directeur de thèse |
| Mme Rosa FIGUEIREDO | Avignon Université | Examinatrice |
| M. Nahum SHIMKIN | Technion | Examinateur |
| M. Eitan ALTMAN | INRIA | Co-directeur de thèse |
| M. Bruno GAUJAL | INRIA | Examinateur |
| M. György DÁN | KTH | Rapporteur |
| M. Marcello RESTELLI | Politecnico di Milano | Rapporteur |
Résumé
Cette thèse étudie comment le reinforcement learning (RL) peut être appliqué à la conception de systèmes de décision intelligents pour la gestion des ressources dans le cadre de l’informatique en périphérie de réseau (edge computing). Elle se concentre sur le développement d’algorithmes adaptés aux environnements distribués, hétérogènes et limités en ressources. Dans le paradigme de l’informatique en périphérie, le traitement et la prise de décision sont rapprochés des dispositifs terminaux, réduisant la latence et la charge réseau, mais introduisant de fortes contraintes en calcul, énergie et communication. Contrairement au cloud, ces nœuds de bord rendent l’optimisation centralisée inapplicable. Une orchestration efficace requiert donc des méthodes de contrôle adaptatives et décentralisées, capables de respecter des contraintes de performance et de sûreté dans des environnements incertains. Le RL s’inscrit naturellement dans ce cadre : en apprenant par interaction, les agents s’adaptent à des conditions dynamiques et optimisent des objectifs de long terme même en l’absence de modèle complet du système. La thèse est structurée en trois parties. La première présente les fondements du RL et propose une contribution originale sur la coordination multi-agent ; les deuxième et troisième parties appliquent ces idées à deux problèmes classiques de gestion des ressources — le déchargement de tâches (task offloading) et la répartition de charge (load balancing) — dans le contexte contraint de l’edge computing. La première partie revoit les bases du RL, notamment les Markov decision processes, le constrained RL et les formulations multi-agent. Elle introduit le cadre C3-IPPO (Communication-free Constrained Coordination with Independent PPO), un algorithme lagrangien à trois échelles de temps où chaque agent apprend une politique locale contrainte tout en ajustant un paramètre interne. La coordination émerge implicitement, sans communication explicite ni partage de récompenses. Les expériences sur le benchmark Melting Pot montrent que C3-IPPO atteint des comportements coopératifs comparables aux méthodes basées sur la communication, tout en restant entièrement décentralisé et évolutif. La deuxième partie applique le RL au déchargement de tâches dans le mobile edge computing. Les dispositifs doivent décider s’ils traitent localement ou envoient leurs données à un serveur de bord, en équilibrant latence, consommation d’énergie et fraîcheur de l’information (Age of Information, AoI). Une première étude formule le problème pour un seul dispositif et introduit Ordered Q-Learning, un algorithme léger exploitant la structure monotone de la politique optimale, qui accélère l’apprentissage tout en préservant les garanties de convergence du Q-learning. Le cadre est ensuite étendu à plusieurs dispositifs partageant un même serveur, à l’aide d’un schéma de RL contraint décentralisé inspiré de C3-IPPO. La troisième partie traite de la répartition de charge sous contraintes fortes du système, en distinguant (i) les limites de capacité des liens de communication et (ii) celles des serveurs. Dans le premier cas, des politiques sûres issues de la théorie des files d’attente sont adaptées à l’edge computing et demeurent stables même en régime de forte charge. Dans le second, le problème est formulé comme une tâche de RL contraint, donnant naissance à DRCPO (Decomposed Reward Constrained Policy Optimization), un algorithme apprenant des décisions d’admission et d’équilibrage tout en garantissant la satisfaction des contraintes de sécurité. Dans l’ensemble, la thèse montre que la combinaison du RL avec des informations structurelles et des mécanismes de contrainte permet de concevoir des solutions adaptatives, fiables et décentralisées. Elle met également en évidence la complémentarité entre les approches d’apprentissage et les méthodes analytiques classiques pour la gestion efficace des ressources dans les systèmes distribués modernes.
Mots-clés : Edge/fog computing, Reinforcement Learning, Processus de décision de Markov avec contraintes
Mis à jour le 13 novembre 2025