HALO : apprentissage de la collaboration humain-robot par optimisation de politique de Lyapunov multi-agents
Des chercheurs de Tsinghua University ont publié HALO (Heterogeneous-Agent Lyapunov Policy Optimization), un framework d'apprentissage par renforcement multi-agents (MARL) dédié à la collaboration humain-robot (HRC), disponible sur arXiv (2603.03741, version 2). Le problème ciblé est ce que les auteurs nomment le "rationality gap" (RG) : en apprentissage décentralisé, les mises à jour de politique du robot et de l'humain divergent structurellement, car l'humain n'optimise pas selon le même objectif formel que l'algorithme. Le problème d'entraînement devient alors un jeu différentiable à somme générale, où les gradients de politique indépendants peuvent osciller ou diverger sans contrainte supplémentaire. HALO résout ce verrou en imposant une contraction au sens de Lyapunov dans l'espace des paramètres de politique, via des projections quadratiques optimales qui rectifient les gradients décentralisés pour garantir une contraction monotone du RG. Les validations couvrent des simulations étendues et des expériences en conditions réelles sur des robots humanoïdes.
La contribution centrale est d'avoir transposé la certification de Lyapunov, outil classique de la théorie du contrôle pour garantir la stabilité d'un système dynamique, à la stabilisation de la dynamique d'apprentissage elle-même dans un jeu multi-agents hétérogènes. En pratique, le système peut explorer des espaces d'interaction ouverts, incluant des comportements humains imprévus, sans que l'entraînement ne diverge. Les résultats montrent une meilleure généralisation sur les cas limites collaboratifs où MAPPO ou HATRPO échouent. Pour un intégrateur déployant un humanoïde en co-manutention, cela adresse directement le gap sim-to-real : une stabilité garantie à l'entraînement se traduit par une robustesse accrue face à la variabilité comportementale humaine, condition non-négociable pour tout déploiement industriel.
Ce travail s'inscrit dans une littérature croissante sur le MARL pour HRC, où les approches CTDE (Centralized Training, Decentralized Execution) comme QMIX peinent face à l'hétérogénéité humain-robot. L'utilisation de la théorie de Lyapunov en RL existait déjà dans le safe RL pour contraindre les trajectoires d'état ; HALO l'applique à un objectif différent et moins exploré, celui de stabiliser la convergence dans un jeu multi-agents. Les détails des expériences humanoïdes en conditions réelles ne figurent pas dans le résumé et méritent une lecture approfondie avant de conclure sur la portée pratique. Le code et les résultats sont accessibles sur le site du projet, ce qui facilitera la reproductibilité. Des extensions naturelles concerneraient des équipes mixtes impliquant plusieurs humains, ou des scénarios où la politique humaine est elle-même apprise plutôt que supposée fixe.
Impact indirect pour les intégrateurs européens en co-manutention humanoïde : HALO adresse le gap sim-to-real dans les scénarios HRC, un verrou clé pour toute certification industrielle en Europe.
Dans nos dossiers



