Aller au contenu principal
RecherchearXiv cs.RO4h

HALO : apprentissage de la collaboration humain-robot par optimisation de politique de Lyapunov multi-agents

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs de Tsinghua University ont publié HALO (Heterogeneous-Agent Lyapunov Policy Optimization), un framework d'apprentissage par renforcement multi-agents (MARL) dédié à la collaboration humain-robot (HRC), disponible sur arXiv (2603.03741, version 2). Le problème ciblé est ce que les auteurs nomment le "rationality gap" (RG) : en apprentissage décentralisé, les mises à jour de politique du robot et de l'humain divergent structurellement, car l'humain n'optimise pas selon le même objectif formel que l'algorithme. Le problème d'entraînement devient alors un jeu différentiable à somme générale, où les gradients de politique indépendants peuvent osciller ou diverger sans contrainte supplémentaire. HALO résout ce verrou en imposant une contraction au sens de Lyapunov dans l'espace des paramètres de politique, via des projections quadratiques optimales qui rectifient les gradients décentralisés pour garantir une contraction monotone du RG. Les validations couvrent des simulations étendues et des expériences en conditions réelles sur des robots humanoïdes.

La contribution centrale est d'avoir transposé la certification de Lyapunov, outil classique de la théorie du contrôle pour garantir la stabilité d'un système dynamique, à la stabilisation de la dynamique d'apprentissage elle-même dans un jeu multi-agents hétérogènes. En pratique, le système peut explorer des espaces d'interaction ouverts, incluant des comportements humains imprévus, sans que l'entraînement ne diverge. Les résultats montrent une meilleure généralisation sur les cas limites collaboratifs où MAPPO ou HATRPO échouent. Pour un intégrateur déployant un humanoïde en co-manutention, cela adresse directement le gap sim-to-real : une stabilité garantie à l'entraînement se traduit par une robustesse accrue face à la variabilité comportementale humaine, condition non-négociable pour tout déploiement industriel.

Ce travail s'inscrit dans une littérature croissante sur le MARL pour HRC, où les approches CTDE (Centralized Training, Decentralized Execution) comme QMIX peinent face à l'hétérogénéité humain-robot. L'utilisation de la théorie de Lyapunov en RL existait déjà dans le safe RL pour contraindre les trajectoires d'état ; HALO l'applique à un objectif différent et moins exploré, celui de stabiliser la convergence dans un jeu multi-agents. Les détails des expériences humanoïdes en conditions réelles ne figurent pas dans le résumé et méritent une lecture approfondie avant de conclure sur la portée pratique. Le code et les résultats sont accessibles sur le site du projet, ce qui facilitera la reproductibilité. Des extensions naturelles concerneraient des équipes mixtes impliquant plusieurs humains, ou des scénarios où la politique humaine est elle-même apprise plutôt que supposée fixe.

Impact France/UE

Impact indirect pour les intégrateurs européens en co-manutention humanoïde : HALO adresse le gap sim-to-real dans les scénarios HRC, un verrou clé pour toute certification industrielle en Europe.

Dans nos dossiers

À lire aussi

Apprentissage de la collaboration altruiste dans les systèmes multi-équipes hétérogènes
1arXiv cs.RO 

Apprentissage de la collaboration altruiste dans les systèmes multi-équipes hétérogènes

Des chercheurs ont soumis en mai 2025 sur arXiv (arXiv:2605.21723) un framework d'allocation dynamique de robots entre équipes hétérogènes, où chaque robot constitue une ressource transférable d'une équipe à l'autre en cours de mission. Le mécanisme de décision repose sur la règle de Hamilton, empruntée à la biologie évolutive : un agent "accepte" de quitter son équipe d'origine si le bénéfice collectif pondéré par la relation entre équipes dépasse le coût de transfert. Le problème d'optimisation résultant est combinatoire et démontré NP-difficile. Pour contourner ce verrou de scalabilité, les auteurs proposent une politique fondée sur un réseau de neurones sur graphe (GNN), entraîné en mode centralisé mais exécuté de façon décentralisée (paradigme CTDE, Centralized Training, Decentralized Execution). Le modèle opère sur le graphe d'interaction entre équipes et prédit à la fois les transferts de robots et les réaffectations équipe-par-équipe. La validation s'appuie sur un scénario de lutte contre des incendies simultanés, combinant simulations à grande échelle et expériences physiques réelles, avec des performances proches de l'optimal calculé. Pour les intégrateurs de flottes multi-robots, l'apport principal est la capacité à redistribuer dynamiquement des actifs hétérogènes (robots de capacités différentes) sans coordinateur central en temps réel, ce qui réduit la dépendance à une infrastructure de communication fiable. Démontrer que ce comportement altruiste peut être appris via un GNN et exécuté localement contredit l'idée selon laquelle la coordination complexe entre équipes exige impérativement une optimisation centralisée en ligne. Le passage à l'échelle est validé empiriquement, pas seulement en simulation. Ce travail s'inscrit dans la vague du Multi-Agent Reinforcement Learning (MARL), où CTDE est désormais un paradigme standard avec des baselines comme MAPPO ou QMIX. L'originalité réside dans l'emprunt explicite à l'écologie évolutive comme principe normatif, là où la plupart des approches MARL restent purement empiriques. L'article n'est pas encore évalué par des pairs (preprint arXiv). Aucun acteur industriel n'est impliqué dans cette publication académique, et aucune timeline de déploiement n'est mentionnée. Les prochaines étapes naturelles seraient une validation sur des scénarios industriels réels (entrepôts, chantiers, réponse aux catastrophes) avec des flottes robotiques hétérogènes commerciales.

RecherchePaper
1 source
Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique
2arXiv cs.RO 

Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique

Une équipe de chercheurs publie sur arXiv (preprint 2605.11832, mai 2026) une méthode adressant deux limites structurelles des modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique : l'ambiguïté de profondeur issue des capteurs monoculaires, et l'inefficacité de l'apprentissage d'actions par régression classique. La première contribution, le G3T (Geometry-Guided Gated Transformer), exploite un modèle de diffusion multi-vues pré-entraîné pour synthétiser des représentations latentes de nouvelles perspectives, alignées sous contrainte géométrique 3D, avec filtrage adaptatif du bruit d'occlusion. La seconde, l'Action Manifold Learning (AML), remplace la régression sur des cibles non structurées, bruit ou champ de vitesse, approches dominantes depuis Diffusion Policy (2023), par une prédiction directe sur la variété des actions valides. Testée sur les benchmarks LIBERO et RoboTwin 2.0, ainsi que sur des tâches en robot réel, la méthode affiche des taux de succès supérieurs aux baselines état de l'art actuelles. L'enjeu est précis : la quasi-totalité des déploiements industriels de manipulateurs n'embarquent qu'une caméra RGB, sans LiDAR ni stéréovision. Sans profondeur fiable, les VLA peinent à estimer distances et tailles relatives, ce qui dégrade directement la précision de préhension en conditions réelles. Le G3T propose de contourner ce manque sans ajout matériel, maintenant les contraintes hardware à un niveau réaliste pour l'intégration. L'AML, de son côté, questionne un paradigme issu des travaux sur la diffusion en robotique : prédire directement sur la variété d'actions valides pourrait réduire la variance d'entraînement et accélérer la convergence. Les résultats semblent valider l'hypothèse, bien qu'un preprint reste à soumettre à peer-review pour être pleinement crédité, les métriques annoncées sont issues des propres expériences des auteurs, sans reproductions indépendantes publiées à ce stade. Ce travail s'inscrit dans la course aux VLA généralistes ouverte par RT-2 (Google DeepMind, 2023), avec pour concurrents directs OpenVLA (UC Berkeley), π0 de Physical Intelligence et GR00T N2 de NVIDIA. RoboTwin 2.0, l'un des benchmarks retenus, cible spécifiquement la manipulation bi-manuelle de précision, parmi les scénarios les plus exigeants du domaine. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint ; l'impact concret dépendra des reproductions indépendantes et d'une éventuelle intégration dans des frameworks ouverts comme LeRobot (Hugging Face). Le code et la page projet sont annoncés disponibles publiquement.

RechercheOpinion
1 source
Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne
3arXiv cs.RO 

Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne

Des chercheurs ont publié sur arXiv (arXiv:2510.18518v2) un algorithme d'apprentissage par renforcement basé sur un modèle (MBRL) conçu pour contrôler des systèmes robotiques complexes directement dans le monde réel, sans passer par une phase de simulation intensive. L'approche construit un modèle de dynamique à partir des données d'interaction en temps réel, puis effectue des mises à jour de politique guidées par ce modèle appris. Les validations expérimentales ont été conduites sur deux plateformes distinctes : un bras d'excavatrice hydraulique et un bras robot souple. Dans les deux cas, l'algorithme atteint des performances comparables aux méthodes model-free en quelques heures d'entraînement, là où ces dernières réclament habituellement des millions d'interactions simulées. La robustesse de l'adaptation a également été évaluée sous conditions de charge utile (payload) aléatoire, avec des résultats stables malgré le changement de dynamique. L'enjeu principal est la réduction de ce que le secteur appelle le "sim-to-real gap" : l'écart entre les politiques apprises en simulation et leur comportement réel une fois déployées sur du matériel. Les pipelines dominants, adoptés aussi bien par des labos académiques que par des industriels comme Boston Dynamics ou Figure AI, reposent sur des millions de rollouts en simulation avant tout contact avec un robot physique, ce qui introduit un biais systématique difficile à corriger. Cet algorithme court-circuite cette étape en apprenant directement sur données réelles, avec une garantie formelle de progression : les auteurs démontrent des bornes de regret sous-linéaires (sublinear regret bounds) sous hypothèses d'optimisation stochastique en ligne, ce qui est rare dans la littérature MBRL appliquée à la robotique physique. Pour un intégrateur ou un industriel, cela se traduit par une réduction potentielle du temps de mise en service sur des tâches à dynamique variable (variation de charge, usure mécanique, changement de matériau). Ce travail s'inscrit dans un débat structurant du champ : model-based vs model-free RL pour la robotique physique. Les méthodes model-free comme PPO ou SAC dominent les benchmarks simulés mais peinent à s'adapter efficacement en production réelle. Des approches hybrides comme MBPO ou DreamerV3 ont tenté de combler cet écart, mais rarement validées sur des systèmes aussi hétérogènes qu'un bras hydraulique industriel et un manipulateur souple. La prochaine étape naturelle serait une validation sur des plateformes humanoïdes ou des AMR (autonomous mobile robots) à haute dimension, où les enjeux de sample efficiency sont directement liés aux coûts d'exploitation et à la durée de vie des actionneurs.

RecherchePaper
1 source
4arXiv cs.RO 

Apprentissage de politiques de trajectoire multi-modales pour la manipulation robotique efficace en données

Des chercheurs ont publié le 1er juin 2026 sur arXiv (2606.01047) MATE (Multi-Modal Trajectory Policies), un cadre de prédiction de trajectoires pour la manipulation robotique construit sur une architecture Mixture-of-Experts (MoE). MATE traite simultanément des entrées hétérogènes, observations visuelles, instructions en langage naturel et représentations de trajectoires, en introduisant un routeur cosinus cross-modal qui garantit une affectation stable entre experts spécialisés, indépendamment de l'échelle des représentations. Un mécanisme de routage à température contrôlée avec injection de bruit stochastique prévient l'effondrement prématuré des experts (expert collapse). Sur le benchmark LIBERO, MATE améliore le taux de succès moyen de 4,75% par rapport aux politiques guidées par trajectoires existantes, particulièrement dans des scénarios à faible volume de données d'entraînement. Des tests en conditions réelles sur un robot jouant au ping-pong complètent la validation expérimentale. Le problème ciblé est la "modality interference" : quand une politique transformer unique traite dans le même espace de paramètres des signaux aussi disparates que des images RGB, du texte et des coordonnées de trajectoire, les représentations se perturbent mutuellement et les performances chutent. C'est un goulot d'étranglement bien documenté dans le développement des VLAs (Vision-Language-Action models) : les données de démonstration de qualité coûtent cher à collecter en environnement industriel. En proposant un découplage fin au niveau sub-token par spécialisation d'experts, MATE réduit cette interférence sans nécessiter de données supplémentaires. Pour les équipes robotique opérant avec des budgets de téléopération limités, c'est un signal positif, bien que les gains absolus (+4,75%) restent modestes et mesurés sur un benchmark académique contrôlé. La manipulation robotique généraliste est sous forte compétition depuis l'émergence des architectures transformer dédiées à la robotique vers 2022-2023. Des travaux comme ACT, Diffusion Policy, puis les VLAs OpenVLA (Berkeley/Stanford), pi0 de Physical Intelligence et GR00T N2 de NVIDIA ont progressivement unifié vision, langage et action. L'approche MoE reste moins explorée en robotique qu'en LLMs (GPT-4, Mixtral, DeepSeek-MoE), et MATE tente d'en résoudre les instabilités de routage propres aux modalités hétérogènes. Le benchmark LIBERO, développé par des institutions académiques américaines, est devenu une référence standard pour évaluer la généralisation en manipulation. À ce stade, il n'y a pas de déploiement industriel ni de partenariat annoncé : MATE est une preuve de concept académique, avec validation réelle limitée à un robot de ping-pong.

RechercheOpinion
1 source