Aller au contenu principal
Robots collaborants : imitation séquentielle asymétrique pour l'apprentissage de politiques couplées
RecherchearXiv cs.RO4h

Robots collaborants : imitation séquentielle asymétrique pour l'apprentissage de politiques couplées

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont présenté Sequential Asymmetric Imitation (SAI), une méthode d'apprentissage par imitation pour entraîner deux robots manipulateurs mobiles bimanuels à collaborer physiquement sur des tâches conjointes impliquant des objets rigides ou déformables. Publiée en pré-impression sur arXiv (2606.16490v1), l'étude part d'un constat précis : les échecs en manipulation collaborative ne proviennent pas d'un manque de compétence individuelle, mais de problèmes de synchronisation, notamment les attentes mal timées, le cédage insuffisant et les conflits lors du saisissement ou du relâchement d'objets. SAI propose un curriculum en trois étapes piloté par un seul téléopérateur : Robot A est d'abord entraîné à partir de démonstrations unilatérales avec un partenaire humain compliant ; Robot B est ensuite entraîné contre la politique déployée de Robot A ; enfin, Robot A est affiné par des interventions ponctuelles ciblées sur les zones de défaillance de coordination. Les expériences en conditions réelles montrent des gains mesurés sur la réussite des tâches, la synchronisation de phase et le comportement de cédage adaptatif, par rapport à des baselines d'imitation indépendante.

L'apport principal de SAI réside dans l'élimination de la contrainte des démonstrations synchronisées à deux opérateurs, un frein logistique majeur pour la collecte de données dans les systèmes multi-robots. En structurant le curriculum de manière asymétrique, la méthode expose progressivement chaque robot à des comportements partenaires de plus en plus réalistes, incluant délais, décalages de phase et résistance insuffisante, sans nécessiter de canal de communication explicite entre les robots. Pour les intégrateurs industriels, l'argument est concret : un seul opérateur qualifié suffit à générer un dataset multi-agent viable. L'étude suggère que la coordination physique peut émerger de la structure du curriculum d'imitation elle-même, plutôt que d'un mécanisme de coordination dédié, ce qui contredit l'hypothèse dominante selon laquelle la collaboration multi-robot nécessite obligatoirement une communication inter-agents ou des démonstrations co-téléopérées.

Ce travail s'inscrit dans un corpus croissant sur la manipulation multi-robot en milieu non structuré, où les approches dominantes reposaient jusqu'ici soit sur des communications inter-robots explicites, soit sur des démonstrations co-téléopérées coûteuses. En n'utilisant aucun des deux, SAI propose une troisième voie potentiellement plus scalable pour les déploiements industriels impliquant des paires de bras robotiques. Il convient toutefois de souligner que la méthode n'est validée que sur un ensemble limité de tâches réelles, sans benchmark standardisé face à des méthodes récentes comme ACT ou Diffusion Policy en contexte multi-agent, et que ce document reste un pré-print non révisé par les pairs. La page projet est disponible sur GitHub (cyc0429.github.io/sai-project-page) ; les prochaines étapes naturelles incluront la généralisation à des topologies de tâches plus complexes et l'évaluation sur des horizons temporels plus longs.

Dans nos dossiers

À lire aussi

Apprentissage par imitation 3D pour la robotique par imagination latente asymétrique et reclassement
1arXiv cs.RO 

Apprentissage par imitation 3D pour la robotique par imagination latente asymétrique et reclassement

Des chercheurs ont déposé en mai 2026 sur arXiv (identifiant 2605.10166) une proposition intitulée DALI-R, pour Data-Asymmetric Latent Imagination and Reranking, un cadre d'apprentissage par imitation robotique conçu pour exploiter des trajectoires de données mixtes plutôt que des démonstrations exclusivement optimales. Le système repose sur deux composants distincts : un Latent World Model entraîné sur des nuages de points 3D qui génère des rollouts imaginés à partir de trajectoires sous-optimales ou échouées, et un Task Completion Scorer qui reclasse des chunks d'actions candidates pour améliorer la prise de décision sans nécessiter de données supplémentaires de haute qualité. Évalué sur les benchmarks de manipulation Adroit et MetaWorld, DALI-R produit une amélioration moyenne de 6,8 % du taux de succès sur deux familles de politiques 3D de base, diffusion et flow-matching, avec un surcoût d'inférence inférieur à 0,7x par rapport aux politiques de référence. L'enjeu opérationnel est concret : collecter des démonstrations robotiques de haute qualité reste coûteux, chronophage et difficilement scalable en environnement industriel réel. Toute méthode permettant de recycler des trajectoires imparfaites ou échouées réduit mécaniquement la barrière à l'entrée pour entraîner des politiques performantes. Le gain de 6,8 % est modeste mais obtenu sans démonstrations supplémentaires, ce qui est précisément la contrainte dominante en déploiement. Il convient toutefois de noter que ces résultats restent cantonnés à des benchmarks de simulation standardisés ; l'article n'aborde pas le sim-to-real gap, et aucune validation sur hardware physique n'est présentée. Ce travail s'inscrit dans la vague des politiques de manipulation 3D initiée autour de 2023-2024 avec DP3, Diffusion Policy et ACT, qui ont déplacé le problème de l'architecture vers celui de la qualité et du volume des données. La question de l'apprentissage depuis des données sous-optimales est également au coeur des travaux de Physical Intelligence (pi0), de CMU et de Stanford sur l'imitation offline. La prochaine étape crédible pour DALI-R serait une validation sur des plateformes hardware réelles et des tâches industrielles représentatives, encore absente de ce preprint.

RecherchePaper
1 source
HALO : apprentissage de la collaboration humain-robot par optimisation de politique de Lyapunov multi-agents
2arXiv cs.RO 

HALO : apprentissage de la collaboration humain-robot par optimisation de politique de Lyapunov multi-agents

Des chercheurs de Tsinghua University ont publié HALO (Heterogeneous-Agent Lyapunov Policy Optimization), un framework d'apprentissage par renforcement multi-agents (MARL) dédié à la collaboration humain-robot (HRC), disponible sur arXiv (2603.03741, version 2). Le problème ciblé est ce que les auteurs nomment le "rationality gap" (RG) : en apprentissage décentralisé, les mises à jour de politique du robot et de l'humain divergent structurellement, car l'humain n'optimise pas selon le même objectif formel que l'algorithme. Le problème d'entraînement devient alors un jeu différentiable à somme générale, où les gradients de politique indépendants peuvent osciller ou diverger sans contrainte supplémentaire. HALO résout ce verrou en imposant une contraction au sens de Lyapunov dans l'espace des paramètres de politique, via des projections quadratiques optimales qui rectifient les gradients décentralisés pour garantir une contraction monotone du RG. Les validations couvrent des simulations étendues et des expériences en conditions réelles sur des robots humanoïdes. La contribution centrale est d'avoir transposé la certification de Lyapunov, outil classique de la théorie du contrôle pour garantir la stabilité d'un système dynamique, à la stabilisation de la dynamique d'apprentissage elle-même dans un jeu multi-agents hétérogènes. En pratique, le système peut explorer des espaces d'interaction ouverts, incluant des comportements humains imprévus, sans que l'entraînement ne diverge. Les résultats montrent une meilleure généralisation sur les cas limites collaboratifs où MAPPO ou HATRPO échouent. Pour un intégrateur déployant un humanoïde en co-manutention, cela adresse directement le gap sim-to-real : une stabilité garantie à l'entraînement se traduit par une robustesse accrue face à la variabilité comportementale humaine, condition non-négociable pour tout déploiement industriel. Ce travail s'inscrit dans une littérature croissante sur le MARL pour HRC, où les approches CTDE (Centralized Training, Decentralized Execution) comme QMIX peinent face à l'hétérogénéité humain-robot. L'utilisation de la théorie de Lyapunov en RL existait déjà dans le safe RL pour contraindre les trajectoires d'état ; HALO l'applique à un objectif différent et moins exploré, celui de stabiliser la convergence dans un jeu multi-agents. Les détails des expériences humanoïdes en conditions réelles ne figurent pas dans le résumé et méritent une lecture approfondie avant de conclure sur la portée pratique. Le code et les résultats sont accessibles sur le site du projet, ce qui facilitera la reproductibilité. Des extensions naturelles concerneraient des équipes mixtes impliquant plusieurs humains, ou des scénarios où la politique humaine est elle-même apprise plutôt que supposée fixe.

UEImpact indirect pour les intégrateurs européens en co-manutention humanoïde : HALO adresse le gap sim-to-real dans les scénarios HRC, un verrou clé pour toute certification industrielle en Europe.

RecherchePaper
1 source
Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes
3arXiv cs.RO 

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper
1 source
Politiques de récupération sensibles aux différences pour l'apprentissage par imitation
4arXiv cs.RO 

Politiques de récupération sensibles aux différences pour l'apprentissage par imitation

Une équipe du Weird Lab de l'Université de Washington publie sur arXiv (arXiv:2606.09758, juin 2026) une méthode appelée DARP (Difference-Aware Retrieval Policies for Imitation Learning), une approche semi-paramétrique d'apprentissage par imitation. Le principe central : plutôt que d'apprendre un mapping global état-action via un réseau de neurones pur (behavior cloning standard), DARP entraîne un modèle à prédire des actions en s'appuyant sur les k plus proches voisins (k-NN) extraits des démonstrations expertes, leurs actions associées, et les vecteurs de distance relative entre les états voisins et l'état requête courant. En reformulant le problème d'imitation en termes de structure de voisinage local plutôt que de mappings directs, la méthode revendique des gains de performance de 15 à 46 % sur behavior cloning standard, mesurés sur des benchmarks de contrôle continu et de manipulation robotique, y compris avec des représentations visuelles haute dimension. L'amplitude de cette fourchette suggère des variations importantes selon les tâches et les domaines évalués. L'intérêt concret de DARP réside dans sa capacité à atténuer le problème de "compounding errors" : lors du déploiement, un agent entraîné par behavior cloning accumule des erreurs en rencontrant des états hors distribution, dégradant rapidement les performances. En réutilisant les données d'entraînement au moment de l'inférence, DARP introduit une forme de mémoire épisodique sans nécessiter de collecte de données supplémentaires, de feedback expert en ligne, ni de connaissance spécifique à la tâche. C'est là la distinction clé vis-à-vis de méthodes comme DAgger (Ross et Bagnell, 2011), qui résolvent la distribution shift mais exigent des requêtes à l'expert pendant l'entraînement, une contrainte souvent rédhibitoire en robotique industrielle réelle. Le behavior cloning reste une méthode de référence pour son absence de contraintes opérationnelles, mais sa fragilité face à la distribution shift en limite la portée pour des déploiements à grande échelle. DARP s'inscrit dans un courant de méthodes semi-paramétriques qui connaît un regain d'intérêt avec la montée des politiques génératives : l'idée de conserver explicitement une mémoire des démonstrations plutôt que de tout comprimer dans des poids de réseau est cohérente avec les architectures hybrides actuelles, comme les VLA Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les résultats sur représentations visuelles haute dimension ouvrent la voie à des applications sur des manipulateurs avec vision RGB, domaine où les approches purement paramétriques montrent encore des limites significatives. Le code et les démonstrations sont disponibles publiquement via le site des auteurs.

RecherchePaper
1 source