Aller au contenu principal
MonoDuo : apprendre des politiques bimanuelles avec un seul bras robotique
RecherchearXiv cs.RO20h

MonoDuo : apprendre des politiques bimanuelles avec un seul bras robotique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs proposent avec MonoDuo (arXiv:2505.29298) une méthode pour entraîner des politiques de manipulation bimanuelles sans disposer de robots à deux bras. La collecte de données est hybride: un opérateur téléopère un bras unique pour exécuter un côté d'une tâche bimanuelles, un humain réalisant l'autre côté, puis les rôles sont inversés pour couvrir les deux membres. Les séquences RGB-D, capturées par une caméra de poignet et une caméra fixe, sont transformées en démonstrations synthétiques calibrées sur la cinématique du robot bimanuel cible, via estimation de pose des mains, segmentation de nuage de points et inpainting. Testé sur cinq tâches (soulèvement d'une boîte, remplissage d'un sac à dos, pliage d'un vêtement, fermeture d'une veste à glissière, passage d'une assiette), MonoDuo atteint jusqu'à 70% de taux de réussite en déploiement zero-shot sur des configurations bimanuelles non vues à l'entraînement. Avec seulement 25 démonstrations supplémentaires sur le robot cible, un fine-tuning few-shot améliore ces résultats de 65 à 70% par rapport à un entraînement depuis zéro.

Le verrou adressé est structurel: les robots à deux bras coordonnés restent rares et onéreux dans les laboratoires de recherche, alors que les bras uniques sont omniprésents. Cette asymétrie crée un goulot d'étranglement dans la constitution de datasets pour les tâches bimanuelles, freinant le développement de politiques viables aussi bien pour les humanoïdes commerciaux que pour les cellules industrielles bimanuelles. MonoDuo montre qu'il est possible de bootstrapper ces politiques sans matériel dédié, réduisant considérablement le coût d'entrée. La réussite du déploiement zero-shot sur des configurations non vues est notable dans un domaine où le sim-to-real gap reste un obstacle structurel, et le gain de 65 à 70% obtenu avec seulement 25 démonstrations de fine-tuning constitue un signal positif pour les intégrateurs ne pouvant se permettre des milliers de cycles de collecte.

Ce travail s'inscrit dans la lignée d'ALOHA, de UMI (Universal Manipulation Interface) et de Diffusion Policy, qui cherchent à décorréler la plateforme de collecte de la plateforme cible. L'essor des humanoïdes commerciaux (Figure 03, Tesla Optimus Gen 3, Unitree G1, 1X Eve) relance l'intérêt pour la manipulation bimanuelles à grande échelle. En Europe, Pollen Robotics avec son robot open-source Reachy et Enchanted Tools avec Miroki travaillent sur des problématiques similaires d'efficacité des démonstrations. MonoDuo reste à ce stade un preprint académique sans déploiement industriel annoncé; ses résultats devront être confirmés hors conditions de laboratoire pour valider leur transposabilité opérationnelle.

Impact France/UE

Pollen Robotics et Enchanted Tools, qui développent des robots bimanuels en Europe, pourraient exploiter cette méthode pour constituer des datasets bimanuels à moindre coût sans dupliquer leur parc matériel.

À lire aussi

Mask World Model : prédire l'essentiel pour un apprentissage robuste des politiques robotiques
1arXiv cs.RO 

Mask World Model : prédire l'essentiel pour un apprentissage robuste des politiques robotiques

Des chercheurs ont publié sur arXiv (réf. 2604.19683) le Mask World Model (MWM), une architecture de world model pour l'apprentissage de politiques robotiques robustes. Contrairement aux approches dominantes qui entraînent des modèles génératifs sur de la vidéo RGB, MWM prédit l'évolution de masques sémantiques, des représentations géométriques des objets en scène, à l'aide d'une architecture de diffusion vidéo. Une tête de politique basée sur la diffusion est intégrée en aval pour un contrôle bout-en-bout. Évalué sur les benchmarks de simulation LIBERO et RLBench, MWM surpasse significativement les world models RGB de l'état de l'art. Un protocole de robustesse par élagage aléatoire de tokens et des expériences en conditions réelles confirment la résilience du modèle face à la perte partielle d'information visuelle. Le problème ciblé est structurel : les world models entraînés à prédire des pixels RGB mémorisent des corrélations parasites liées aux arrière-plans dynamiques, aux variations d'éclairage ou aux textures changeantes. Ces distracteurs produisent des politiques fragiles qui échouent hors distribution, phénomène central du "demo-to-real gap" qui freine le déploiement industriel des robots apprenants. En contraignant le modèle à opérer sur des masques géométriques plutôt que sur des pixels bruts, MWM impose un goulot d'information qui force la représentation interne à capturer ce qui importe réellement pour la manipulation : dynamiques physiques, relations de contact, géométrie des objets. C'est une contribution méthodologique notable dans le débat sur ce que les world models doivent apprendre pour être fiables à l'échelle opérationnelle. Les world models pour la robotique ont émergé comme paradigme dominant ces deux dernières années, portés par des architectures comme UniSim, Dreamer, ou les VLA récents de Physical Intelligence (pi-0), Google DeepMind (GR00T N2) et Figure Robotics, qui misent presque tous sur la fidélité de reconstruction RGB. MWM propose une alternative centrée sur l'abstraction géométrique, un positionnement distinct dans cet écosystème en pleine consolidation. Il convient de noter qu'il s'agit d'une prépublication non encore relue par des pairs, et que les expériences en conditions réelles restent limitées en échelle et en diversité de tâches. Les suites naturelles incluent une validation sur des manipulateurs industriels en environnement non contrôlé, étape que les auteurs n'ont pas encore franchie.

RechercheOpinion
1 source
Au-delà des pixels : apprendre des récompenses invariantes pour la robotique réelle à partir de quelques démonstrations
2arXiv cs.RO 

Au-delà des pixels : apprendre des récompenses invariantes pour la robotique réelle à partir de quelques démonstrations

Des chercheurs ont publié fin mai 2026 (arXiv:2605.22123) un framework permettant d'apprendre des fonctions de récompense symboliques invariantes à partir de seulement cinq démonstrations pour des tâches de manipulation robotique. Le système repose sur deux composants couplés : une formulation structurelle de récompense encodant des stratégies de niveau tâche et des contraintes physiques, et une procédure hybride symbolique-numérique qui distille des invariants comportementaux depuis ces démonstrations sans requérir d'interaction en ligne avec l'environnement. La méthode a été évaluée sur huit tâches du benchmark Meta-World et trois tâches de manipulation sur bras Franka, affichant de meilleures capacités d'alignement procédural et de classement de rollouts de politique par rapport aux baselines existantes. Trois expériences réelles out-of-distribution valident une généralisation zero-shot à des variations de position, de point de vue caméra et d'instances d'objets inédites. Le problème adressé est structurel : les modèles de récompense basés sur la vision tendent à mémoriser des distributions de pixels spécifiques et s'effondrent dès que les conditions visuelles changent, qu'il s'agisse d'un objet déplacé, d'un angle de caméra différent ou d'une variante d'objet inconnue. Pour un intégrateur déployant un système de manipulation en milieu industriel, cela impose de recollectecter des démonstrations ou de réentraîner le modèle à chaque variation du contexte opérationnel. Le passage aux invariants symboliques, c'est-à-dire des propriétés comportementales constantes indépendamment de l'apparence visuelle, propose une représentation de récompense réutilisable sur de multiples variantes de tâche sans interaction supplémentaire, ce qui réduit significativement le coût itératif du déploiement en apprentissage par renforcement. Ce travail s'inscrit dans une dynamique de recherche active visant à résoudre le goulot d'étranglement du reward engineering en RL robotique. Les approches récentes fondées sur des embeddings visuels issus de VLMs, comme VIP ou RoboCLIP, ont progressé sur la généralisation visuelle mais restent fragilisées par les variations de distribution en dehors des conditions d'entraînement. La méthode proposée se distingue en substituant aux embeddings bruts une abstraction symbolique de la tâche. Des laboratoires comme Berkeley BAIR, Stanford ou le CMU Robotics Institute travaillent sur des directions similaires d'abstraction pour le RL. La capacité à bootstrapper une récompense généralisable depuis cinq démonstrations seulement ouvre la voie à des pipelines de fine-tuning robotique plus accessibles, potentiellement utilisables par des intégrateurs sans expertise RL avancée.

RecherchePaper
1 source
Revue complète des modèles du monde pour l'apprentissage robotique
3arXiv cs.RO 

Revue complète des modèles du monde pour l'apprentissage robotique

Un groupe de chercheurs a publié début mai 2026 une revue systématique sur les modèles de monde appliqués à l'apprentissage robotique (arXiv:2605.00080). Ces modèles sont des représentations prédictives qui modélisent l'évolution d'un environnement en réponse aux actions d'un agent. Utilisés dans six fonctions distinctes, policy learning, planification, simulation, évaluation, génération de données et entraînement à l'échelle fondation, ils sont devenus un composant central des architectures robotiques modernes. Le survey couvre les grandes familles d'architectures, leurs rôles fonctionnels et leurs applications dans l'embodied AI, en s'étendant à la navigation mobile et à la conduite autonome. Les auteurs inventorient également les benchmarks et protocoles d'évaluation disponibles dans le domaine, et maintiennent un dépôt GitHub mis à jour en continu pour intégrer les travaux émergents. L'intérêt de cette synthèse réside dans la fragmentation actuelle du domaine : les architectures de modèles de monde se développent en silos, reinforcement learning, génération vidéo, VLA (Vision-Language-Action models), avec peu de recoupement méthodologique. Le survey clarifie comment ces modèles s'articulent avec les politiques robotiques, comment ils servent de simulateurs appris pour le RL, et comment les modèles de monde vidéo ont évolué de la génération par imagination vers des formulations contrôlables à l'échelle fondation. Pour les équipes R&D et les intégrateurs industriels, cette cartographie facilite le choix architectural et réduit le risque de duplication des efforts. L'accélération récente du domaine est en partie portée par la montée en puissance des foundation models et de la génération vidéo large-scale depuis 2023. Les modèles de monde en robotique s'enracinent dans les travaux de Schmidhuber dans les années 1990 et ont connu un regain majeur avec DreamerV3 (Google DeepMind, 2023), UniSim, et les VLA récents intégrant une prédiction d'état futur comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les acteurs dominants restent américains et chinois, DeepMind, NVIDIA, Physical Intelligence, Figure AI, avec des contributions académiques majeures de Stanford, MIT et Berkeley. En Europe, les contributions restent moins visibles à l'échelle internationale, bien que des acteurs comme Pollen Robotics (France) et l'INRIA travaillent sur des approches connexes. Le principal défi identifié est de combler le sim-to-real gap via des modèles suffisamment fidèles pour substituer partiellement les environnements physiques dans la boucle d'entraînement.

UEPollen Robotics et l'INRIA sont mentionnés comme acteurs connexes mais restent en retrait international ; cette cartographie peut aider les équipes européennes à identifier les lacunes à combler face à la domination américaine et chinoise.

RecherchePaper
1 source
Comment instruire un robot : les annotations linguistiques denses améliorent l'apprentissage de politiques
4arXiv cs.RO 

Comment instruire un robot : les annotations linguistiques denses améliorent l'apprentissage de politiques

Des chercheurs publient DeMiAn (Dense Multi-aspect Annotation), une méthode en deux étapes pour améliorer l'apprentissage de politiques robotiques sans collecter de nouvelles démonstrations. Elle ré-annote automatiquement des segments existants via un modèle vision-langage selon quatre axes complémentaires : mouvement physique, composition de la scène, posture du bras et raisonnement. Un module « instructeur » traduit ensuite, à chaque déploiement, une description de tâche et un instantané de scène initiale vers l'annotation la plus adaptée, de façon asynchrone afin de masquer la latence de génération derrière l'exécution de la politique. Évaluée sur plus d'un million de clips de manipulation robotique et 50 000 vidéos égocentrées humaines issues d'EgoVerse, la méthode améliore à la fois une politique vision-langage-action (VLA) classique et un world-action model vidéo. Sur le benchmark RoboCasa, l'instructeur gagne cinq points de taux de succès sur une baseline limitée à la description de tâche seule, et reste à trois points d'un oracle disposant d'annotations parfaites par tâche. Le principal frein au scaling en robotique manipulatrice n'est pas le compute mais le coût de collecte de démonstrations physiques. DeMiAn inverse la contrainte : ré-annoter un corpus existant avec du langage dense revient nettement moins cher que rejouer des trajectoires en environnement réel. La méthode améliore également les performances sur les tâches composites et en distribution de test hors domaine, là précisément où les politiques VLA échouent le plus fréquemment en déploiement. Résultat non trivial : aucun des quatre axes d'annotation ne domine systématiquement l'ensemble des tâches, ce qui fait du choix de la description dense un problème de recherche à part entière. Les gains sont de surcroît calculés en intégrant le coût de génération des annotations en FLOPs, garantissant des comparaisons compute-performance honnêtes, une rigueur peu fréquente dans ce segment. Ce travail s'inscrit dans la valorisation croissante des datasets égocentrés humains (EgoVerse, EPIC-Kitchens) comme ressources pour pré-entraîner des politiques de manipulation, en alternative aux pipelines de simulation massive de type IsaacLab. Du côté compétitif, Physical Intelligence avec Pi-0 et Google DeepMind avec RT-X misent également sur la supervision langage-action à grande échelle. DeMiAn se distingue par son caractère post-hoc : aucune modification du protocole de collecte n'est requise, ce qui le rend directement applicable à des corpus robotiques institutionnels existants. Le papier (arXiv 2605.17077, mai 2025) reste un preprint sans validation hardware end-to-end au-delà des benchmarks simulés, laissant ouverte la question du sim-to-real gap sur les gains annoncés.

RechercheOpinion
1 source