
MonoDuo : apprendre des politiques bimanuelles avec un seul bras robotique
Des chercheurs proposent avec MonoDuo (arXiv:2505.29298) une méthode pour entraîner des politiques de manipulation bimanuelles sans disposer de robots à deux bras. La collecte de données est hybride: un opérateur téléopère un bras unique pour exécuter un côté d'une tâche bimanuelles, un humain réalisant l'autre côté, puis les rôles sont inversés pour couvrir les deux membres. Les séquences RGB-D, capturées par une caméra de poignet et une caméra fixe, sont transformées en démonstrations synthétiques calibrées sur la cinématique du robot bimanuel cible, via estimation de pose des mains, segmentation de nuage de points et inpainting. Testé sur cinq tâches (soulèvement d'une boîte, remplissage d'un sac à dos, pliage d'un vêtement, fermeture d'une veste à glissière, passage d'une assiette), MonoDuo atteint jusqu'à 70% de taux de réussite en déploiement zero-shot sur des configurations bimanuelles non vues à l'entraînement. Avec seulement 25 démonstrations supplémentaires sur le robot cible, un fine-tuning few-shot améliore ces résultats de 65 à 70% par rapport à un entraînement depuis zéro.
Le verrou adressé est structurel: les robots à deux bras coordonnés restent rares et onéreux dans les laboratoires de recherche, alors que les bras uniques sont omniprésents. Cette asymétrie crée un goulot d'étranglement dans la constitution de datasets pour les tâches bimanuelles, freinant le développement de politiques viables aussi bien pour les humanoïdes commerciaux que pour les cellules industrielles bimanuelles. MonoDuo montre qu'il est possible de bootstrapper ces politiques sans matériel dédié, réduisant considérablement le coût d'entrée. La réussite du déploiement zero-shot sur des configurations non vues est notable dans un domaine où le sim-to-real gap reste un obstacle structurel, et le gain de 65 à 70% obtenu avec seulement 25 démonstrations de fine-tuning constitue un signal positif pour les intégrateurs ne pouvant se permettre des milliers de cycles de collecte.
Ce travail s'inscrit dans la lignée d'ALOHA, de UMI (Universal Manipulation Interface) et de Diffusion Policy, qui cherchent à décorréler la plateforme de collecte de la plateforme cible. L'essor des humanoïdes commerciaux (Figure 03, Tesla Optimus Gen 3, Unitree G1, 1X Eve) relance l'intérêt pour la manipulation bimanuelles à grande échelle. En Europe, Pollen Robotics avec son robot open-source Reachy et Enchanted Tools avec Miroki travaillent sur des problématiques similaires d'efficacité des démonstrations. MonoDuo reste à ce stade un preprint académique sans déploiement industriel annoncé; ses résultats devront être confirmés hors conditions de laboratoire pour valider leur transposabilité opérationnelle.
Pollen Robotics et Enchanted Tools, qui développent des robots bimanuels en Europe, pourraient exploiter cette méthode pour constituer des datasets bimanuels à moindre coût sans dupliquer leur parc matériel.
Dans nos dossiers




