Aller au contenu principal
YUBI : interface bidigitale universelle pour la manipulation dextérique bimanuelle à grande échelle
RecherchearXiv cs.RO3h

YUBI : interface bidigitale universelle pour la manipulation dextérique bimanuelle à grande échelle

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 10 juin 2026 YUBI (Yielding Universal Bidigital Interface), un préhenseur bi-digital conçu pour la collecte de données bimanuelle dextère à grande échelle. Contrairement aux systèmes pistol-grip comme l'UMI (Universal Manipulation Interface), YUBI adopte un principe d'actionnement dit "yielding" : les mouvements des doigts de l'opérateur sont transcrits directement en mouvement des mâchoires du préhenseur, sans intermédiaire mécanique rigide. Le système intègre un tracking 6 DOF basé sur la réalité virtuelle pour une acquisition de trajectoires haute fidélité. L'équipe a constitué un dataset d'une ampleur inédite dans la littérature : 8 434 heures de démonstrations, 1,20 million d'épisodes répartis sur 119 tâches. Un politique unique entraîné sur ce corpus a été validée sur trois plateformes robotiques bimanuelle distinctes : UR, Franka et ELEY, via simple montage du préhenseur.

Ce résultat a une portée directe pour quiconque travaille sur les fondation models robotiques : le bottleneck historique n'est plus le modèle mais la donnée, et YUBI apporte une réponse concrète sur la scalabilité de la collecte. Le fait qu'une seule politique transfère sur trois robots hétérogènes confirme que l'interface impose une représentation suffisamment générique pour servir de supervision directe, sans fine-tuning plateforme-spécifique. C'est un argument fort en faveur de l'approche "data-centric" face aux pipelines sim-to-real, souvent coûteux à valider en conditions industrielles. L'ergonomie améliorée réduit aussi la fatigue opérateur sur les tâches fines, un point non-trivial pour des sessions de collecte longues et répétitives que les démonstrateurs UMI rendaient problématiques.

L'UMI, développé à l'Université de Columbia et largement adopté pour sa simplicité et son coût, reste la référence low-cost pour la collecte de données manipulation, mais son grip pistolet montrait ses limites sur les tâches bimanuelle complexes. YUBI s'inscrit dans un mouvement plus large visant à démocratiser la collecte de données pour les robot foundation models, en parallèle d'initiatives comme ACT, Diffusion Policy ou les efforts open-data de Physical Intelligence (Pi-0). L'ensemble du stack est publié en open source : hardware du préhenseur, logiciel de collecte, et dataset complet, ce qui représente une contribution substantielle pour les laboratoires ne disposant pas des moyens de Unitree, Figure AI ou Boston Dynamics pour constituer leurs propres corpus propriétaires. Les prochaines étapes probables incluent l'extension du dataset et l'intégration avec des architectures VLA plus récentes.

Impact France/UE

Les laboratoires européens (INRIA, CEA-List, universités) et PME robotiques peuvent directement exploiter le dataset open-source YUBI (8 434 h, 1,2M épisodes) et l'interface hardware pour entraîner des politiques de manipulation sans constituer de corpus propriétaire, avec validation native sur Franka (allemand) et UR (danois).

À lire aussi

RealDexUMI : interface portable universelle pour l'apprentissage de la manipulation dextérique
1arXiv cs.RO 

RealDexUMI : interface portable universelle pour l'apprentissage de la manipulation dextérique

RealDexUMI est une interface de téléopération portable présentée en juin 2026 par des chercheurs de BeingBeyond dans un preprint arXiv (arXiv:2606.06033). Le dispositif repose sur un module d'effecteur terminal partagé combinant une main robotique légère, une caméra embarquée dans la paume et des capteurs tactiles au bout des doigts. Un gant isomorphe porté par l'opérateur humain traduit les mouvements des doigts en commandes articulaires directes sur la main robotique, sans retargeting ni conversion d'incarnation. Le système a été évalué sur huit tâches réelles couvrant des manipulations fines, riches en contacts, à longue durée et bimanuelles, obtenant un taux de succès moyen de 88,75%. Les politiques apprises se généralisent à des poses initiales non vues lors de l'entraînement et ont été transférées vers trois morphologies de robots différentes. Le verrou que RealDexUMI cherche à lever est connu dans le secteur sous le nom de "collection-to-deployment gap". Les pipelines classiques de collecte de données pour la manipulation dextre font face à un dilemme : la motion capture ou les gants souples permettent une collecte rapide mais nécessitent un retargeting qui dégrade la fidélité des contacts, tandis que la téléopération robot-spécifique préserve cette fidélité mais reste onéreuse et difficile à passer à l'échelle. RealDexUMI propose un troisième chemin via un effecteur "zéro-gap" : les observations (images embarquées, signaux tactiles, contacts, commandes articulaires) sont identiques entre collecte et déploiement, supprimant le biais d'observation qui dégrade souvent les politiques d'imitation. Un taux de 88,75% sur des tâches bimanuelles longue durée est significatif si les conditions expérimentales sont représentatives, bien que le preprint ne détaille pas encore la distribution des tentatives par tâche ni les protocoles de randomisation des scènes. La question de l'interface universelle de manipulation dextre est activement travaillée depuis plusieurs années, notamment depuis les travaux UMI de Columbia University (2023-2024), qui instrumentaient une spatule pour des robots standard. RealDexUMI étend ce paradigme aux mains multi-doigts, terrain nettement plus difficile. La démarche entre en compétition directe avec des approches comme ALOHA 2 et ACT de Carnegie Mellon, les systèmes de DexHand Research, ou les plateformes bimanuelle d'Apptronik et Agility Robotics. En Europe, des équipes de l'ISIR à Sorbonne Université et du DLR en Allemagne travaillent sur des thématiques proches de capture et transfert de manipulation dextre. BeingBeyond reste discret sur son positionnement commercial et ses partenaires industriels : la prochaine étape naturelle serait une validation dans des environnements non structurés ou une intégration sur des plateformes humanoïdes commerciales comme Figure 03, Unitree G1 ou Fourier GR-1, où la manipulation dextre demeure le principal goulot d'étranglement.

UELes équipes européennes de manipulation dextre (ISIR/Sorbonne, DLR) pourraient intégrer l'approche zéro-gap de RealDexUMI pour accélérer leurs pipelines de collecte de données sans retargeting.

RechercheOpinion
1 source
La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?
2arXiv cs.RO 

La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?

Une équipe de chercheurs publie sur arXiv (référence 2507.06219) une étude systématique sur le rôle de la diversité des données dans l'apprentissage de la manipulation robotique, remettant en cause l'intuition du "plus c'est divers, mieux c'est". Trois dimensions sont examinées indépendamment. La diversité des tâches s'avère plus critique que le volume de démonstrations par tâche pour le transfert vers de nouveaux scénarios. L'entraînement multi-robots (multi-embodiment) n'est pas nécessaire au transfert inter-plateformes : un modèle entraîné sur un seul type de robot avec des données de haute qualité transfère aussi efficacement, avec de meilleures propriétés de scaling au fine-tuning. Enfin, la diversité des experts humains peut nuire à l'apprentissage via la multimodalité des vitesses d'exécution, chaque opérateur ayant ses propres rythmes et préférences gestuelles. Pour corriger ce biais, les auteurs introduisent une méthode de distribution debiasing appliquée à leur modèle GO-1-Pro, qui gagne 15% de performance, l'équivalent de multiplier par 2,5 le volume de pré-entraînement. Ces résultats ont des implications directes pour les équipes qui conçoivent des pipelines de collecte de données. La conclusion sur le multi-embodiment est particulièrement contre-intuitive : constituer un corpus mono-robot de haute qualité avant de fine-tuner est plus efficace qu'accumuler des datasets disparates multi-robots. Pour un intégrateur ou un décideur industriel, cela redéfinit les priorités de curation : couvrir un maximum de tâches prime sur l'accumulation brute de démonstrations, et standardiser les démonstrations expert devient un levier de performance mesurable. La multimodalité des vitesses est désormais un biais identifiable et corrigeable en amont du pipeline, pas une fatalité inhérente à la collecte humaine. Ce travail s'inscrit dans la dynamique portée par Google DeepMind (RT-2), Physical Intelligence (Pi-0) et les équipes de Berkeley (OpenVLA, Octo), qui cherchent à construire des fondations généralistes pour la manipulation depuis 2023. Contrairement au texte ou aux images, les données de démonstration robotique restent coûteuses à produire, ce qui rend les choix de stratégie de scaling particulièrement stratégiques. Les conclusions orientent directement les acteurs comme Figure AI (Figure 03), Agility Robotics ou, en France, Enchanted Tools (Mirokaï), qui investissent dans de larges datasets de manipulation. Ce travail est purement académique : aucun déploiement ni partenariat commercial n'est annoncé.

UEEnchanted Tools (Mirokaï) est explicitement citée comme acteur concerné par ces stratégies de scaling des données de manipulation, rendant les conclusions directement applicables à leur R&D en France.

RecherchePaper
1 source
Un modèle de représentation universel pour la manipulation dextérique unifiée
3arXiv cs.RO 

Un modèle de représentation universel pour la manipulation dextérique unifiée

Une équipe de chercheurs propose OHRA (One Hand to Rule Them All), un cadre de représentation canonique paramétrisée visant à unifier les politiques de manipulation dextère sur des mains robotiques de morphologies très différentes. Constat de départ : les politiques d'apprentissage actuelles supposent une architecture de main fixe et ne se transfèrent pas sans réentraînement complet. Le système combine un espace de paramètres unifié capturant les variations cinématiques et morphologiques essentielles, et un format URDF canonique standardisant l'espace d'action tout en préservant les propriétés dynamiques de chaque main d'origine. Un VAE (Variational Autoencoder) est entraîné sur cet espace pour produire un plongement latent compact et sémantiquement cohérent. Résultat clé : la politique de préhension conditionnée sur cette représentation atteint 81,9 % de succès en transfert zéro-shot sur une LEAP Hand à 3 doigts, morphologie non vue pendant l'entraînement, validée en simulation et sur tâches réelles. L'enjeu est directement industriel : la fragmentation des designs de mains, Shadow Robotics, LEAP, Allegro, Ability Hand, rend les politiques non portables d'un hardware à l'autre. Un cadre partagé permettrait à un intégrateur de réentraîner une politique existante sur un nouveau manipulateur sans repartir de zéro, comprimant les coûts de déploiement. Le score de 81,9 % en zéro-shot sur une configuration inédite est un signal mesurable que le "morphology gap", l'analogue du sim-to-real gap appliqué aux architectures de mains, commence à être adressé. Le fait que les interpolations dans l'espace latent produisent des transitions morphologiques physiquement cohérentes indique que le VAE capture une géométrie fonctionnelle, pas seulement statistique. Ce travail s'inscrit dans la dynamique plus large de l'apprentissage cross-embodiment, aux côtés de travaux comme UniDexGrasp, DexGraspNet ou les approches fondées sur des VLA (Vision-Language-Action models). Sur le plan concurrentiel, Google DeepMind, Physical Intelligence (Pi-0) et Unitree investissent dans des politiques généralisables, mais l'angle "unification par représentation canonique de la morphologie de main" reste peu exploré industriellement. Les suites naturelles incluent l'extension à la manipulation bimanuelle, aux mains à plus de 5 doigts, et l'intégration dans des pipelines de téléopération. Aucun déploiement commercial ni partenariat industriel n'est annoncé à ce stade.

RecherchePaper
1 source
DexJoCo : un benchmark et une boîte à outils pour la manipulation dextérique orientée tâche sur MuJoCo
4arXiv cs.RO 

DexJoCo : un benchmark et une boîte à outils pour la manipulation dextérique orientée tâche sur MuJoCo

Une équipe de recherche a mis en ligne DexJoCo, un benchmark et toolkit open-source pour la manipulation dextre orientée tâches, construit sur le simulateur physique MuJoCo. Publié sur arXiv en mai 2025 (arXiv:2605.16257), il comprend 11 tâches fonctionnellement ancrées couvrant quatre capacités ciblées : utilisation d'outils, coordination bimanuelle, exécution à long horizon et raisonnement. Les chercheurs ont développé un système de collecte de données bas coût et constitué un dataset de 1 100 trajectoires annotées réparties sur l'ensemble des tâches. Le benchmark permet d'évaluer les politiques sous plusieurs configurations : randomisation visuelle et dynamique pour tester la robustesse au transfert sim-to-real, entraînement multi-tâches, et adaptation de têtes d'action. Une analyse empirique extensive identifie plusieurs limitations communes aux approches actuelles, sans toutefois les détailler dans le résumé disponible. Ce qui distingue DexJoCo des benchmarks existants, selon ses auteurs, c'est qu'il cible précisément les capacités exclusives aux mains dextres multi-doigts, là où les évaluations existantes restent souvent réplicables avec de simples préhenseurs parallèles à deux mâchoires. Pour les chercheurs et équipes R&D travaillant sur les politiques robotiques (imitation learning, reinforcement learning), un pipeline d'évaluation standardisé facilite les comparaisons reproductibles entre architectures. L'inclusion de la randomisation de domaine est particulièrement pertinente : c'est le critère qui conditionne le passage du simulateur au robot physique, verrou central entre recherche académique et déploiement industriel. Les lacunes identifiées dans l'analyse empirique constituent un signal utile pour orienter les prochaines générations de modèles VLA (Vision-Language-Action) appliqués à la dextérité. La manipulation dextre connaît un regain d'intérêt depuis 2023, portée par les avancées hardware (Shadow Dexterous Hand, Allegro Hand, LEAP Hand) et l'essor de l'imitation learning à grande échelle. Des benchmarks comme DexMV (Carnegie Mellon), OAKINK (Shanghai Jiao Tong University) ou DexArt ont tenté d'établir des standards, mais la communauté manque d'un référentiel intégrant collecte, randomisation et évaluation multi-modèles dans un seul pipeline. DexJoCo s'appuie sur MuJoCo, racheté par DeepMind en 2021 et devenu standard de facto. La mise à disposition du dataset et du toolkit sur dexjoco.github.io vise à réduire les barrières à l'entrée. Les prochaines étapes attendues dans ce champ incluent la validation sur hardware physique et l'intégration de modèles fondation spécialisés comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) parmi les baselines de référence.

RecherchePaper
1 source