Aller au contenu principal
DuoBench : un benchmark reproductible pour la manipulation bimanuelles en simulation et dans le monde réel
FR/EU ecosystemearXiv cs.RO2j

DuoBench : un benchmark reproductible pour la manipulation bimanuelles en simulation et dans le monde réel

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié en juin 2026 DuoBench, un cadre de benchmarking dédié à la manipulation bimanuelle, conçu pour la plateforme FR3 Duo de Franka Robotics. Le benchmark comprend onze tâches réparties en quatre catégories de coordination, implémentées en simulation et partiellement reproduites en environnement réel grâce à des protocoles reproductibles incluant des composants imprimables en 3D. Les auteurs ont constitué des jeux de données de télé-opération humaine pour l'ensemble des onze tâches, et proposent un schéma d'évaluation par étapes (stage-based evaluation) permettant une analyse sémantique fine des modes d'échec, au-delà du simple critère binaire succès/échec. Plusieurs politiques d'apprentissage par imitation à deux bras ainsi que des politiques VLA (vision-language-action) ont été évaluées en simulation et sur matériel réel.

Les résultats sont sans ambiguïté : les politiques actuelles, y compris les approches VLA considérées comme l'état de l'art, restent insuffisantes pour la manipulation bimanuelle. Les échecs se concentrent sur trois axes : les phases d'interaction initiale, l'exécution parallèle des deux bras, et le transfert simulation-réel (sim-to-real). Ce dernier point est particulièrement significatif : malgré les progrès récents sur le gap sim-to-real pour la manipulation à un bras, DuoBench révèle que la coordination bimanuelle pose des défis supplémentaires non résolus. Pour les équipes R&D et les intégrateurs industriels, ce benchmark fournit un outil diagnostique structuré pour identifier précisément où les politiques échouent, une lacune que les frameworks existants comme RLBench ou LIBERO, conçus pour les systèmes à un seul bras, ne comblaient pas.

La manipulation bimanuelle est un prérequis pour de nombreuses tâches complexes en industrie (assemblage, conditionnement, manipulation d'objets déformables), ce qui explique l'intérêt croissant du secteur pour les plateformes à deux bras. Le FR3 Duo de Franka Robotics est l'une des rares plateformes de recherche standardisées pour ce segment. Dans la course aux capacités bimanuelles, des acteurs comme Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, ou Figure AI avec ses robots humanoïdes ont annoncé des performances prometteuses, mais les benchmarks publics rigoureux permettant de les comparer restent rares. DuoBench, dont le code, les jeux de données et les vidéos sont disponibles sur duobench.github.io, ambitionne de combler ce manque avec un protocole reproductible que tout laboratoire peut répliquer à faible coût grâce aux assets imprimables en 3D.

Impact France/UE

Franka Robotics (Allemagne) est la plateforme centrale de DuoBench, offrant aux laboratoires et équipes R&D européens un benchmark standardisé et reproductible pour évaluer leurs politiques bimanuelle, y compris les approches VLA, sans disposer de ressources matérielles coûteuses.

À lire aussi

TAVIS : un benchmark pour la vision active égocentrique et le regard anticipateur en apprentissage par imitation
1arXiv cs.RO 

TAVIS : un benchmark pour la vision active égocentrique et le regard anticipateur en apprentissage par imitation

Une équipe de chercheurs a publié TAVIS, un environnement d'évaluation standardisé pour comparer les approches de vision active en apprentissage par imitation, soit la capacité d'une politique robotique à contrôler son propre regard pendant une tâche de manipulation. Le benchmark comprend deux suites : TAVIS-Head (5 tâches avec caméra sur cardan pan/tilt pour la recherche globale de scène) et TAVIS-Hands (3 tâches avec caméras de poignet pour gérer les occlusions locales). Il est construit sur IsaacLab et s'appuie sur deux embodiments de torse humanoïde : le GR1T2 de Fourier Intelligence et le Reachy2 de Pollen Robotics (Bordeaux). Environ 2 200 épisodes de démonstrations téléopérées sont publiés en format LeRobot v3.0 sur HuggingFace, avec Diffusion Policy et π₀ (Physical Intelligence) comme baselines. Trois résultats principaux ressortent : la vision active améliore les performances, mais de façon conditionnelle à la tâche ; les politiques multi-tâches se dégradent nettement sous distribution shift contrôlé ; et l'imitation seule produit un regard anticipatoire dont les temps de préemption médians, mesurés par la métrique GALT (Gaze-Action Lead Time), sont comparables à ceux du téléopérateur humain de référence. Jusqu'ici, plusieurs groupes avaient démontré indépendamment les bénéfices de la vision active en 2024-2025, sans base commune de comparaison. TAVIS comble ce vide avec trois primitives reproductibles : un protocole comparatif caméra mobile/caméra fixe sur des démonstrations identiques, la métrique GALT issue des sciences cognitives et de l'HRI (Human-Robot Interaction), et des splits procéduraux in-distribution/out-of-distribution. Le constat que les gains sont task-conditional invalide l'hypothèse naïve qu'ajouter des degrés de liberté à la caméra améliore systématiquement les performances, nuance décisive pour les intégrateurs industriels. La fragilité sous distribution shift constitue un signal d'alarme concret pour tout déploiement hors simulation. La vision active en manipulation connaît un regain d'intérêt depuis 2024, porté par les progrès des VLA (Vision-Language-Action models) et la disponibilisation de robots humanoïdes à têtes articulées. Le choix de Reachy2 comme plateforme de référence est notable : Pollen Robotics, startup bordelaise fondée en 2016, est l'un des rares acteurs européens dont le robot open-source figure dans des benchmarks académiques internationaux, face aux concurrents américains (Figure, Agility) et asiatiques (Fourier, Unitree). Les prochaines étapes naturelles incluent l'évaluation de politiques VLA récentes comme GR00T N2 ou OpenVLA sur TAVIS, ainsi que le transfert sim-to-real, que le papier ne couvre pas encore.

UEPollen Robotics (Bordeaux) est l'une des deux seules plateformes de référence du benchmark TAVIS, ce qui ancre un acteur français open-source au cœur d'une infrastructure d'évaluation académique internationale pour les politiques VLA.

FR/EU ecosystemePaper
1 source
UMI-Bench 1.0 : un benchmark ouvert et reproductible pour la manipulation robotique de surface avec données UMI
2arXiv cs.RO 

UMI-Bench 1.0 : un benchmark ouvert et reproductible pour la manipulation robotique de surface avec données UMI

Une équipe de recherche a déposé le 10 juin 2026 le preprint arXiv 2606.10382 décrivant UMI-Bench 1.0, présenté comme le premier benchmark entièrement dédié à l'évaluation en conditions réelles de politiques de manipulation robotique entraînées via l'Universal Manipulation Interface (UMI). Le benchmark cible la manipulation d'objets sur table (tabletop manipulation) et couvre l'intégralité de la chaîne de validation : collecte de données, réinitialisation de scène entre essais, exécution de politique, journalisation des résultats et analyse par facteurs de tâche. Il opère en mode "local-first", c'est-à-dire que les évaluations tournent directement sur robot réel, sans couche de simulation intermédiaire. L'UMI couple observations depuis une caméra montée au poignet, représentation des actions, collecte de démonstrations humaines et déploiement physique, une architecture dont les performances dépendent de la cohérence de chaque maillon. Ce benchmark répond à un problème structurel de l'apprentissage par imitation : l'absence de protocole standardisé conduit chaque équipe à évaluer ses politiques dans des conditions non comparables, ce qui rend la littérature difficile à arbitrer pour un intégrateur ou un décideur industriel. En rendant le processus reproductible et auditable, UMI-Bench permet de mesurer concrètement dans quelle mesure une politique entraînée sur des démonstrations généralise à des configurations physiques inédites, ce que les chercheurs appellent la sim-to-real (ici demo-to-real) generalization. C'est un enjeu central pour les politiques de diffusion (Diffusion Policy) et les VLA (Vision-Language-Action models), dont les performances en démonstration sélectionnée restent difficiles à quantifier sans infrastructure de test commune. L'UMI a été introduit en 2023-2024 par Cheng Chi et al. (Columbia University) comme interface portable de collecte de démonstrations : un opérateur guide un gripper équipé d'une caméra et d'un module de localisation, et les trajectoires servent directement à entraîner des politiques. Le paysage concurrent des benchmarks comprend LIBERO, DROID et le framework LeRobot de Hugging Face, qui proposent leurs propres protocoles mais sans calibration spécifique pour le pipeline UMI. L'étape logique suivante serait l'intégration de modèles fondationnels comme pi-0 (Physical Intelligence) ou OpenVLA dans ce protocole de référence, et l'extension à des tâches multi-étapes.

RecherchePaper
1 source
RoboWM-Bench : un benchmark pour évaluer les modèles du monde en manipulation robotique
3arXiv cs.RO 

RoboWM-Bench : un benchmark pour évaluer les modèles du monde en manipulation robotique

Une équipe de chercheurs a déposé sur arXiv (identifiant 2604.19092) RoboWM-Bench, un benchmark dédié à l'évaluation des world models vidéo pour la manipulation robotique. Le protocole est exigeant : les comportements générés par ces modèles, à partir de vidéos de mains humaines ou de robots en action, sont convertis en séquences d'actions exécutables, puis validés par exécution réelle sur robot physique. Les évaluations conduites sur les meilleurs world models actuels sont sans appel : produire des comportements physiquement exécutables de manière fiable reste un problème ouvert. Les modes d'échec récurrents identifiés incluent les erreurs de raisonnement spatial, la prédiction instable des contacts entre effecteur et objet, et les déformations non physiques de matériaux. Un fine-tuning sur données de manipulation améliore les résultats, mais les incohérences physiques persistent. Ce constat soulève une question stratégique pour l'industrie : peut-on utiliser des world models comme simulateurs bon marché pour générer des données d'entraînement, en remplacement des démonstrations terrain coûteuses ? Le réalisme visuel d'une vidéo générée ne garantit pas sa plausibilité physique, une distinction que les benchmarks existants, majoritairement orientés perception ou diagnostic, ne permettaient pas de mesurer. En imposant la validation par exécution réelle comme critère central, RoboWM-Bench dépasse les métriques habituelles de cohérence temporelle ou de FID. Pour les équipes engineering et les intégrateurs, la conclusion est opérationnelle : les world models actuels ne sont pas encore substituables aux démonstrations réelles pour l'apprentissage de politiques de manipulation précise. L'intérêt pour les world models en robotique s'est intensifié depuis 2024, porté par des modèles génératifs comme Sora (OpenAI), Genie 2 (Google DeepMind) ou UniSim, et alimenté par les avancées des VLA (Vision-Language-Action). L'hypothèse qu'un monde simulé pourrait tenir lieu de terrain d'entraînement, évitant la collecte de données réelles, est au coeur des investissements d'une dizaine de startups et labos académiques actifs sur ce créneau. RoboWM-Bench s'inscrit dans une dynamique de standardisation comparable à ce que RoboMimic ou MetaWorld ont établi pour l'imitation learning : un protocole unifié et reproductible. Aucune affiliation institutionnelle ni timeline d'extension du benchmark ne figurent dans le preprint, ce qui en limite la portée immédiate, mais la publication envoie un signal net : la communauté robotique commence à exiger des preuves d'exécutabilité physique, et non plus seulement de cohérence visuelle.

RecherchePaper
1 source
Festo lance GripperAI, un logiciel pour simplifier la manipulation flexible des robots
4Robotics & Automation News 

Festo lance GripperAI, un logiciel pour simplifier la manipulation flexible des robots

Festo a lancé GripperAI, un logiciel d'intelligence artificielle destiné à simplifier la préhension flexible en robotique industrielle. La solution permet à un robot de saisir des produits mélangés, inconnus ou positionnés aléatoirement sans programmation préalable, sans chargement de gabarits et sans intégration spécialisée de systèmes de vision. Le logiciel identifie automatiquement le point de préhension optimal pour chaque pièce et sélectionne l'effecteur le plus adapté parmi ceux disponibles, sans intervention d'un intégrateur à chaque changement de référence produit. L'enjeu est significatif pour les lignes de conditionnement, logistique et assemblage léger : la reprogrammation manuelle lors des changements de produits représente aujourd'hui l'un des principaux freins à la flexibilité des cellules robotisées. Une solution capable de gérer le bin-picking et le mixed-SKU handling sans expertise vision spécialisée réduit à la fois les coûts d'intégration et les temps d'arrêt lors des transitions de production. À noter toutefois que l'article source ne précise ni les taux de réussite de préhension, ni les temps de cycle, ni les conditions de test, des métriques indispensables pour évaluer la maturité industrielle réelle du produit. Festo, groupe allemand spécialisé en automatisation pneumatique et électrique avec plus de 20 000 employés, intensifie depuis plusieurs années son virage vers les solutions logicielles et l'IA embarquée. Sur ce segment de la préhension intelligente, la concurrence inclut Pickit (Belge, racheté par Intertek), Robovision et plusieurs offres OEM de FANUC, KUKA et Universal Robots. Les prochaines étapes annoncées par Festo restent floues à ce stade, GripperAI n'ayant pas encore de timeline de déploiement commercial communiquée publiquement.

UEFesto (DE), acteur majeur de l'automatisation industrielle européenne, introduit une solution IA de préhension flexible qui pourrait réduire les coûts d'intégration sur les lignes industrielles EU, dans un segment où des concurrents européens comme Pickit (BE) et Robovision sont directement positionnés.

FR/EU ecosystemeActu
1 source