WorkBenchMark : un benchmark d'assemblage basé…

DexJoCo : un benchmark et une boîte à outils pour la manipulation dextérique orientée tâche sur MuJoCo

41

1arXiv cs.RO

DexJoCo : un benchmark et une boîte à outils pour la manipulation dextérique orientée tâche sur MuJoCo

Une équipe de recherche a mis en ligne DexJoCo, un benchmark et toolkit open-source pour la manipulation dextre orientée tâches, construit sur le simulateur physique MuJoCo. Publié sur arXiv en mai 2025 (arXiv:2605.16257), il comprend 11 tâches fonctionnellement ancrées couvrant quatre capacités ciblées : utilisation d'outils, coordination bimanuelle, exécution à long horizon et raisonnement. Les chercheurs ont développé un système de collecte de données bas coût et constitué un dataset de 1 100 trajectoires annotées réparties sur l'ensemble des tâches. Le benchmark permet d'évaluer les politiques sous plusieurs configurations : randomisation visuelle et dynamique pour tester la robustesse au transfert sim-to-real, entraînement multi-tâches, et adaptation de têtes d'action. Une analyse empirique extensive identifie plusieurs limitations communes aux approches actuelles, sans toutefois les détailler dans le résumé disponible. Ce qui distingue DexJoCo des benchmarks existants, selon ses auteurs, c'est qu'il cible précisément les capacités exclusives aux mains dextres multi-doigts, là où les évaluations existantes restent souvent réplicables avec de simples préhenseurs parallèles à deux mâchoires. Pour les chercheurs et équipes R&D travaillant sur les politiques robotiques (imitation learning, reinforcement learning), un pipeline d'évaluation standardisé facilite les comparaisons reproductibles entre architectures. L'inclusion de la randomisation de domaine est particulièrement pertinente : c'est le critère qui conditionne le passage du simulateur au robot physique, verrou central entre recherche académique et déploiement industriel. Les lacunes identifiées dans l'analyse empirique constituent un signal utile pour orienter les prochaines générations de modèles VLA (Vision-Language-Action) appliqués à la dextérité. La manipulation dextre connaît un regain d'intérêt depuis 2023, portée par les avancées hardware (Shadow Dexterous Hand, Allegro Hand, LEAP Hand) et l'essor de l'imitation learning à grande échelle. Des benchmarks comme DexMV (Carnegie Mellon), OAKINK (Shanghai Jiao Tong University) ou DexArt ont tenté d'établir des standards, mais la communauté manque d'un référentiel intégrant collecte, randomisation et évaluation multi-modèles dans un seul pipeline. DexJoCo s'appuie sur MuJoCo, racheté par DeepMind en 2021 et devenu standard de facto. La mise à disposition du dataset et du toolkit sur dexjoco.github.io vise à réduire les barrières à l'entrée. Les prochaines étapes attendues dans ce champ incluent la validation sur hardware physique et l'intégration de modèles fondation spécialisés comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) parmi les baselines de référence.

RecherchePaper

1 source

UMI-Bench 1.0 : un benchmark ouvert et reproductible pour la manipulation robotique de surface avec données UMI

41

2arXiv cs.RO

UMI-Bench 1.0 : un benchmark ouvert et reproductible pour la manipulation robotique de surface avec données UMI

Une équipe de recherche a déposé le 10 juin 2026 le preprint arXiv 2606.10382 décrivant UMI-Bench 1.0, présenté comme le premier benchmark entièrement dédié à l'évaluation en conditions réelles de politiques de manipulation robotique entraînées via l'Universal Manipulation Interface (UMI). Le benchmark cible la manipulation d'objets sur table (tabletop manipulation) et couvre l'intégralité de la chaîne de validation : collecte de données, réinitialisation de scène entre essais, exécution de politique, journalisation des résultats et analyse par facteurs de tâche. Il opère en mode "local-first", c'est-à-dire que les évaluations tournent directement sur robot réel, sans couche de simulation intermédiaire. L'UMI couple observations depuis une caméra montée au poignet, représentation des actions, collecte de démonstrations humaines et déploiement physique, une architecture dont les performances dépendent de la cohérence de chaque maillon. Ce benchmark répond à un problème structurel de l'apprentissage par imitation : l'absence de protocole standardisé conduit chaque équipe à évaluer ses politiques dans des conditions non comparables, ce qui rend la littérature difficile à arbitrer pour un intégrateur ou un décideur industriel. En rendant le processus reproductible et auditable, UMI-Bench permet de mesurer concrètement dans quelle mesure une politique entraînée sur des démonstrations généralise à des configurations physiques inédites, ce que les chercheurs appellent la sim-to-real (ici demo-to-real) generalization. C'est un enjeu central pour les politiques de diffusion (Diffusion Policy) et les VLA (Vision-Language-Action models), dont les performances en démonstration sélectionnée restent difficiles à quantifier sans infrastructure de test commune. L'UMI a été introduit en 2023-2024 par Cheng Chi et al. (Columbia University) comme interface portable de collecte de démonstrations : un opérateur guide un gripper équipé d'une caméra et d'un module de localisation, et les trajectoires servent directement à entraîner des politiques. Le paysage concurrent des benchmarks comprend LIBERO, DROID et le framework LeRobot de Hugging Face, qui proposent leurs propres protocoles mais sans calibration spécifique pour le pipeline UMI. L'étape logique suivante serait l'intégration de modèles fondationnels comme pi-0 (Physical Intelligence) ou OpenVLA dans ce protocole de référence, et l'extension à des tâches multi-étapes.

RecherchePaper

1 source

L-Learning : une approche basée sur Lyapunov exploitant la mécanique lagrangienne pour un suivi robotique efficace et stable

35

3arXiv cs.RO

L-Learning : une approche basée sur Lyapunov exploitant la mécanique lagrangienne pour un suivi robotique efficace et stable

Une équipe de chercheurs a publié en mai 2026 sur arXiv (arXiv:2605.26648) un framework de contrôle baptisé L-Learning, conçu pour améliorer le suivi de trajectoire des robots dans des environnements dynamiques et incertains. L'approche combine deux cadres mathématiques éprouvés : la théorie de stabilité de Lyapunov, qui garantit la convergence d'un système vers un état stable, et la mécanique lagrangienne, qui modélise le comportement physique d'un système à partir de ses fonctions d'énergie. Concrètement, L-Learning apprend cette fonction d'énergie directement depuis les données collectées, puis s'en sert pour calculer des commandes qui assurent à la fois précision de suivi et stabilité en boucle fermée. Les auteurs mettent en avant trois propriétés clés : précision de contrôle supérieure, garanties théoriques de stabilité, et haute efficacité en termes de complexité d'échantillonnage. L'enjeu industriel est réel. Le contrôle robotique moderne est pris en étau entre deux familles de méthodes : les approches classiques (PID, MPC) offrent des garanties formelles de stabilité mais se dégradent dès que le modèle du système est imprécis ou que l'environnement évolue ; à l'inverse, les méthodes data-driven (apprentissage par renforcement, politiques neuronales) s'adaptent mieux mais nécessitent de grands volumes de données d'entraînement et ne proposent aucune garantie formelle, ce qui complique leur certification pour un déploiement industriel. L-Learning prétend combler ce fossé, et si ses performances se confirment expérimentalement, cela pourrait réduire la barrière à la mise en production de contrôleurs appris sur des robots manipulateurs ou mobiles, y compris dans des contextes soumis à certification. Le framework s'inscrit dans un courant de recherche actif autour des fonctions de Lyapunov neuronales, avec des travaux concurrents menés notamment chez DeepMind, MIT CSAIL et Caltech sur l'apprentissage de certificats de stabilité. À noter que cette publication est un preprint arXiv sans revue par les pairs finalisée : l'abstract ne fournit aucun benchmark chiffré sur des plateformes réelles (bras, humanoïdes, AMR), ni de comparaison directe avec des baselines standards comme CLF-QP ou des politiques RL classiques. La valeur concrète de L-Learning restera à confirmer lors d'expériences sur matériel physique, ce qui constitue le prochain test décisif pour cette approche.

RecherchePaper

1 source

IMBench : un benchmark pour la manipulation robotique intuitive

41

4arXiv cs.RO

IMBench : un benchmark pour la manipulation robotique intuitive

Une équipe de recherche publie IMBench, un nouveau benchmark conçu pour évaluer ce qu'elle appelle la « manipulation intuitive » des robots, c'est-à-dire la capacité à combiner raisonnement physique et exécution motrice de façon intégrée, plutôt que de tester ces deux compétences séparément. L'article, déposé sur arXiv le 15 juillet 2026, propose un jeu de 35 tâches couvrant la manipulation avec contact riche, l'usage d'outils et les dépendances multi-étapes, accompagné de 14 000 trajectoires filtrées et d'outils permettant de générer de nouveaux scénarios à l'échelle. Contrairement aux benchmarks existants, IMBench exige des modèles qu'ils identifient d'abord la structure physique pertinente d'une scène (poids, friction, contraintes géométriques) avant de produire une séquence d'actions exécutable sous contraintes explicites. Les auteurs ont testé à la fois des modèles vision-langage (VLM) et des modèles vision-langage-action (VLA) de dernière génération sur cet ensemble de tâches. Les résultats mettent en évidence un écart systématique dans les systèmes actuels : les VLM montrent une capacité de raisonnement physique partielle mais ne parviennent pas à traduire ce raisonnement en plans d'action exécutables, tandis que les VLA de pointe échouent à respecter les contraintes des tâches et généralisent mal d'un scénario à l'autre. Pour l'industrie robotique, ce constat confirme un doute déjà répandu chez les intégrateurs : la performance affichée par les politiques génératives sur des démonstrations contrôlées ne garantit pas une compréhension physique transférable à des scènes nouvelles. IMBench propose ainsi une mesure plus rigoureuse pour distinguer les systèmes qui « comprennent » réellement une scène de ceux qui reproduisent des schémas d'entraînement. Ce travail s'inscrit dans une vague récente de benchmarks cherchant à combler le fossé entre évaluation en simulation et déploiement réel, alors que des modèles comme GR00T N2, Pi-0 ou Helix visent une manipulation généraliste dans des environnements variés. En isolant explicitement la composante « raisonnement intuitif » comme axe manquant des politiques robotiques actuelles, les auteurs positionnent IMBench comme un outil de diagnostic pour orienter les prochaines générations de modèles fondation en robotique, plutôt que comme un simple classement de performance brute.

RecherchePaper

1 source

WorkBenchMark : un benchmark d'assemblage basé sur LEGO avec une approche assemblage-par-désassemblage pour la Smart Manufacturing League

À lire aussi

DexJoCo : un benchmark et une boîte à outils pour la manipulation dextérique orientée tâche sur MuJoCo

UMI-Bench 1.0 : un benchmark ouvert et reproductible pour la manipulation robotique de surface avec données UMI

L-Learning : une approche basée sur Lyapunov exploitant la mécanique lagrangienne pour un suivi robotique efficace et stable

IMBench : un benchmark pour la manipulation robotique intuitive