Aller au contenu principal
WorkBenchMark : un benchmark d'assemblage basé sur LEGO avec une approche assemblage-par-désassemblage pour la Smart Manufacturing League
RecherchearXiv cs.RO2h

WorkBenchMark : un benchmark d'assemblage basé sur LEGO avec une approche assemblage-par-désassemblage pour la Smart Manufacturing League

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié WorkBenchMark, un benchmark d'assemblage robotique basé sur des briques LEGO Duplo, conçu dans le cadre de la RoboCup Smart Manufacturing League. Il comprend 400 tâches réparties en quatre niveaux de complexité croissante, couvrant la manipulation de pièces, leur positionnement et leur emboîtement sous contraintes physiques. L'équipe propose également une solution de référence baptisée "Assembly-by-Disassembly" : plutôt que d'apprendre directement l'assemblage, le système utilise la désassemblage pour inférer les étapes inverses, couplé à une perception en vocabulaire ouvert. Le benchmark, l'environnement de simulation et l'implémentation de référence seront publiés en open source.

Ce qui retient l'attention est le résultat de l'évaluation comparative : le pipeline à base de planification symbolique surpasse une approche moderne de type VLA (Vision-Language-Action) sur l'ensemble des quatre niveaux de difficulté. C'est un signal notable pour le secteur, car les VLA sont actuellement présentées comme la voie principale vers la manipulation généraliste. L'assemblage est précisément le type de tâche qui met en défaut les approches bout-en-bout : il nécessite à la fois une précision de manipulation millimétrique et un raisonnement symbolique sur des séquences d'étapes interdépendantes, une combinaison que les modèles end-to-end ne résolvent pas encore de façon fiable à grande échelle.

WorkBenchMark s'inscrit dans la tradition des benchmarks robotiques standardisés, similaire à ce que YCB ou NIST Assembly ont représenté pour la préhension et l'assemblage industriel. La RoboCup Smart Manufacturing League, qui en est le cadre compétitif, cible explicitement les cas d'usage de manufacture intelligente. Face aux approches concurrentes comme pi0 de Physical Intelligence ou les pipelines VLA de Google DeepMind, ce travail soutient l'hypothèse que la planification hybride reste compétitive pour les tâches structurées, et offre à la communauté un terrain d'évaluation reproductible pour en débattre.

Impact France/UE

Le benchmark open-source pourrait bénéficier aux laboratoires de recherche européens actifs en manipulation robotique industrielle, mais aucun acteur FR/EU n'est directement impliqué.

À lire aussi

DexJoCo : un benchmark et une boîte à outils pour la manipulation dextérique orientée tâche sur MuJoCo
1arXiv cs.RO 

DexJoCo : un benchmark et une boîte à outils pour la manipulation dextérique orientée tâche sur MuJoCo

Une équipe de recherche a mis en ligne DexJoCo, un benchmark et toolkit open-source pour la manipulation dextre orientée tâches, construit sur le simulateur physique MuJoCo. Publié sur arXiv en mai 2025 (arXiv:2605.16257), il comprend 11 tâches fonctionnellement ancrées couvrant quatre capacités ciblées : utilisation d'outils, coordination bimanuelle, exécution à long horizon et raisonnement. Les chercheurs ont développé un système de collecte de données bas coût et constitué un dataset de 1 100 trajectoires annotées réparties sur l'ensemble des tâches. Le benchmark permet d'évaluer les politiques sous plusieurs configurations : randomisation visuelle et dynamique pour tester la robustesse au transfert sim-to-real, entraînement multi-tâches, et adaptation de têtes d'action. Une analyse empirique extensive identifie plusieurs limitations communes aux approches actuelles, sans toutefois les détailler dans le résumé disponible. Ce qui distingue DexJoCo des benchmarks existants, selon ses auteurs, c'est qu'il cible précisément les capacités exclusives aux mains dextres multi-doigts, là où les évaluations existantes restent souvent réplicables avec de simples préhenseurs parallèles à deux mâchoires. Pour les chercheurs et équipes R&D travaillant sur les politiques robotiques (imitation learning, reinforcement learning), un pipeline d'évaluation standardisé facilite les comparaisons reproductibles entre architectures. L'inclusion de la randomisation de domaine est particulièrement pertinente : c'est le critère qui conditionne le passage du simulateur au robot physique, verrou central entre recherche académique et déploiement industriel. Les lacunes identifiées dans l'analyse empirique constituent un signal utile pour orienter les prochaines générations de modèles VLA (Vision-Language-Action) appliqués à la dextérité. La manipulation dextre connaît un regain d'intérêt depuis 2023, portée par les avancées hardware (Shadow Dexterous Hand, Allegro Hand, LEAP Hand) et l'essor de l'imitation learning à grande échelle. Des benchmarks comme DexMV (Carnegie Mellon), OAKINK (Shanghai Jiao Tong University) ou DexArt ont tenté d'établir des standards, mais la communauté manque d'un référentiel intégrant collecte, randomisation et évaluation multi-modèles dans un seul pipeline. DexJoCo s'appuie sur MuJoCo, racheté par DeepMind en 2021 et devenu standard de facto. La mise à disposition du dataset et du toolkit sur dexjoco.github.io vise à réduire les barrières à l'entrée. Les prochaines étapes attendues dans ce champ incluent la validation sur hardware physique et l'intégration de modèles fondation spécialisés comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) parmi les baselines de référence.

RecherchePaper
1 source
UMI-Bench 1.0 : un benchmark ouvert et reproductible pour la manipulation robotique de surface avec données UMI
2arXiv cs.RO 

UMI-Bench 1.0 : un benchmark ouvert et reproductible pour la manipulation robotique de surface avec données UMI

Une équipe de recherche a déposé le 10 juin 2026 le preprint arXiv 2606.10382 décrivant UMI-Bench 1.0, présenté comme le premier benchmark entièrement dédié à l'évaluation en conditions réelles de politiques de manipulation robotique entraînées via l'Universal Manipulation Interface (UMI). Le benchmark cible la manipulation d'objets sur table (tabletop manipulation) et couvre l'intégralité de la chaîne de validation : collecte de données, réinitialisation de scène entre essais, exécution de politique, journalisation des résultats et analyse par facteurs de tâche. Il opère en mode "local-first", c'est-à-dire que les évaluations tournent directement sur robot réel, sans couche de simulation intermédiaire. L'UMI couple observations depuis une caméra montée au poignet, représentation des actions, collecte de démonstrations humaines et déploiement physique, une architecture dont les performances dépendent de la cohérence de chaque maillon. Ce benchmark répond à un problème structurel de l'apprentissage par imitation : l'absence de protocole standardisé conduit chaque équipe à évaluer ses politiques dans des conditions non comparables, ce qui rend la littérature difficile à arbitrer pour un intégrateur ou un décideur industriel. En rendant le processus reproductible et auditable, UMI-Bench permet de mesurer concrètement dans quelle mesure une politique entraînée sur des démonstrations généralise à des configurations physiques inédites, ce que les chercheurs appellent la sim-to-real (ici demo-to-real) generalization. C'est un enjeu central pour les politiques de diffusion (Diffusion Policy) et les VLA (Vision-Language-Action models), dont les performances en démonstration sélectionnée restent difficiles à quantifier sans infrastructure de test commune. L'UMI a été introduit en 2023-2024 par Cheng Chi et al. (Columbia University) comme interface portable de collecte de démonstrations : un opérateur guide un gripper équipé d'une caméra et d'un module de localisation, et les trajectoires servent directement à entraîner des politiques. Le paysage concurrent des benchmarks comprend LIBERO, DROID et le framework LeRobot de Hugging Face, qui proposent leurs propres protocoles mais sans calibration spécifique pour le pipeline UMI. L'étape logique suivante serait l'intégration de modèles fondationnels comme pi-0 (Physical Intelligence) ou OpenVLA dans ce protocole de référence, et l'extension à des tâches multi-étapes.

RecherchePaper
1 source
L-Learning : une approche basée sur Lyapunov exploitant la mécanique lagrangienne pour un suivi robotique efficace et stable
3arXiv cs.RO 

L-Learning : une approche basée sur Lyapunov exploitant la mécanique lagrangienne pour un suivi robotique efficace et stable

Une équipe de chercheurs a publié en mai 2026 sur arXiv (arXiv:2605.26648) un framework de contrôle baptisé L-Learning, conçu pour améliorer le suivi de trajectoire des robots dans des environnements dynamiques et incertains. L'approche combine deux cadres mathématiques éprouvés : la théorie de stabilité de Lyapunov, qui garantit la convergence d'un système vers un état stable, et la mécanique lagrangienne, qui modélise le comportement physique d'un système à partir de ses fonctions d'énergie. Concrètement, L-Learning apprend cette fonction d'énergie directement depuis les données collectées, puis s'en sert pour calculer des commandes qui assurent à la fois précision de suivi et stabilité en boucle fermée. Les auteurs mettent en avant trois propriétés clés : précision de contrôle supérieure, garanties théoriques de stabilité, et haute efficacité en termes de complexité d'échantillonnage. L'enjeu industriel est réel. Le contrôle robotique moderne est pris en étau entre deux familles de méthodes : les approches classiques (PID, MPC) offrent des garanties formelles de stabilité mais se dégradent dès que le modèle du système est imprécis ou que l'environnement évolue ; à l'inverse, les méthodes data-driven (apprentissage par renforcement, politiques neuronales) s'adaptent mieux mais nécessitent de grands volumes de données d'entraînement et ne proposent aucune garantie formelle, ce qui complique leur certification pour un déploiement industriel. L-Learning prétend combler ce fossé, et si ses performances se confirment expérimentalement, cela pourrait réduire la barrière à la mise en production de contrôleurs appris sur des robots manipulateurs ou mobiles, y compris dans des contextes soumis à certification. Le framework s'inscrit dans un courant de recherche actif autour des fonctions de Lyapunov neuronales, avec des travaux concurrents menés notamment chez DeepMind, MIT CSAIL et Caltech sur l'apprentissage de certificats de stabilité. À noter que cette publication est un preprint arXiv sans revue par les pairs finalisée : l'abstract ne fournit aucun benchmark chiffré sur des plateformes réelles (bras, humanoïdes, AMR), ni de comparaison directe avec des baselines standards comme CLF-QP ou des politiques RL classiques. La valeur concrète de L-Learning restera à confirmer lors d'expériences sur matériel physique, ce qui constitue le prochain test décisif pour cette approche.

RecherchePaper
1 source
Apprentissage par renforcement visuel avec politique primitive séparée pour l'assemblage par emboîtement
4arXiv cs.RO 

Apprentissage par renforcement visuel avec politique primitive séparée pour l'assemblage par emboîtement

Des chercheurs ont publié sur arXiv (référence 2504.14820) une approche de reinforcement learning visuel baptisée Separate Primitive Policy (S2P), conçue pour automatiser les tâches d'assemblage par insertion cheville-trou (peg-in-hole). La méthode s'inspire du comportement humain en vision binoculaire : un opérateur localise d'abord visuellement la cheville au-dessus de la surface cible, puis exécute l'insertion. S2P décompose ce processus en deux primitives apprises simultanément, la localisation et l'insertion, dans un cadre de reinforcement learning sans modèle (model-free). Les auteurs ont développé dix tâches d'insertion distinctes utilisant des formes polygonales variées comme banc d'essai standardisé, ont conduit des expériences en simulation avec contraintes de force, puis validé l'approche sur robot réel. L'intérêt principal de S2P réside dans son gain de sample efficiency, c'est-à-dire la capacité à apprendre une politique efficace avec moins d'interactions avec l'environnement, combiné à une amélioration du taux de succès même lorsque des contraintes de force sont imposées. Pour les intégrateurs industriels, c'est un signal concret : l'assemblage fin, encore largement opéré par des systèmes rigides à programmation manuelle, devient plus accessible à l'apprentissage automatique en présence de retour visuel. La compatibilité affichée avec n'importe quel algorithme RL model-free élargit le spectre d'application, même si les performances absolues restent à confirmer hors des conditions de laboratoire présentées dans le papier. Le peg-in-hole est un benchmark historique en manipulation robotique, standardisé notamment dans le cadre des compétitions NIST Assembly Task Board. Des approches concurrentes combinent typiquement vision et retour d'effort (force-torque control), ou s'appuient sur des politiques d'imitation comme les VLA (Vision-Language-Action models) de Physical Intelligence (Pi-0) ou les travaux de simulation massive de NVIDIA Isaac Lab. S2P se positionne dans un espace différent, celui du RL visuel pur avec décomposition de primitives, une direction que des équipes comme celles de DeepMind et CMU explorent également. Les prochaines étapes naturelles concernent la robustesse aux variations d'éclairage, aux tolérances mécaniques réelles, et la généralisation à des géométries non vues en entraînement.

UEImpact indirect : les équipes R&D et intégrateurs industriels européens travaillant sur l'assemblage automatisé peuvent intégrer S2P dans leur veille sur le RL visuel pour la manipulation fine, sans déploiement ni acteur européen directement impliqué.

RecherchePaper
1 source