ATOM-Bench : un benchmark réel pour les…

RoboDojo : un benchmark unifié simulation-réel pour évaluer les politiques de manipulation robotique généralistes

47

1arXiv cs.RO

RoboDojo : un benchmark unifié simulation-réel pour évaluer les politiques de manipulation robotique généralistes

Une équipe de chercheurs présente RoboDojo, un banc d'essai unifié combinant simulation et monde réel pour évaluer les politiques génératives de manipulation robotique, celles capables d'exécuter des tâches variées à partir d'instructions en langage naturel. Le système comprend 42 tâches en simulation et 18 tâches en conditions réelles, couvrant des capacités complémentaires. Le volet simulation mesure cinq dimensions : la généralisation, la mémoire, la précision, l'exécution de tâches longues, et la compréhension d'instructions en vocabulaire ouvert. Le volet réel expose les politiques aux difficultés concrètes du déploiement physique. La plateforme s'appuie sur Isaac Sim pour la simulation parallèle à grande échelle, et sur RoboDojo-RealEval, un système d'évaluation réelle accessible à distance via le cloud, avec matériel standardisé, réinitialisation automatisée des scènes et protocole reproductible. Trente politiques ont été intégrées via XPolicyLab et testées sur ce banc d'essai, donnant lieu à un classement public consultable sur robodojo-benchmark.com. L'initiative répond à un problème structurel du secteur : la prolifération de politiques génératives de manipulation (VLA) ces deux dernières années s'est faite sans étalon de mesure commun, chaque laboratoire publiant ses propres métriques sur ses propres tâches. Les évaluations en simulation seule ignorent les aléas physiques du réel (éclairage, frottements, imprécisions de préhension), tandis que les tests réels restent coûteux, lents et rarement reproductibles d'un labo à l'autre. En forçant une comparaison directe entre simulation et déploiement physique sur les mêmes politiques, RoboDojo permet de quantifier l'écart entre performance démontrée et robustesse réelle, un point sensible pour tout intégrateur ou décideur industriel cherchant à choisir une politique de contrôle avant un déploiement en usine ou en entrepôt. Le projet s'inscrit dans une dynamique où plusieurs équipes de recherche ont développé des systèmes de contrôle génératifs concurrents sans cadre d'évaluation partagé. En proposant à la fois l'infrastructure logicielle (XPolicyLab) et le protocole de test standardisé, RoboDojo vise à devenir une référence commune, avec un classement public appelé à s'enrichir au fur et à mesure que de nouvelles politiques y seront soumises.

RecherchePaper

1 source

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances

47

2arXiv cs.RO

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances

AffordSim est un générateur de données simulées et benchmark pour la manipulation robotique consciente des affordances, publié en preprint sur arXiv en mai 2026 (référence 2604.11674). Le système répond à un problème structurel : les estimateurs de préhension génériques optimisent la stabilité sans logique de tâche et sélectionnent souvent la mauvaise zone fonctionnelle de l'objet, tandis que les annotations manuelles de contact doivent être réécrites pour chaque nouvel objet et chaque nouvelle tâche. AffordSim intègre la prédiction d'affordances 3D à vocabulaire ouvert dans un pipeline de simulation : à partir d'une instruction en langage naturel, il synthétise la scène, localise les régions fonctionnelles pertinentes sur les surfaces d'objets (la poignée d'une casserole, le bouton d'un tiroir), échantillonne des prises conditionnées à ces régions, puis sélectionne les trajectoires exécutables par planification de mouvement. La randomisation de pose, texture, éclairage et bruit d'image est intégrée pour favoriser le transfert sim-to-real. Le benchmark couvre 50 tâches, cinq embodiments robotiques distincts et plus de 500 objets rigides et articulés. Les politiques VLA (Vision-Language-Action) entraînées sur ces données transfèrent zéro-shot vers un Franka FR3 réel avec 24 % de succès moyen, sans aucun fine-tuning sur données physiques. La zone fonctionnelle d'un objet, l'affordance, est précisément le point de défaillance ignoré par les benchmarks de manipulation génériques : saisir le mauvais endroit rend l'action aval impossible quel que soit le planificateur. AffordSim atteint 93 % du taux de succès des annotations manuelles sur les tâches critiques d'affordance, et 89 % sur les tâches composites difficiles, ce qui valide l'annotation automatisée comme substitut crédible à l'annotation humaine à grande échelle. Pour les équipes développant des modèles de fondation robotique ou des politiques VLA, cela réduit drastiquement le coût de génération de données diversifiées. Le score de 24 % en zero-shot reste modeste, mais il constitue une preuve de principe importante : un pipeline entièrement simulé peut produire des politiques opérationnelles sur matériel réel, condition nécessaire à un déploiement industriel scalable. AffordSim s'inscrit dans la vague des générateurs de données synthétiques pour la manipulation, aux côtés de RoboGen, GenSim et des pipelines Nvidia Isaac. Le Franka FR3, bras académique de référence vendu autour de 15 000 euros, est l'unique plateforme réelle testée, ce qui limite la portée des conclusions hors de ce contexte de laboratoire. Les modèles de fondation robotique comme pi0 (Physical Intelligence) ou OpenVLA constituent le terrain applicatif naturel de cet outil. En Europe, des équipes comme le LAAS-CNRS à Toulouse et des startups comme Enchanted Tools (Paris, robots manipulateurs expressifs) pourraient exploiter ce type de générateur pour réduire leur dépendance aux plateformes de données propriétaires américaines. Ce travail restant un preprint non encore évalué par les pairs, les métriques avancées devront être confirmées lors d'une soumission en conférence (CoRL, RSS ou ICRA).

UELes équipes européennes comme le LAAS-CNRS (Toulouse) et Enchanted Tools (Paris) pourraient exploiter AffordSim pour réduire leur dépendance aux plateformes de données propriétaires américaines dans le développement de politiques VLA.

RechercheOpinion

1 source

Gouvernance par sonde atomique pour la mise à jour des compétences dans les politiques de robots compositionnels

34

3arXiv cs.RO

Gouvernance par sonde atomique pour la mise à jour des compétences dans les politiques de robots compositionnels

Des chercheurs ont publié sur arXiv (preprint 2604.26689) un protocole d'évaluation pour gouverner les mises à jour de compétences dans les politiques robotiques compositionnelles. Le problème concret : les bibliothèques de skills dans les systèmes déployés sont continuellement raffinées par fine-tuning, nouvelles démonstrations ou adaptation de domaine, mais les méthodes de composition existantes (BLADE, SymSkill, Generative Skill Chaining) supposent que la bibliothèque est figée au moment du test et ne caractérisent pas l'impact d'un remplacement de skill sur la composition globale. L'équipe introduit un protocole de swap cross-version par échantillonnage couplé (paired-sampling cross-version swap) sur les tâches de manipulation robosuite. Sur une tâche bimanuelle peg-in-hole, ils documentent un effet de skill dominant : un seul ECM (Elementary Composition Module) atteint 86,7 % de taux de succès atomique tandis que tous les autres restent sous 26,7 %, et la présence ou l'absence de cet ECM dominant dans une composition déplace le taux de succès de la composition jusqu'à +50 points de pourcentage. Ils testent également une tâche de pick où toutes les politiques saturent à 100 %, rendant l'effet indéfini, et couvrent au total 144 décisions de mise à jour de skill sur trois tâches. L'enseignement industriellement pertinent est que les métriques de distance comportementale hors-politique échouent à identifier l'ECM dominant, ce qui élimine le prédicteur bon marché le plus naturel pour un système de gouvernance en production. Pour pallier cela, les auteurs proposent une sonde de qualité atomique (atomic-quality probe) combinée à un Hybrid Selector : sur T6, la sonde atomique seule se situe 23 points sous la revalidation complète (64,6 % vs 87,5 % de correspondance oracle) à coût nul par décision ; le Hybrid Selector avec m=10 ramène cet écart à environ 12 points en mobilisant 46 % du coût d'une revalidation complète. Sur la moyenne inter-tâches des 144 événements, la sonde atomique seule reste à moins de 3 points de la revalidation complète, avec une réserve liée à l'oracle mixte. Pour les intégrateurs qui déploient des robots en production continue, ce résultat signifie qu'une stratégie de revalidation sélective peut préserver l'essentiel de la qualité compositionnelle à moitié coût, sans rejouer l'intégralité du test de composition à chaque mise à jour de skill. Ce travail s'inscrit dans un corpus académique croissant autour de la composition de politiques robotiques, domaine animé notamment par des méthodes comme Generative Skill Chaining et BLADE qui ont posé les bases du typed-composition mais sans mécanisme de gouvernance post-déploiement. Il n'existe à ce stade aucun déploiement industriel annoncé, ni partenariat OEM mentionné dans le preprint : il s'agit d'un résultat de recherche fondamentale évalué uniquement en simulation (robosuite). La portée pratique dépendra de la capacité à transférer ces résultats sur des stacks de policies VLA (Vision-Language-Action) plus récents, comme pi-zero de Physical Intelligence ou GR00T N2 de NVIDIA, qui multiplient précisément les modules compositionnels mis à jour en continu. Les prochaines étapes naturelles seraient une validation sim-to-real et une intégration dans des pipelines de CI/CD pour robots, un problème d'ingénierie encore largement ouvert.

RecherchePaper

1 source

TableVerse : un jeu de données de tables à grande échelle avec des dispositions ancrées dans le réel pour la manipulation généralisable

40

4arXiv cs.RO

TableVerse : un jeu de données de tables à grande échelle avec des dispositions ancrées dans le réel pour la manipulation généralisable

TableVerse est un nouveau pipeline Real2Sim entièrement automatisé qui transforme des images non structurées, glanées sur internet, en environnements de table simulables avec une échelle métrique précise et une stabilité mécanique vérifiée. Contrairement aux méthodes existantes qui génèrent des scènes à partir de texte ou par génération procédurale simplifiée, TableVerse reconstruit de manière déterministe des dispositions d'objets réellement observées, en préservant leur topologie authentique. Le pipeline intègre également un module de génération de trajectoires conditionné par tâche, capable de produire des démonstrations de préhension et dépose (pick-and-place) sans collision. À partir de cette chaîne complète, les chercheurs ont constitué TableVerse-100K, un corpus de 100 000 environnements de table uniques et physiquement cohérents, chacun associé à des trajectoires de manipulation interactives. L'enjeu principal est celui, bien identifié dans la robotique manipulative, du goulot d'étranglement des données : entraîner des politiques de manipulation généralisables nécessite des volumes massifs de scènes réalistes et denses en encombrement, proches de véritables environnements domestiques ou industriels. Les approches de synthèse par hallucination texte-vers-disposition ou par génération procédurale produisent souvent des agencements physiquement implausibles, avec un encombrement bien plus pauvre que celui d'un vrai bureau ou d'une vraie table de cuisine. En ancrant la génération de scènes dans des images réelles plutôt que dans l'imagination d'un modèle génératif, TableVerse cherche à combler cet écart entre données synthétiques et complexité du monde réel, un enjeu central pour les modèles de type VLA (vision-langage-action) qui peinent aujourd'hui à généraliser au-delà de leurs environnements d'entraînement. Cette publication s'inscrit dans une dynamique de recherche plus large sur la génération automatisée de données d'entraînement pour la manipulation robotique, où plusieurs équipes explorent des approches concurrentes de synthèse procédurale ou de génération de scènes par diffusion 3D. L'accent mis ici sur la reconstruction déterministe à partir de médias internet non scénarisés, plutôt que sur la génération purement imaginative, marque une inflexion méthodologique. Les auteurs présentent TableVerse-100K comme une fondation de données destinée à alimenter les travaux futurs sur les politiques de manipulation généralisables, sans toutefois préciser à ce stade de calendrier de mise à disposition publique ou de validation par des déploiements robotiques réels.

RecherchePaper

1 source

ATOM-Bench : un benchmark réel pour les compétences atomiques et la généralisation compositionnelle dans les politiques de manipulation

À lire aussi

RoboDojo : un benchmark unifié simulation-réel pour évaluer les politiques de manipulation robotique généralistes

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances

Gouvernance par sonde atomique pour la mise à jour des compétences dans les politiques de robots compositionnels

TableVerse : un jeu de données de tables à grande échelle avec des dispositions ancrées dans le réel pour la manipulation généralisable