
ManipArena : évaluation exhaustive en conditions réelles de la manipulation robotique généraliste orientée raisonnement
Le laboratoire à l'origine de ce papier arXiv (identifiant 2603.28545, version 2, soumission de type remplacement) présente ManipArena, un cadre d'évaluation standardisé pour la manipulation robotique en conditions réelles. Le benchmark couvre 20 tâches distinctes, s'appuie sur 10 812 trajectoires expertes et 13,5 millions d'images, pour un total d'environ 188 heures de fonctionnement robotique cumulées sur des scénarios de manipulation de table et de manipulation mobile. Le protocole combine variation de tâches définie par schéma, essais stratifiés en distribution, en décalage visuel et hors distribution sémantique, notation par crédit partiel au niveau des sous-tâches, annotations linguistiques à trois niveaux de granularité, signaux moteurs bas niveau, et environnements simulés jumeaux reconstruits à partir de scènes physiques réelles. Les chercheurs ont utilisé ce dispositif pour évaluer sept configurations de manipulation de table, couvrant à la fois des modèles vision-langage-action (VLA) et des modèles dits world-action.
L'enjeu dépasse la simple création d'un nouveau jeu de tests. Les benchmarks en simulateur, bien que reproductibles et faciles à mettre à l'échelle, ne capturent pas fidèlement l'écart entre simulation et réel, ce dernier étant causé par le bruit de perception, la dynamique de contact, la latence et les erreurs de calibration. À l'inverse, les évaluations sur robots physiques existantes sont dispersées entre plateformes, scènes et règles de notation différentes, ce qui rend toute comparaison rigoureuse quasi impossible. Résultat clé de l'étude: les performances mesurées sur robot réel ne dépendent pas seulement de l'architecture du modèle, mais aussi de sa provenance, du régime de fine-tuning, de l'échantillonnage des données d'entraînement et de la granularité des annotations. Pour les intégrateurs et décideurs industriels, ce constat invite à relativiser fortement les annonces de performance basées uniquement sur des démonstrations vidéo ou des scores en simulation.
Ce travail s'inscrit dans la course actuelle autour des modèles généralistes de contrôle robotique (VLA et world-action), un domaine où les affirmations de généralisation restent difficiles à vérifier faute de méthodologie commune. En proposant un référentiel reproductible avec attribution fine des échecs, ManipArena vise à devenir un outil diagnostique de référence pour mesurer les véritables limites de capacité de ces modèles, plutôt qu'un simple classement de plus.
Dans nos dossiers




