
Ce que mesurent réellement les benchmarks en manipulation robotique
Un article de recherche déposé sur arXiv le 4 juin 2026 (arXiv:2606.04233) remet en cause la fiabilité de cinq benchmarks standards en manipulation robotique : LIBERO, CALVIN, SimplerEnv, RoboCasa et RoboTwin 2.0. Les auteurs identifient quatre modes de défaillance structurelle qui invalident leur usage comme proxy de la capacité de manipulation générale : résolution par raccourci (shortcut solvability), absence de significativité statistique, surapprentissage rampant (creeping overfitting) et dépendance à la source de données. Sur LIBERO, une sonde de 90 millions de paramètres, sans encodeur de langage, atteint des scores au niveau ou proches de l'état de l'art rapporté dans la littérature récente, ce qui suggère que les modèles exploitent des artefacts du benchmark plutôt que des compétences réelles. Sur CALVIN, la simple randomisation des positions des blocs dans la plage d'entraînement fait chuter les performances de toutes les politiques testées, révélant une généralisation quasi nulle même dans des conditions marginalement différentes.
Ces résultats ont des implications directes pour les équipes qui évaluent des architectures VLA (Vision-Language-Action). Si LIBERO et CALVIN échouent à plusieurs diagnostics, les progrès revendiqués sur ces benchmarks ne constituent pas une preuve crédible de capacité de manipulation générale. La plupart des gains rapportés sur LIBERO ne sont pas statistiquement significatifs, ce qui signifie que de nombreuses publications revendiquent des améliorations qui pourraient n'être que du bruit. Pour les intégrateurs et les décideurs industriels, cela signifie que les scores de benchmarks courants ne sont pas des indicateurs fiables de la maturité réelle d'un système avant déploiement.
Le problème n'est pas nouveau, mais il devient critique au moment où des VLA comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA sont massivement benchmarkés dans la littérature. RoboCasa et RoboTwin 2.0, moins fréquemment cités dans les claims de progression récents, résistent mieux aux diagnostics proposés et constituent des alternatives plus robustes pour mesurer des progrès réels. Les auteurs publient leurs quatre diagnostics avec des implémentations de référence sur ripl.github.io/manipulationbenchmarkaudit, à destination des chercheurs et des reviewers, pour application avant soumission ou acceptation. La prochaine question est de savoir si des conférences majeures comme CoRL, ICRA ou RSS adopteront ces outils comme critère d'évaluation des soumissions.
Les équipes de recherche françaises et européennes (INRIA, CEA-List) évaluant des architectures VLA devront appliquer ces diagnostics avant soumission pour ne pas revendiquer des gains qui pourraient n'être que du bruit statistique.




