
LIBERO-PRO : vers une évaluation robuste et équitable des modèles vision-langage-action (VLA) au-delà de la mémorisation
Des chercheurs ont publié LIBERO-PRO, une extension critique du benchmark LIBERO largement utilisé pour évaluer les modèles Vision-Language-Action (VLA). Disponible sur GitHub (Zxy-MLlab/LIBERO-PRO), le travail, présenté sous forme d'arXiv preprint (arXiv:2510.03827v2), soumet les VLA à des perturbations systématiques selon quatre axes : substitution des objets manipulés, variation des états initiaux, modification des instructions de tâche, et changement d'environnement. Résultat sans appel : les modèles actuels qui atteignent plus de 90 % de succès sur l'évaluation LIBERO standard s'effondrent à 0,0 % dans le cadre généralisé de LIBERO-PRO. Concrètement, un modèle continue d'exécuter une séquence de saisie même lorsque l'objet cible est remplacé par un objet sans rapport, et ses sorties restent inchangées face à des instructions corrompues ou composées de tokens aléatoires.
Ce résultat est un signal d'alarme direct pour les équipes qui fondent leurs décisions de recherche ou de déploiement sur les classements LIBERO. Il démontre que les modèles VLA n'ont pas acquis de compréhension générale des tâches ni de perception réelle de l'environnement : ils mémorisent des séquences d'actions et des configurations spatiales vues à l'entraînement. Autrement dit, le gap sim-to-real et le problème de généralisation restent entiers, quelle que soit la performance affichée sur le benchmark. Pour les intégrateurs industriels ou les équipes robotique qui envisagent de déployer des politiques basées sur des VLA, cela signifie que les scores publiés ne sont pas des indicateurs fiables de robustesse opérationnelle.
LIBERO, introduit pour standardiser l'évaluation des politiques manipulatrices en langage naturel, est devenu une référence de facto dans la communauté. Mais comme tout benchmark sur-exploité, il a progressivement favorisé l'overfitting plutôt que la généralisation. LIBERO-PRO s'inscrit dans une tendance plus large de remise en question des protocoles d'évaluation VLA, aux côtés d'initiatives comparables sur les benchmarks de navigation et de saisie. La prochaine étape logique serait l'adoption de LIBERO-PRO comme standard par les principaux groupes travaillant sur des modèles comme OpenVLA, Octo ou pi0 (Physical Intelligence), afin de permettre des comparaisons réellement équitables et de pousser le secteur vers des politiques robustes en conditions réelles.
Dans nos dossiers




