
Position : les modèles vision-langage-action ne peuvent pas être vérifiés pour le raisonnement physique
Position: Vision-Language-Action Models Cannot Be Verified to Perform Physical Reasoning
Un article de position publié sur arXiv (2606.30686) remet en cause l'interprétation dominante des progrès des systèmes Vision-Language-Action (VLA), ces modèles de robotique construits sur des modèles vision-langage (VLM) pré-entraînés comme GR00T N2, Pi-0 ou Helix. Les auteurs décomposent une politique VLA en deux briques distinctes : le mapping sémantique, hérité de l'entraînement internet-scale, et la décision d'action physique, propre à l'exécution motrice. Leur démonstration centrale est que le taux de réussite de tâche, la métrique quasi universelle des benchmarks de manipulation robotique, ne permet pas de distinguer laquelle de ces deux briques est responsable d'une amélioration de score. Autrement dit, un gain de performance mesuré peut aussi bien refléter une meilleure généralisation sémantique, un simple recouvrement distributionnel avec les données d'entraînement, qu'une réelle généralisation physique, sans qu'aucun protocole actuel ne permette de trancher.
Cette limite touche directement l'argument commercial central de la vague VLA actuelle: la promesse que des représentations apprises sur des corpus internet transfèrent vers la généralisation en environnement physique réel. Pour les intégrateurs et décideurs B2B qui évaluent des solutions humanoïdes ou des bras manipulateurs sur la base de benchmarks affichant des taux de réussite en hausse, ce papier suggère une prudence méthodologique: un score supérieur ne garantit pas une robustesse physique supérieure, et peut masquer un simple effet de mémorisation de distribution. Le concept de "narrative drift" que les auteurs pointent, où chaque nouveau système hérite et renforce l'interprétation optimiste du précédent sans isoler le mécanisme causal réel, résonne avec les critiques déjà formulées sur l'écart entre démonstrations vidéo sélectionnées et déploiements réels en usine.
Les auteurs ne rejettent pas l'utilité des VLM en robotique, mais proposent une piste de recherche: des protocoles d'évaluation introduisant une variation contrôlée pour mesurer séparément la généralisation sémantique et la généralisation physique, sans nécessiter d'accès aux poids internes des modèles. Cette approche s'inscrit dans un débat plus large sur la fiabilité des benchmarks robotiques, alors que des laboratoires et startups, de Figure à Physical Intelligence, multiplient les annonces de performance sur des tâches de manipulation dont la reproductibilité en conditions réelles reste rarement vérifiée indépendamment.




