
Ce que les VLA gelés savent déjà du succès : sondage des structures de type valeur dans les politiques fondation pour robots
Des chercheurs ont publié sur arXiv (identifiant 2605.28527) une étude démontrant que les politiques VLA (Vision-Language-Action) encodent spontanément des informations sur le succès des tâches dans leurs représentations gelées, sans jamais avoir été explicitement entraînées à estimer une récompense ou une probabilité de réussite. En appliquant des sondes linéaires légères sur les features extraites de modèles comme OpenVLA, Pi0.5, DINOv2 et CLIP, l'équipe a reconstruit des cibles Monte-Carlo d'issue à partir de trajectoires mixtes, succès et échecs mêlés, sur le benchmark de manipulation LIBERO-Goal. Les sondes entraînées sur Pi0.5 atteignent environ 92 % de précision dans des comparaisons par paires de trajectoires, même sous des contrôles stricts conçus pour éliminer les raccourcis par tâche ou par pas de temps. Les modèles de vision seuls comme DINOv2 et CLIP suivent également cette tendance, contrairement aux baselines construites sur la progression de la tâche, le temps restant ou la proprioception.
L'implication pratique est directe et ne nécessite aucun ré-entraînement : la sonde peut servir de sélecteur à l'inférence, filtrant des préfixes d'action échantillonnés pour ne retenir que ceux jugés les plus prometteurs. Sur la tâche push-plate, le taux de succès grimpe de 26,7 % sous décodage glouton à 44,3 % avec ce mécanisme de sélection ; un second gain positif est observé sur wine-rack. Les auteurs sont honnêtes sur les limites : les gains ne sont pas universels et impliquent un surcoût de calcul à l'inférence. Mais le résultat de fond est solide et contredit une hypothèse largement répandue dans le domaine, à savoir que les politiques d'imitation sont structurellement aveugles à la qualité de leur propre comportement.
Ce travail s'inscrit dans la trajectoire des grands modèles de politiques robotiques apparus entre 2024 et 2025, notamment Pi0 puis Pi0.5 de Physical Intelligence, et OpenVLA issu de Stanford, qui ont établi les VLAs comme architecture dominante en manipulation. La question de l'auto-évaluation des politiques, soit la capacité d'un modèle à estimer sa propre probabilité de succès sans supervision externe, est un verrou central pour réduire le reality gap et progresser vers des boucles d'apprentissage autonomes sur robot réel. D'autres groupes explorent des pistes concurrentes comme les world models ou l'RL en ligne avec retours humains rares ; cette étude suggère qu'une partie de la solution est peut-être déjà encodée dans les poids existants, gratuitement.
Dans nos dossiers




