V-VLAPS : planification guidée par valeur pour les modèles vision-langage-action (VLA)
Des chercheurs proposent V-VLAPS (Value-Guided Vision-Language-Action Planning and Search), une méthode qui augmente les modèles VLA (Vision-Language-Action) d'un signal de valeur appris pour améliorer la planification en manipulation robotique. Les VLA encodent perception visuelle, langage et commande motrice pour générer des actions, mais leur comportement purement réactif se dégrade hors distribution d'entraînement ou sur des tâches à horizon long. V-VLAPS ajoute une tête de valeur légère (value head), entraînée sur des trajectoires hors-ligne (offline rollouts), qui prédit les retours Monte Carlo et guide un MCTS (Monte Carlo Tree Search) vers les branches de plus haute valeur. Sur les cinq suites du benchmark LIBERO, V-VLAPS égale la baseline sans valeur au budget de recherche standard ; avec un budget élargi, il la dépasse dans toutes les suites, avec +6 points de pourcentage sur LIBERO-Object et +4 points sur LIBERO-10.
L'apport central est de démontrer que les représentations internes des VLA encodent non seulement des informations sur l'échec d'une trajectoire (déjà documenté dans la littérature), mais peuvent aussi estimer la valeur pendant la planification. Cela ouvre une voie pragmatique pour les intégrateurs : renforcer des politiques VLA existantes sans réentraînement complet, par simple ajout d'une tête de valeur et d'un budget de recherche accru. L'analyse révèle toutefois une limite claire : la majorité des échecs durs sont des timeouts au niveau racine, là où les valeurs prédites restent peu différenciées, ce qui plafonne le gain observé et indique que le signal de valeur est encore insuffisamment discriminant en début de trajectoire.
Ce travail (préprint arXiv, janvier 2026) s'inscrit dans une série de méthodes cherchant à coupler la puissance générative des VLA modernes (RT-2, OpenVLA, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) avec des mécanismes de planification structurée, face aux approches concurrentes par world models et diffusion planifiante. Les résultats sont obtenus uniquement en simulation sur LIBERO et ne sont pas encore validés sur robot réel, limite classique de ce type de contribution arxiv. La prochaine étape naturelle est une évaluation sim-to-real pour vérifier si le signal de valeur appris se transfère hors simulation, notamment sur des tâches à contacts complexes ou en environnement non structuré.




