Au-delà de la réussite des tâches : diagnostics comportementaux et représentationnels pour WAM et VLA
Une équipe de chercheurs a publié début juin 2026 sur arXiv (2606.01095) un cadre diagnostique pour comparer deux grandes familles de politiques robotiques : les Vision-Language-Action (VLA) et les World-Action Models (WAM). La question posée est directe : la prédiction du futur, propre aux WAM, produit-elle des comportements réellement différents, ou n'ajoute-t-elle que du calcul superflu ? Les auteurs ont évalué sept politiques (VLA directes et WAM en configurations jointes, séquentielles et auxiliaires) sur les benchmarks LIBERO et RoboTwin2.0. Le protocole combine une analyse comportementale (cohérence des dynamiques d'action, progression vers l'objet cible, perturbations par distracteurs, coût d'inférence) et une analyse des représentations internes via des autoencodeurs épars, classifiant chaque représentation comme mémorisée, réactive ou prédictive.
Les résultats contredisent l'usage courant du taux de réussite comme seul critère de comparaison : cette métrique masque des différences architecturales substantielles. Les WAM améliorent souvent le comportement au niveau objet et la sélectivité vers la cible, mais ces gains varient selon l'architecture et s'accompagnent d'un surcoût d'inférence. Les WAM séquentiels exhibent la structure prédictive la plus nette et la plus exploitable pour le contrôle. Les WAM auxiliaires compriment l'information future, les WAM joints l'enchevêtrent avec d'autres représentations, dans les deux cas, elle devient moins actionnable. Pour un intégrateur ou une équipe R&D, ce résultat est concret : un benchmark de succès seul ne suffit pas pour choisir une architecture, il faut auditer comportement et représentations internes.
Les VLA, portées par Pi-0 de Physical Intelligence, OpenVLA ou GR00T N2 de NVIDIA, ont prouvé leur robustesse croissante en sim-to-real mais restent aveugles aux états futurs de la scène. Les WAM, inspirés des architectures world-model comme Dreamer ou RSSM, visent à combler ce gap en intégrant une prédiction explicite du monde. Ce travail s'inscrit dans un courant académique cherchant à dépasser les métriques de surface : le cadre proposé est agnostique au modèle, applicable à d'autres politiques, et oriente les prochains travaux vers des architectures WAM qui préservent des représentations futures actionnables plutôt que de les noyer dans la capacité globale du réseau.
Dans nos dossiers




