S²-VLA : modèles vision-langage-action guidés par l'espace d'états pour la manipulation à long horizon
Un groupe de chercheurs a publié S²-VLA (State-Space Guided Vision-Language-Action), une architecture destinée à résoudre l'une des limitations structurelles des modèles VLA en manipulation robotique : la dégradation des performances sur les tâches longues due à la propagation cumulative des erreurs. Le coeur du système est le mécanisme SSGAA (State-Space Guided Adaptive Attention), qui maintient un "état de croyance" (belief state) actualisé à chaque étape de la tâche et génère des poids de fusion dynamiques, là où les architectures VLA existantes utilisent des poids fixes. Ces poids adaptatifs combinent trois sources : les caractéristiques visuelles pour la perception spatiale, les intentions de haut niveau pour la planification, et les séquences d'actions temporelles pour la cohérence d'exécution. Avec 2 milliards de paramètres seulement, S²-VLA surpasse des modèles de 7 milliards sur les benchmarks LIBERO et SimplerEnv, deux références pour l'évaluation des tâches de manipulation longue séquence.
Le résultat le plus saillant est l'efficacité paramétrique : battre des modèles 7B avec un modèle 2B remet en question l'hypothèse selon laquelle la performance sur des tâches complexes serait avant tout une affaire de scaling. Pour les intégrateurs industriels et les équipes déployant des robots manipulateurs, cela ouvre la voie à une inférence embarquée sur des plateformes aux ressources limitées. Sur le plan de la recherche, le papier formalise un point de friction bien identifié : la fusion statique des représentations visuelles, linguistiques et motrices crée une rigidité qui amplifie les erreurs au fil des étapes. L'emprunt aux modèles d'espace d'états (State Space Models, d'où "S²") pour introduire une mémoire adaptative dans la fusion est l'apport architectural central.
Les modèles VLA ont connu une accélération significative depuis 2024, avec Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) et GR00T N2 (NVIDIA) comme jalons récents, tous confrontés à la même limite sur les longs horizons de tâches. S²-VLA s'inscrit dans un courant de recherche cherchant à résoudre ce "long-horizon gap" par l'architecture plutôt que par l'échelle. Le papier est disponible sur arXiv (référence 2606.27872v1) et reste un preprint non évalué par les pairs : les résultats annoncés sont à confirmer indépendamment. Aucun code ni dataset n'est encore annoncé publiquement, et les affiliations institutionnelles des auteurs ne figurent pas dans le résumé disponible.




