
StemVLA : un modèle vision-langage-action open source avec connaissance géométrique 3D future et représentation historique 4D
StemVLA est un nouveau modèle vision-langage-action (VLA) open source destiné à la manipulation robotique, présenté dans un article arXiv (2602.23721v2, version révisée). Contrairement à la plupart des VLA existants, qui mappent directement des images 2D vers des séquences d'actions sans modéliser la structure spatiale sous-jacente, StemVLA intègre explicitement deux briques supplémentaires : une anticipation de la géométrie 3D future de la scène (pour prévoir la configuration des objets à venir) et une représentation spatiotemporelle 4D construite à partir de l'historique des images, extraite via un transformeur vidéo-géométrie pré-entraîné et agrégée dans le temps par un module d'attention temporelle baptisé VideoFormer. Sur la suite de benchmarks de simulation LIBERO, le modèle atteint une précision moyenne de 92,0 %, et 86,0 % sur le sous-ensemble LIBERO-Long, dédié aux tâches à horizon long.
L'enjeu dépasse la simple performance chiffrée : les VLA actuels peinent souvent sur le raisonnement spatial fin et la planification à long terme, précisément parce qu'ils ignorent la géométrie 3D et la dynamique temporelle de la scène. En forçant le modèle à prédire explicitement l'évolution future de l'espace 3D plutôt qu'à réagir à des images plates, StemVLA cherche à combler un des angles morts identifiés dans la littérature récente sur les modèles fondation pour la robotique, celui de la cohérence temporelle et de la généralisation dans des environnements dynamiques. Les gains observés sur LIBERO-Long, sous-ensemble réputé plus exigeant, suggèrent que l'ajout de connaissances géométriques structurées améliore la robustesse sur des tâches multi-étapes, un point sensible pour les intégrateurs qui cherchent à dépasser les démonstrations de laboratoire.
Ce travail s'inscrit dans une vague de recherche VLA qui, après les architectures pionnières fondées sur des mappings image-action directs, cherche à enrichir la représentation du monde interne des modèles, en écho aux approches combinant perception géométrique et politiques d'action explorées par d'autres laboratoires du secteur. Les résultats restent pour l'instant limités à la simulation LIBERO ; l'étape suivante attendue par la communauté sera la validation sur robots physiques réels, où l'écart entre performance simulée et transfert sim-to-real demeure le principal obstacle à la généralisation des VLA.
Dans nos dossiers




