
AR-VLA : un expert d'action autorégressif pour les modèles vision-langage-action
Des chercheurs de l'INSAIT (Institute for Computer Science, Artificial Intelligence and Technology, Sofia, Bulgarie) ont publié début 2026 AR-VLA, une architecture de politique robotique qui remplace les têtes d'action à base de blocs (chunk-based) par un expert d'action autorégressif autonome. Contrairement aux modèles VLA existants, qu'ils soient réactifs ou basés sur la diffusion, qui réinitialisent leur contexte temporel à chaque nouvelle observation, AR-VLA maintient une mémoire longue durée et génère les actions comme une séquence causale continue. Le système intègre un mécanisme de re-ancrage (re-anchoring) pour synchroniser les modalités asynchrones vision-langage-action, compensant mathématiquement le délai entre une perception lente (quelques Hz) et un contrôle moteur rapide (centaines de Hz). Les expériences couvrent des tâches de manipulation en simulation et sur robots réels, où AR-VLA atteint ou dépasse les taux de succès des VLA réactifs de l'état de l'art tout en produisant des trajectoires sensiblement plus lisses.
L'enjeu central est le découplage entre raisonnement perceptif lent et contrôle moteur rapide, un problème structurel des architectures VLA actuelles. En traitant les actions comme une séquence autorégressive avec historique persistant plutôt que comme un bloc prédit à chaque nouvelle trame, AR-VLA rend la politique intrinsèquement consciente du contexte : elle sait ce qu'elle vient d'exécuter, pas seulement ce qu'elle observe à l'instant T. Pour les équipes robotiques et les intégrateurs, cette architecture autorise un préentraînement modulaire de la syntaxe cinématique indépendamment du backbone de perception, réduisant potentiellement les coûts de développement de politiques spécialistes ou généralistes. La cohérence spatio-temporelle accrue réduit également les oscillations et les reprises de mouvement, deux facteurs critiques en déploiement industriel.
L'INSAIT, fondé en 2022 à Sofia avec le soutien de Google, Microsoft et de l'EPFL, s'est imposé rapidement comme un pôle de recherche en IA en Europe centrale. AR-VLA s'inscrit dans une compétition ouverte sur l'architecture des politiques robot-généralistes, où Physical Intelligence (pi-0, pi-0.5), NVIDIA (GR00T N2), Google DeepMind et des startups comme Figure (Helix) ou 1X défendent des approches concurrentes. L'approche par diffusion, popularisée notamment par pi-0 et Diffusion Policy, constitue l'alternative dominante aux VLA réactifs ; AR-VLA la défie directement en montrant qu'un modèle autorégressif pur peut produire des trajectoires plus cohérentes sans recourir à des processus de débruitage itératifs. AR-VLA demeure pour l'instant un preprint arXiv (2603.10126v2), sans annonce de déploiement industriel ni de commercialisation. Le code et les vidéos de démonstration sont disponibles sur arvla.insait.ai.
L'INSAIT (Sofia, Bulgarie), soutenu par Google, Microsoft et l'EPFL, positionne l'UE comme acteur de recherche crédible dans la course aux architectures VLA généralistes ; le code est disponible et testable par les équipes robotiques européennes.
Dans nos dossiers




