
AVA-VLA : améliorer les modèles vision-langage-action avec l'attention visuelle active
Des chercheurs de LiAuto-DSR, division R&D de Li Auto (constructeur automobile chinois), publient sur arXiv (réf. 2511.18960, quatrième révision) AVA-VLA, un cadre algorithmique ciblant une limite structurelle des modèles Vision-Language-Action (VLA). Le diagnostic central : les VLA existants traitent chaque observation visuelle indépendamment à chaque pas de temps, modélisant la manipulation robotique comme un processus markovien (MDP) alors que la réalité est un processus partiellement observable (POMDP). AVA-VLA introduce un état récurrent servant d'approximation neurale de la croyance de l'agent sur l'historique de la tâche, couplé à un module d'attention visuelle active (AVA) qui réattribue dynamiquement des poids aux tokens visuels selon l'instruction courante et l'historique d'exécution. Les auteurs revendiquent l'état de l'art sur LIBERO et CALVIN, deux benchmarks académiques standards en manipulation robotique simulée, ainsi qu'un transfert vers des tâches de manipulation bimanuelle en conditions réelles, sans que les métriques terrain soient détaillées dans l'abstract.
L'apport architectural est notable : les VLA phares actuels, OpenVLA, π0 de Physical Intelligence et GR00T N2 de NVIDIA, traitent l'observation visuelle sans mémoire explicite du contexte passé. Conditionner l'attention visuelle à l'historique d'exécution couvre un angle mort structurel sur les tâches séquentielles longues, là où des actions antérieures modifient la scène sans être immédiatement visibles dans l'image courante. Pour les intégrateurs industriels, cela suggère des bras manipulateurs plus robustes sur des workflows multi-étapes sans remise à zéro du contexte. Réserve : la formulation "transfers effectively" manque de quantification, et LIBERO comme CALVIN restent des environnements largement simulés.
Le secteur des VLA s'est considérablement densifié depuis mi-2024 : π0 en octobre 2024, GR00T N2 en mars 2025, et une constellation de variantes académiques (RoboVLMs, OpenVLA-OFT) alimentent la littérature. L'approche récurrente d'AVA-VLA prolonge des travaux classiques sur la résolution de POMDP à base de LSTM, réinterprétés ici dans le paradigme VLA moderne. LiAuto, principalement connu pour ses véhicules hybrides à autonomie étendue, affiche à travers DSR des ambitions en robotique de manipulation. Le code source n'est pas encore publié et aucun déploiement terrain n'est annoncé : il s'agit pour l'instant d'une contribution de recherche académique dont la portée industrielle reste à confirmer hors simulation.




