
CogVLA : un modèle vision-langage-action aligné sur la cognition par routage et sparsification guidés par instructions
Une équipe rattachée au laboratoire JiuTian-VL a publié CogVLA (Cognition-Aligned Vision-Language-Action), une architecture VLA conçue pour réduire les coûts computationnels des modèles robotiques actuels sans sacrifier les performances. Le système repose sur trois modules successifs: EFA-Routing, qui injecte les instructions dans l'encodeur visuel pour compresser les tokens visuels de façon sélective; LFP-Routing, qui élague au niveau du LLM les tokens visuellement ancrés mais jugés non pertinents à l'action visée; et CAtten (Coupled Attention), qui combine attention causale vision-langage avec décodage d'action bidirectionnel en parallèle. Sur le benchmark LIBERO, CogVLA affiche un taux de succès de 97,4%, et 70,0% sur des tâches robotiques réelles. Comparé à OpenVLA, il réduit les coûts d'entraînement d'un facteur 2,5 et la latence d'inférence d'un facteur 2,8. Le code est publié en open source sur GitHub.
L'écart entre les 97,4% obtenus sur benchmark et les 70,0% en conditions réelles mérite d'être noté: il reflète le sim-to-real gap persistant que les VLA n'ont pas encore résolu à grande échelle, et nuance les performances annoncées. Sur le fond, CogVLA s'attaque à un problème structurel du domaine: les architectures VLA actuelles, construites sur des VLM de grande taille, exigent un post-training intensif et souffrent d'une latence d'inférence qui freine leur déploiement industriel. La réduction de 2,8x de la latence est potentiellement significative pour les applications temps réel comme la manipulation sur ligne de production ou le pick-and-place à cadence élevée, bien que les conditions de test exactes ne soient pas détaillées dans le papier. La réduction de 2,5x du coût d'entraînement abaisse la barrière d'entrée pour les équipes sans infrastructure GPU de grande échelle.
Les VLA (Vision-Language-Action models) représentent l'une des approches les plus actives de la robotique généraliste, associant la compréhension sémantique des LLM à la génération directe de commandes motrices. Les références du domaine incluent Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), GR00T N2 (NVIDIA) et RT-2 (Google DeepMind). CogVLA se positionne explicitement contre OpenVLA comme baseline de comparaison sur les benchmarks LIBERO. Publié sur arXiv en version 3 (identifiant 2508.21046), ce travail reste à ce stade une contribution académique: aucun partenariat industriel ni calendrier de déploiement n'est mentionné. Il s'inscrit néanmoins dans une tendance de fond visant à rendre les VLA plus légers et plus rapides, condition nécessaire pour leur adoption dans des contextes de production réels.




