Aller au contenu principal
CogVLA : un modèle vision-langage-action aligné sur la cognition par routage et sparsification guidés par instructions
IA physiquearXiv cs.RO2h

CogVLA : un modèle vision-langage-action aligné sur la cognition par routage et sparsification guidés par instructions

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe rattachée au laboratoire JiuTian-VL a publié CogVLA (Cognition-Aligned Vision-Language-Action), une architecture VLA conçue pour réduire les coûts computationnels des modèles robotiques actuels sans sacrifier les performances. Le système repose sur trois modules successifs: EFA-Routing, qui injecte les instructions dans l'encodeur visuel pour compresser les tokens visuels de façon sélective; LFP-Routing, qui élague au niveau du LLM les tokens visuellement ancrés mais jugés non pertinents à l'action visée; et CAtten (Coupled Attention), qui combine attention causale vision-langage avec décodage d'action bidirectionnel en parallèle. Sur le benchmark LIBERO, CogVLA affiche un taux de succès de 97,4%, et 70,0% sur des tâches robotiques réelles. Comparé à OpenVLA, il réduit les coûts d'entraînement d'un facteur 2,5 et la latence d'inférence d'un facteur 2,8. Le code est publié en open source sur GitHub.

L'écart entre les 97,4% obtenus sur benchmark et les 70,0% en conditions réelles mérite d'être noté: il reflète le sim-to-real gap persistant que les VLA n'ont pas encore résolu à grande échelle, et nuance les performances annoncées. Sur le fond, CogVLA s'attaque à un problème structurel du domaine: les architectures VLA actuelles, construites sur des VLM de grande taille, exigent un post-training intensif et souffrent d'une latence d'inférence qui freine leur déploiement industriel. La réduction de 2,8x de la latence est potentiellement significative pour les applications temps réel comme la manipulation sur ligne de production ou le pick-and-place à cadence élevée, bien que les conditions de test exactes ne soient pas détaillées dans le papier. La réduction de 2,5x du coût d'entraînement abaisse la barrière d'entrée pour les équipes sans infrastructure GPU de grande échelle.

Les VLA (Vision-Language-Action models) représentent l'une des approches les plus actives de la robotique généraliste, associant la compréhension sémantique des LLM à la génération directe de commandes motrices. Les références du domaine incluent Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), GR00T N2 (NVIDIA) et RT-2 (Google DeepMind). CogVLA se positionne explicitement contre OpenVLA comme baseline de comparaison sur les benchmarks LIBERO. Publié sur arXiv en version 3 (identifiant 2508.21046), ce travail reste à ce stade une contribution académique: aucun partenariat industriel ni calendrier de déploiement n'est mentionné. Il s'inscrit néanmoins dans une tendance de fond visant à rendre les VLA plus légers et plus rapides, condition nécessaire pour leur adoption dans des contextes de production réels.

À lire aussi

Guidance stable par le langage pour les modèles vision-langage-action (VLA)
1arXiv cs.RO 

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2601.04052v2) une méthode baptisée Residual Semantic Steering (RSS), conçue pour corriger un défaut structurel des modèles Vision-Language-Action (VLA) utilisés en robotique manipulation : leur fragilité face aux variations de formulation des instructions textuelles. Le problème identifié, nommé "effondrement de modalité" (modality collapse), survient lorsque les signaux visuels, très denses, écrasent les signaux linguistiques, plus rares, forçant le modèle à mémoriser des tournures de phrases spécifiques plutôt qu'à comprendre l'intention sous-jacente. RSS propose deux mécanismes complémentaires : la Monte Carlo Syntactic Integration, qui génère un ensemble distribué de reformulations d'une même instruction via un LLM afin d'approximer le vrai postérieur sémantique, et le Residual Affordance Steering, un décodage à double flux qui isole explicitement la contribution causale du langage en soustrayant l'a priori visuel des affordances physiques. Les résultats publiés indiquent des performances state-of-the-art en robustesse sur plusieurs benchmarks de manipulation, y compris sous perturbations linguistiques adversariales. Le code est disponible en open source. Ce travail pointe un angle mort concret du pipeline VLA : un robot entraîné avec π0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut échouer à exécuter une tâche simplement parce que l'opérateur reformule l'ordre différemment, ce qui est rédhibitoire pour tout déploiement industriel réel. RSS apporte une réponse architecturale sans nécessiter de réentraînement complet du modèle de base, ce qui le rend potentiellement compatible avec les VLA existants. La démonstration sur benchmarks adversariaux est un signal positif, même si les benchmarks de manipulation académiques restent éloignés des conditions d'atelier réelles : cycles courts, éclairage variable, instructions opérateur non normalisées. Les VLA ont émergé comme paradigme dominant depuis les travaux de RT-2 (Google DeepMind, 2023), suivis par OpenVLA, π0 de Physical Intelligence et GR00T N2 de NVIDIA, tous confrontés au même sim-to-real gap linguistique. RSS s'inscrit dans une vague de travaux tentant de rendre ces modèles plus robustes sans sacrifier leur généralité. L'approche concurrente la plus proche est le data augmentation sémantique (paraphrase augmentation), moins élégante théoriquement mais déjà intégrée dans certains pipelines de fine-tuning. Les prochaines étapes logiques seraient une validation sur robot physique en environnement non contrôlé et une intégration dans un framework VLA open source comme OpenVLA, ce que les auteurs n'ont pas encore annoncé.

IA physiqueOpinion
1 source
GesVLA : représentations gestuelles intégrées pour un modèle vision-langage-action
2arXiv cs.RO 

GesVLA : représentations gestuelles intégrées pour un modèle vision-langage-action

Des chercheurs ont publié GesVLA, un modèle Vision-Language-Action augmenté d'une modalité gestuelle, dans un preprint arXiv soumis en mai 2026 (arXiv:2605.22812). L'architecture repose sur un double VLM (Vision-Language Model) qui encode les features gestuelles directement dans l'espace latent, permettant aux gestes pointés de la main de participer à la fois au raisonnement de haut niveau et à la génération d'actions motrices. Pour l'entraînement, l'équipe a construit un pipeline de génération de données synthétiques en rendant des modèles 3D de mains sur des images de scènes réelles, produisant des annotations de pointage variées tout en réduisant le sim-to-real gap visuel. Le modèle a été évalué sur plusieurs tâches physiques réelles : manipulation contrôlée de blocs et sélection de produits dans des environnements encombrés. Les expériences montrent une amélioration mesurée de la précision de grounding cible et de l'efficacité de l'interaction humain-robot, particulièrement dans des scènes complexes avec objets similaires. L'apport principal de GesVLA est d'adresser une faiblesse connue des VLA actuels : l'ambiguïté spatiale. Quand plusieurs objets similaires sont présents dans la scène, une instruction textuelle seule (type "prends la bouteille") reste ambiguë. Intégrer le geste de pointage comme modalité parallèle au texte offre un ancrage spatial explicite sans modifier l'interface verbale. L'architecture dual-VLM représente un choix architectural non trivial par rapport aux approches qui traitent les modalités de façon séquentielle. Ce n'est pas la première tentative d'incorporer des signaux humains dans les VLA, mais la formalisation du geste comme modalité de premier rang dans l'espace latent, plutôt qu'en post-processing, est une contribution d'architecture à surveiller pour les intégrateurs qui déploient des cobots en environnements de picking désordonnés. GesVLA s'inscrit dans la vague de recherche post-RT-2 et pi-0 qui cherche à rendre les VLA robustes au-delà du régime de laboratoire. Les modèles concurrents comme OpenVLA (Berkeley), Octo ou RoboFlamingo travaillent essentiellement avec du texte et de la vision, sans modalité gestuelle native. Physical Intelligence (pi) avec pi-0 et Google DeepMind avec RT-2/RT-X restent les références industrielles sur la généralisation des VLA à grande échelle. Le preprint ne mentionne pas de partenariat industriel ni de timeline de déploiement commercial. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés (LIBERO, Calvin) pour permettre des comparaisons directes, et une intégration sur des plateformes comme Franka ou UR5 au-delà des configurations de démonstration présentées.

IA physiqueOpinion
1 source
OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne
3arXiv cs.RO 

OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne

OmniVLA-RL, une nouvelle architecture Vision-Language-Action (VLA), est présentée dans un préprint arXiv (référence 2604.17706) dont les affiliations institutionnelles ne sont pas précisées dans la version disponible. Le modèle repose sur un design Mix-of-Transformers (MoT) qui orchestre trois experts spécialisés : raisonnement général, compréhension spatiale, et génération d'action motrice. Les auteurs introduisent également Flow-GSPO, une méthode qui reformule le flow matching comme un processus d'équations différentielles stochastiques (SDE), couplé à un algorithme d'optimisation de politique segmentée par groupes (GSPO). Les évaluations sont conduites sur les benchmarks LIBERO et LIBERO-Plus, deux suites de référence pour la manipulation robotique en simulation, sur lesquelles OmniVLA-RL affiche des performances annoncées supérieures aux méthodes actuellement considérées comme état de l'art. La contribution adresse trois failles structurelles bien documentées dans la littérature VLA : la perception spatiale imprécise, la fusion multimodale sous-optimale, et l'instabilité de l'entraînement par renforcement en ligne sur des espaces d'action continus. En séparant explicitement raisonnement, spatialisation et planification motrice dans des sous-réseaux distincts, OmniVLA-RL évite la dilution de ces capacités dans un unique transformer généraliste, une critique récurrente faite aux VLA de première génération. Flow-GSPO propose un cadre mathématique plus rigoureux pour stabiliser le RL, un enjeu central dans la course au sim-to-real. Pour les intégrateurs et décideurs industriels, ce type d'avancée a un intérêt indirect mais réel : si la robustesse à l'entraînement en ligne s'améliore, le coût de généralisation des bras manipulateurs à de nouvelles tâches sans retraining complet pourrait baisser significativement. Les VLA sont aujourd'hui au centre d'une compétition intense entre groupes académiques et industriels. Physical Intelligence pousse Pi-0 et Pi-0.5 vers la manipulation dextre ; Google DeepMind fait progresser RT-2 et ses dérivés ; du côté des systèmes embarqués dans des humanoïdes, Figure (Figure 03), Tesla (Optimus Gen 3) et 1X intègrent des architectures comparables. OmniVLA-RL se positionne sur le segment recherche fondamentale, avec des résultats limités à la simulation et aucune démonstration sur robot physique annoncée à ce stade. L'évaluation exclusive sur LIBERO ne permet pas de conclure sur les performances en conditions réelles, et le gap sim-to-real reste entier. La prochaine étape naturelle serait une validation sur plateformes physiques, dans des environnements de manipulation non structurés, pour confirmer si les gains observés en simulation tiennent effectivement sur le terrain.

IA physiqueActu
1 source
RePO-VLA : l'optimisation de politique guidée par la récupération pour les modèles vision-langage-action (VLA)
4arXiv cs.RO 

RePO-VLA : l'optimisation de politique guidée par la récupération pour les modèles vision-langage-action (VLA)

Des chercheurs publient sur arXiv (arXiv:2605.09410) RePO-VLA, un framework d'optimisation de politique pour modèles VLA (Vision-Language-Action) conçu pour améliorer la robustesse en manipulation bimanuelle sur des tâches longues et à fort contact. Le problème central identifié: les pipelines d'entraînement classiques exploitent uniquement les trajectoires réussies, abandonnant les épisodes ratés et rendant les modèles fragiles à la moindre perturbation d'exécution. RePO-VLA introduit trois mécanismes distincts: la Recovery-Aware Initialization (RAI), qui isole les segments de récupération et réinitialise l'historique d'état pour que les actions correctives s'ancrent dans l'état adverse courant plutôt que dans l'enchaînement d'erreurs précédent; la Progress-Aware Semantic Value Function (PAS-VF), qui attribue une valeur aux préfixes utiles des trajectoires échouées via un mécanisme de "reliability decay"; et le Value-Conditioned Refinement (VCR), qui entraîne la politique à sélectionner les actions à haute progression. Les auteurs introduisent également FRBench, un benchmark standardisé d'injection d'erreurs orienté récupération. Sur des tâches bimanuelle simulées et réelles, le taux de succès en conditions adverses passe de 20% à 75% en moyenne, et jusqu'à 80% lors d'essais réels à grande échelle. Ce résultat marque une rupture avec les pipelines dominants. Physical Intelligence (Pi-0, Pi-0.5), Figure AI et la quasi-totalité des approches VLA académiques s'entraînent exclusivement sur des trajectoires réussies, sacrifiant l'information contenue dans les épisodes ratés. RePO-VLA démontre que ces données sont exploitables à condition d'être labélisées en fonction de leur degré de progression vers l'objectif. Autre avantage pour le déploiement industriel: à l'inférence, aucun détecteur de défaillance en ligne n'est requis. Un simple paramètre fixe (v=1.0) suffit à biaiser les actions vers le manifold de succès appris, ce qui simplifie considérablement l'intégration en production sur des tâches de manipulation répétitive longue durée. Les VLA sont en 2025-2026 l'un des axes de recherche les plus actifs en robotique manipulatrice, portés par Physical Intelligence, Figure AI, et des laboratoires comme Berkeley, Stanford et CMU. La manipulation bimanuelle en contact représente l'échelon de difficulté le plus élevé: elle concentre les problèmes de sim-to-real gap, de gestion du contact imprédictible et de dérive d'exécution sur de longues séquences. RePO-VLA reste pour l'instant un article arXiv sans annonce de déploiement ni partenariat industriel associé. FRBench pourrait toutefois s'imposer comme référence communautaire pour évaluer la robustesse en récupération d'erreur, critère aujourd'hui absent des benchmarks standards comme LIBERO ou RoboSuite.

IA physiqueOpinion
1 source