Aller au contenu principal
COAST : débloquer les modèles vision-langage-action (VLA) par les états cachés
IA physiquearXiv cs.RO6sem

COAST : débloquer les modèles vision-langage-action (VLA) par les états cachés

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Des chercheurs ont publié sur arXiv (arXiv:2605.17144) une méthode d'inférence baptisée COAST, Contrastive Conceptor Activation Steering, conçue pour améliorer les performances des modèles Vision-Language-Action (VLA) sans nécessiter aucun réentraînement. Le constat de départ est documenté mais rarement quantifié aussi clairement : malgré un pré-entraînement massif sur des corpus web (images, texte, vidéo), les VLA échouent fréquemment sur des tâches robotiques élémentaires. COAST construit ce qu'on appelle des "conceptors", des opérateurs linéaires qui projettent les données vers les composantes principales d'une distribution cible. En pratique, on fournit au système quelques trajectoires de succès et d'échecs pour une tâche donnée ; COAST en extrait des sous-espaces d'activation critiques pour le succès, puis oriente les états latents du modèle vers ces sous-espaces au moment de l'inférence. Testée sur trois architectures distinctes, VLA à flow-matching, VLA autorégressif et Diffusion Policy, la méthode améliore le taux de succès absolu de plus de 20 points en simulation et de plus de 40 points sur robot réel.

Ces chiffres sont significatifs parce qu'ils suggèrent que les VLA actuels encodent déjà une connaissance pertinente pour la tâche dans leurs représentations internes, mais qu'un goulot d'étranglement dans le décodage de l'action empêche cette connaissance de se traduire en comportement fiable. COAST contourne ce problème sans toucher aux poids du modèle, ce qui le rend compatible avec n'importe quel VLA déployé. Autre observation structurelle importante : les modes d'échec partagent une géométrie commune entre tâches différentes, alors que les représentations de succès restent largement spécifiques à chaque tâche. Cette asymétrie permet de réutiliser des conceptors calibrés sur une tâche pour améliorer les performances sur une tâche nouvelle, sans recalibration.

Le travail s'inscrit dans un courant plus large de recherche sur le pilotage des représentations internes (activation steering), initialement développé dans le domaine de l'interprétabilité mécanistique des LLM. Côté robotique, les VLA de référence incluent Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, tous confrontés à ce même écart entre performance en démo et robustesse en déploiement réel. COAST ne rivalise pas avec ces modèles mais s'y greffe en post-traitement. Les auteurs n'annoncent pas de déploiement industriel ; il s'agit pour l'instant d'une contribution de recherche, dont la prochaine étape naturelle serait une validation sur des tâches longue-horizon et sur des plateformes humanoïdes à haute dimensionnalité.

💬 Le point de vue du dev

+40 points sur robot réel sans retraining, c'est le genre de résultat qui me fait relire le papier deux fois. L'idée centrale est solide : les VLA encodent déjà ce qu'il faut savoir, c'est le passage vers l'action motrice qui bloque, et COAST règle ça en orientant les activations internes au bon endroit. Bon, on est encore loin du déploiement industriel, mais si tu bosses avec Pi-0 ou GR00T en ce moment, cette méthode se greffe directement sur ce que t'as.

À lire aussi

Guidance stable par le langage pour les modèles vision-langage-action (VLA)
1arXiv cs.RO 

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2601.04052v2) une méthode baptisée Residual Semantic Steering (RSS), conçue pour corriger un défaut structurel des modèles Vision-Language-Action (VLA) utilisés en robotique manipulation : leur fragilité face aux variations de formulation des instructions textuelles. Le problème identifié, nommé "effondrement de modalité" (modality collapse), survient lorsque les signaux visuels, très denses, écrasent les signaux linguistiques, plus rares, forçant le modèle à mémoriser des tournures de phrases spécifiques plutôt qu'à comprendre l'intention sous-jacente. RSS propose deux mécanismes complémentaires : la Monte Carlo Syntactic Integration, qui génère un ensemble distribué de reformulations d'une même instruction via un LLM afin d'approximer le vrai postérieur sémantique, et le Residual Affordance Steering, un décodage à double flux qui isole explicitement la contribution causale du langage en soustrayant l'a priori visuel des affordances physiques. Les résultats publiés indiquent des performances state-of-the-art en robustesse sur plusieurs benchmarks de manipulation, y compris sous perturbations linguistiques adversariales. Le code est disponible en open source. Ce travail pointe un angle mort concret du pipeline VLA : un robot entraîné avec π0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut échouer à exécuter une tâche simplement parce que l'opérateur reformule l'ordre différemment, ce qui est rédhibitoire pour tout déploiement industriel réel. RSS apporte une réponse architecturale sans nécessiter de réentraînement complet du modèle de base, ce qui le rend potentiellement compatible avec les VLA existants. La démonstration sur benchmarks adversariaux est un signal positif, même si les benchmarks de manipulation académiques restent éloignés des conditions d'atelier réelles : cycles courts, éclairage variable, instructions opérateur non normalisées. Les VLA ont émergé comme paradigme dominant depuis les travaux de RT-2 (Google DeepMind, 2023), suivis par OpenVLA, π0 de Physical Intelligence et GR00T N2 de NVIDIA, tous confrontés au même sim-to-real gap linguistique. RSS s'inscrit dans une vague de travaux tentant de rendre ces modèles plus robustes sans sacrifier leur généralité. L'approche concurrente la plus proche est le data augmentation sémantique (paraphrase augmentation), moins élégante théoriquement mais déjà intégrée dans certains pipelines de fine-tuning. Les prochaines étapes logiques seraient une validation sur robot physique en environnement non contrôlé et une intégration dans un framework VLA open source comme OpenVLA, ce que les auteurs n'ont pas encore annoncé.

IA physiqueOpinion
1 source
TAP-VLA : annotation tactile pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

TAP-VLA : annotation tactile pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2606.29089) une méthode appelée TAP-VLA (Tactile Annotation Prompting for Vision-Language-Action models) visant à doter les modèles vision-langage-action du sens du toucher sans modifier leur architecture. Sur quatre tâches de manipulation à contacts complexes (vissage, insertion, assemblage de précision), TAP-VLA atteint un taux de succès de 78 %, contre moins de 50 % pour un fine-tuning purement visuel et pour les approches alternatives de fusion tactile, certaines de ces baselines ne faisant pas mieux qu'un résultat aléatoire. Le principe repose sur des capteurs visuo-tactiles capables de mesurer les champs de cisaillement (shear fields) à la surface de contact ; ces champs sont ensuite superposés sous forme de vecteurs spatialement alignés directement sur les images RGB multi-vues que le modèle consomme déjà, sans ajouter de modalité d'entrée distincte. L'enjeu est réel : les VLAs de génération actuelle, comme π0 de Physical Intelligence, OpenVLA ou RT-2 de Google DeepMind, offrent un raisonnement robuste sur les variations visuelles, sémantiques et spatiales grâce à leur pré-entraînement à grande échelle, mais restent aveugles aux forces de contact, pourtant centrales dans toute manipulation industrielle sérieuse (emboîtement de précision, vissage, gestion d'objets déformables). Intégrer le toucher comme nouvelle modalité d'entrée détériore précisément ce pré-entraînement, car les données tactiles sont absentes des corpus à grande échelle sur lesquels ces modèles sont construits, un problème de distribution shift bien documenté dans la littérature. TAP-VLA contourne l'obstacle en restant dans l'espace d'observation natif du modèle : pas de modification architecturale, pas de pré-entraînement tactile spécifique, surcoût computationnel négligeable. Ce travail s'inscrit dans une course active autour de l'embodied AI pour la manipulation de précision, où Physical Intelligence (π0, π0-FAST), Figure AI ou Apptronik cherchent à étendre les capacités de leurs humanoïdes et bras industriels au-delà du pick-and-place visuel. La question du sim-to-real pour les contacts reste l'un des derniers verrous majeurs avant un déploiement industriel à l'échelle. En évitant la refonte architecturale, TAP-VLA propose une voie d'intégration compatible avec les VLAs existants, ce qui simplifie son adoption par des équipes qui travaillent à partir de modèles déjà entraînés. La publication sur arXiv sans conférence associée indique que ce travail est encore en cours d'évaluation par les pairs ; aucun déploiement réel ou pilote industriel n'est annoncé à ce stade.

IA physiqueOpinion
1 source
S²-VLA : modèles vision-langage-action guidés par l'espace d'états pour la manipulation à long horizon
3arXiv cs.RO 

S²-VLA : modèles vision-langage-action guidés par l'espace d'états pour la manipulation à long horizon

Un groupe de chercheurs a publié S²-VLA (State-Space Guided Vision-Language-Action), une architecture destinée à résoudre l'une des limitations structurelles des modèles VLA en manipulation robotique : la dégradation des performances sur les tâches longues due à la propagation cumulative des erreurs. Le coeur du système est le mécanisme SSGAA (State-Space Guided Adaptive Attention), qui maintient un "état de croyance" (belief state) actualisé à chaque étape de la tâche et génère des poids de fusion dynamiques, là où les architectures VLA existantes utilisent des poids fixes. Ces poids adaptatifs combinent trois sources : les caractéristiques visuelles pour la perception spatiale, les intentions de haut niveau pour la planification, et les séquences d'actions temporelles pour la cohérence d'exécution. Avec 2 milliards de paramètres seulement, S²-VLA surpasse des modèles de 7 milliards sur les benchmarks LIBERO et SimplerEnv, deux références pour l'évaluation des tâches de manipulation longue séquence. Le résultat le plus saillant est l'efficacité paramétrique : battre des modèles 7B avec un modèle 2B remet en question l'hypothèse selon laquelle la performance sur des tâches complexes serait avant tout une affaire de scaling. Pour les intégrateurs industriels et les équipes déployant des robots manipulateurs, cela ouvre la voie à une inférence embarquée sur des plateformes aux ressources limitées. Sur le plan de la recherche, le papier formalise un point de friction bien identifié : la fusion statique des représentations visuelles, linguistiques et motrices crée une rigidité qui amplifie les erreurs au fil des étapes. L'emprunt aux modèles d'espace d'états (State Space Models, d'où "S²") pour introduire une mémoire adaptative dans la fusion est l'apport architectural central. Les modèles VLA ont connu une accélération significative depuis 2024, avec Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) et GR00T N2 (NVIDIA) comme jalons récents, tous confrontés à la même limite sur les longs horizons de tâches. S²-VLA s'inscrit dans un courant de recherche cherchant à résoudre ce "long-horizon gap" par l'architecture plutôt que par l'échelle. Le papier est disponible sur arXiv (référence 2606.27872v1) et reste un preprint non évalué par les pairs : les résultats annoncés sont à confirmer indépendamment. Aucun code ni dataset n'est encore annoncé publiquement, et les affiliations institutionnelles des auteurs ne figurent pas dans le résumé disponible.

💬 Un modèle de 2 milliards qui bat des modèles de 7 milliards sur les tâches longues, c'est le genre de résultat qui remet en question l'obsession du scaling. L'astuce : une attention adaptative qui maintient un état de croyance continu entre chaque étape de la tâche, là où les VLA existants utilisent encore des poids fixes et accumulent les erreurs au fil des actions. C'est un preprint sans code pour l'instant, mais si ça se confirme, les robots embarqués sur hardware limité deviennent soudainement une option sérieuse.

IA physiqueOpinion
1 source
Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)
4arXiv cs.RO 

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, instructions en langage naturel et génération de commandes motrices, dominent la recherche en manipulation robotique généraliste. Leur faiblesse structurelle : entraînés exclusivement sur des démonstrations réussies par clonage comportemental, ils deviennent cassants dès qu'une erreur d'exécution les place hors distribution, les erreurs se cumulant jusqu'à des états non récupérables. Des chercheurs proposent sur arXiv (2605.08434, mai 2026) AFIL (Adaptive Failure-Informed Learning), un framework qui intègre les trajectoires d'échec comme signal de guidage négatif dans les politiques VLA diffusion-based. AFIL exploite un VLA pré-entraîné pour générer automatiquement des rollouts échoués en ligne, sans annotation manuelle ni supervision humaine, puis entraîne deux générateurs d'actions parallèles (Dual Action Generators, DAG) partageant un backbone vision-langage commun pour un surcoût paramétrique modeste. À l'inférence, le DAG dédié aux échecs oriente la génération loin des zones à risque, avec une force de guidage proportionnelle à la distance entre distributions de succès et d'échec à chaque étape de diffusion. Les expériences sur des tâches courte et longue portée, en domaine et hors domaine, montrent des gains constants en taux de succès face aux baselines VLA existants. Ce résultat touche un point critique du déploiement industriel : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA partagent cette vulnérabilité inhérente au behavioral cloning pur, où l'absence de signal correctif laisse le robot sans mécanisme de récupération. AFIL se distingue parce qu'il ne requiert ni données d'échec labellisées ni boucle de retour humaine, ce qui le rend potentiellement scalable pour des pipelines de production à grande échelle. Sa robustesse hors domaine est particulièrement pertinente pour les intégrateurs industriels qui déploient des robots dans des environnements variables non couverts par les jeux d'entraînement. Le travail s'inscrit dans la vague des politiques diffusion-based initiée par Diffusion Policy (Chi et al., 2023), que Physical Intelligence a popularisée avec Pi-0 et que suivent de près des acteurs européens comme Enchanted Tools, dont le robot humanoïde Mirokaï est développé en France. Face à la fragilité du behavioral cloning, des approches concurrentes coexistent : DAgger (agrégation de données avec supervision interactive), apprentissage par renforcement, ou récupération par planification symbolique. AFIL se positionne comme une solution à intégration native dans le processus de diffusion, sans rupture architecturale. L'article reste une prépublication arXiv, sans évaluation par les pairs ni déploiement terrain annoncé.

UEEnchanted Tools (Paris), dont le robot Mirokaï repose sur des politiques diffusion-based similaires, est directement concernée par cette avancée qui pourrait renforcer la robustesse de ses pipelines VLA sans rupture architecturale.

💬 Le behavioral cloning pur, c'est élégant sur le papier, et fragile dès le premier écart en conditions réelles. Ce qui est malin dans AFIL, c'est qu'il génère lui-même les données d'échec, sans annotation humaine, ce qui rend ça scalable sans exploser le budget data. Les gens d'Enchanted Tools, qui bossent sur exactement ce type de politiques diffusion-based avec Mirokaï, ont matière à creuser.

IA physiqueOpinion
1 source