3DVLA : amélioration des modèles VLA par la…

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances

33

1arXiv cs.RO

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances

Des chercheurs ont publié le 6 juin 2026 sur arXiv (réf. 2606.06155) un nouveau framework baptisé AffordanceVLA, conçu pour améliorer la manipulation robotique pilotée par des modèles vision-langage-action (VLA). Le coeur du système repose sur l'introduction de l'affordance comme représentation intermédiaire structurée entre la compréhension sémantique et la génération de commandes motrices. Concrètement, trois modules complémentaires décomposent la tâche : Which2Act identifie l'objet pertinent via une prédiction dans l'espace latent visuel pour filtrer les distracteurs ; Where2Act localise en 2D le point d'interaction via une carte d'affordance estimée ; How2Act raisonne en 3D sur la géométrie de la scène pour guider la politique de manipulation. Ces modules sont intégrés dans une architecture Mixture-of-Transformer (MoT) avec des experts spécialisés, entraînée selon un curriculum progressif en trois étapes. Pour pallier le manque de labels d'affordance denses dans les jeux de données robotiques existants, les auteurs ont développé un pipeline automatisé d'augmentation de données. Les résultats sont validés sur bancs de simulation et en conditions réelles, sans que les métriques quantitatives précises soient encore publiées à ce stade de preprint. Le problème que cible AffordanceVLA est bien documenté dans la communauté VLA : les modèles vision-langage préentraînés encodent une sémantique riche mais abstraite, structurellement incompatible avec les espaces de contrôle moteur continu. Combler ce fossé directement, sans représentation intermédiaire, produit des politiques fragiles face aux variations de scène. L'approche par affordance offre une solution élégante car elle reste géométriquement ancrée tout en restant conditionnée sémantiquement, ce qui facilite la généralisation sim-to-real. Pour les intégrateurs qui déploient des bras manipulateurs en environnement non structuré, ce type de robustesse perceptuelle est un critère clé souvent sacrifié dans les démos labo. Le paysage des VLA pour la manipulation est désormais très concurrentiel : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA issu de Stanford et Berkeley, ou encore RT-2 de Google DeepMind incarnent différentes approches du même défi. AffordanceVLA se distingue en positionnant explicitement l'affordance comme pont structurel, une direction également explorée par des travaux comme RoboAfford ou UniPI. Ce preprint reste une contribution de recherche, pas un produit commercialisé ; aucun déploiement industriel ni partenariat n'est annoncé. Les prochaines étapes naturelles seront une évaluation sur benchmarks standardisés comme LIBERO ou RLBench, et une confrontation aux modèles de référence avec métriques comparatives publiées.

IA physiqueOpinion

1 source

OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne

43

2arXiv cs.RO

OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne

OmniVLA-RL, une nouvelle architecture Vision-Language-Action (VLA), est présentée dans un préprint arXiv (référence 2604.17706) dont les affiliations institutionnelles ne sont pas précisées dans la version disponible. Le modèle repose sur un design Mix-of-Transformers (MoT) qui orchestre trois experts spécialisés : raisonnement général, compréhension spatiale, et génération d'action motrice. Les auteurs introduisent également Flow-GSPO, une méthode qui reformule le flow matching comme un processus d'équations différentielles stochastiques (SDE), couplé à un algorithme d'optimisation de politique segmentée par groupes (GSPO). Les évaluations sont conduites sur les benchmarks LIBERO et LIBERO-Plus, deux suites de référence pour la manipulation robotique en simulation, sur lesquelles OmniVLA-RL affiche des performances annoncées supérieures aux méthodes actuellement considérées comme état de l'art. La contribution adresse trois failles structurelles bien documentées dans la littérature VLA : la perception spatiale imprécise, la fusion multimodale sous-optimale, et l'instabilité de l'entraînement par renforcement en ligne sur des espaces d'action continus. En séparant explicitement raisonnement, spatialisation et planification motrice dans des sous-réseaux distincts, OmniVLA-RL évite la dilution de ces capacités dans un unique transformer généraliste, une critique récurrente faite aux VLA de première génération. Flow-GSPO propose un cadre mathématique plus rigoureux pour stabiliser le RL, un enjeu central dans la course au sim-to-real. Pour les intégrateurs et décideurs industriels, ce type d'avancée a un intérêt indirect mais réel : si la robustesse à l'entraînement en ligne s'améliore, le coût de généralisation des bras manipulateurs à de nouvelles tâches sans retraining complet pourrait baisser significativement. Les VLA sont aujourd'hui au centre d'une compétition intense entre groupes académiques et industriels. Physical Intelligence pousse Pi-0 et Pi-0.5 vers la manipulation dextre ; Google DeepMind fait progresser RT-2 et ses dérivés ; du côté des systèmes embarqués dans des humanoïdes, Figure (Figure 03), Tesla (Optimus Gen 3) et 1X intègrent des architectures comparables. OmniVLA-RL se positionne sur le segment recherche fondamentale, avec des résultats limités à la simulation et aucune démonstration sur robot physique annoncée à ce stade. L'évaluation exclusive sur LIBERO ne permet pas de conclure sur les performances en conditions réelles, et le gap sim-to-real reste entier. La prochaine étape naturelle serait une validation sur plateformes physiques, dans des environnements de manipulation non structurés, pour confirmer si les gains observés en simulation tiennent effectivement sur le terrain.

IA physiqueActu

1 source

Amélioration du fine-tuning des modèles VLA par supervision structurée des étapes et des images clés

44

3arXiv cs.RO

Amélioration du fine-tuning des modèles VLA par supervision structurée des étapes et des images clés

Des chercheurs ont publié sur arXiv (arXiv:2606.26801, juin 2026) un framework auxiliaire baptisé StaKe, conçu pour améliorer le fine-tuning des modèles Vision-Language-Action (VLA) en manipulation robotique. Le problème ciblé est précis : lors du fine-tuning standard, la supervision sur les actions s'applique uniformément à chaque pas de temps, sans distinguer les phases critiques de manipulation ni anticiper les transitions de préhenseur (gripper events). La quasi-totalité des échecs se concentre autour de ces moments de transition, ouverture ou fermeture du préhenseur. StaKe introduit deux têtes auxiliaires légères entraînées en parallèle du modèle VLA sans modifier son architecture ni sa boucle d'inférence : un classifieur de phase (stage classifier) qui identifie l'étape courante de manipulation, et un prédicteur de keyframe qui estime l'action articulaire cible au prochain événement de préhenseur. Les deux signaux sont extraits automatiquement depuis les états du gripper dans les démonstrations, sans annotation manuelle. Sur tâches bimanual en simulation, StaKe améliore le taux de succès de 14 % en relatif ; sur robot réel Franka à un bras, le gain atteint 56 % en relatif. Les améliorations sont plus marquées sur les tâches long-horizon impliquant de nombreuses transitions. L'enjeu pour l'industrie robotique est direct : les VLA (Pi-0 de Physical Intelligence, OpenVLA, GR00T N2 de NVIDIA) sont aujourd'hui les modèles de référence pour la généralisation en manipulation, mais leur fine-tuning sur des tâches spécifiques reste fragile dès que les séquences s'allongent. StaKe comble un angle mort structurel de l'entraînement supervisé classique, en pondérant implicitement les moments critiques. Le gain de 56 % mesuré sur robot réel Franka est le résultat le plus significatif : les validations sur hardware réel restent rares dans la littérature VLA, et ce chiffre suggère que l'amélioration ne se limite pas à la simulation. Le fait que le framework soit purement plug-in, sans toucher à l'inférence, facilite son intégration par des équipes qui fine-tunent déjà des backbones existants. Les VLA ont émergé comme paradigme dominant après RT-2 (Google DeepMind, 2023) et se sont accélérés avec Pi-0 (Physical Intelligence, fin 2024) et ses successeurs. Le défi du fine-tuning efficace sur tâches longues est aujourd'hui l'un des principaux points de friction pour le déploiement industriel de bras manipulateurs polyvalents. StaKe se positionne comme contribution générique applicable à tout backbone VLA. Un site projet est annoncé (hi-yuanxu.github.io/StaKe-Web) ; à ce stade, aucun partenariat industriel ni déploiement terrain n'est mentionné. Il s'agit d'une publication académique, pas d'un produit en disponibilité commerciale.

UELes équipes françaises et européennes travaillant sur le fine-tuning de modèles VLA (INRIA, CEA-List, laboratoires universitaires) peuvent intégrer ce framework plug-in directement dans leurs pipelines existants sans modification architecturale.

💬 Les VLA craquaient toujours au même endroit, et tout le monde le savait sans trop savoir quoi faire : les transitions du préhenseur, ouverture et fermeture, concentrent l'essentiel des échecs, mais la supervision standard les traite comme n'importe quel autre pas de temps. StaKe ajoute deux têtes légères qui ciblent exactement ces moments critiques, sans toucher à l'architecture ni à l'inférence. +56% sur robot Franka réel (pas en simulation), c'est le genre de chiffre qui va faire réfléchir les équipes qui fine-tunent Pi-0 ou OpenVLA en ce moment.

IA physiqueOpinion

1 source

LoopVLA : l'amélioration itérative par suffisance apprise pour les modèles vision-langage-action (VLA)

40

4arXiv cs.RO

LoopVLA : l'amélioration itérative par suffisance apprise pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a déposé en mai 2026 sur arXiv un préprint décrivant LoopVLA, une nouvelle architecture de modèle Vision-Language-Action (VLA) conçue pour la manipulation robotique en boucle fermée. L'idée centrale : les VLA actuels utilisent systématiquement la représentation la plus abstraite de leur backbone vision-langage pour prédire les actions, ce qui se révèle sous-optimal pour les ajustements spatiaux fins et répétitifs qu'implique la manipulation de précision. LoopVLA remplace cette logique par un bloc Transformer partagé appliqué de manière récurrente : à chaque itération, le modèle produit à la fois une action candidate et un score de suffisance estimant si un raffinement supplémentaire est nécessaire. L'apprentissage de ce score, en l'absence de supervision directe, repose sur un objectif d'alignement de distribution auto-supervisé : les scores de confiance intermédiaires sont entraînés à refléter la qualité relative des actions produites à chaque étape de raffinement. Sur les benchmarks LIBERO, LIBERO-Plus et VLA-Arena, LoopVLA réduit le nombre de paramètres de 45 % et améliore le débit d'inférence jusqu'à 1,7 fois, tout en atteignant ou surpassant les baselines de référence sur les taux de réussite aux tâches. Le gain est concret pour les équipes qui déploient des VLA sur matériel embarqué ou sous contraintes de latence : un facteur 1,7x sur le throughput d'inférence peut faire la différence entre un robot capable de répondre en boucle de contrôle serrée et un système trop lent pour la production. L'approche remet également en question un postulat dominant dans le domaine, à savoir que la représentation la plus profonde est toujours la meilleure pour l'action. En montrant qu'une sortie anticipée guidée par un signal appris suffit à maintenir les performances, LoopVLA plaide contre le dogme "plus profond égale meilleur" pour la manipulation de précision, où les indices géométriques bas-niveau (position du préhenseur, orientation d'un objet) sont souvent dégradés par une abstraction excessive. Les VLA sont au coeur d'une compétition intense depuis l'émergence de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA et Octo (UC Berkeley). La plupart de ces modèles héritent d'une logique "backbone figé + tête d'action" sans remettre en question la profondeur de représentation utilisée. LoopVLA s'inscrit dans la lignée des travaux sur l'early exit et le calcul adaptatif, comparable aux Mixture of Depths de DeepMind, mais appliqués à la politique robotique. Il n'y a pas de déploiement industriel annoncé : il s'agit d'un résultat de recherche avec évaluations uniquement en simulateur (LIBERO est un benchmark sim). La prochaine étape naturelle serait une validation sur robot réel pour mesurer le sim-to-real gap, en particulier sur des tâches de manipulation fine.

IA physiqueOpinion

1 source

3DVLA : amélioration des modèles VLA par la compréhension spatiale 3D et des instances

À lire aussi

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances

OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne

Amélioration du fine-tuning des modèles VLA par supervision structurée des étapes et des images clés

LoopVLA : l'amélioration itérative par suffisance apprise pour les modèles vision-langage-action (VLA)