RecherchearXiv cs.RO 2 juin 2026

RynnVLA-002 : un modèle unifié vision-langage-action (VLA) et du monde

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de recherche a publié RynnVLA-002, un modèle unifié combinant Vision-Language-Action (VLA) et world model, présenté en preprint sur arXiv (2511.17502v3). L'architecture couple deux composantes interdépendantes : le world model prédit des états visuels futurs à partir des actions et observations courantes, apprenant ainsi la physique implicite de l'environnement ; le modèle VLA génère en retour les actions suivantes depuis des observations visuelles brutes. Ce couplage bidirectionnel vise un apprentissage conjoint de la dynamique environnementale et de la planification motrice. Sur le benchmark de simulation LIBERO, RynnVLA-002 atteint 97,4 % de taux de succès sans pré-entraînement. En conditions réelles, dans des expériences conduites avec le framework open-source LeRobot de Hugging Face, l'intégration du world model améliore le taux de succès global de 50 % par rapport au modèle VLA seul.

L'intérêt de cette architecture tient dans la mutualisation de deux paradigmes historiquement distincts. Les world models ont longtemps servi d'outils de planification offline ou de data augmentation, tandis que les VLA visent la génération d'actions en temps réel depuis des observations brutes. RynnVLA-002 cherche à démontrer leur renforcement mutuel : le world model corrige la génération d'actions en anticipant leurs conséquences visuelles, ce qui réduit la dépendance aux données d'entraînement dans des zones peu couvertes. Le gain de 50 % en real-world est significatif, mais le preprint reste peu disert sur la diversité des tâches testées et les conditions expérimentales précises, ce qui rend une évaluation indépendante prématurée. Pour les équipes confrontées au sim-to-real gap, l'idée d'ancrer une VLA dans une représentation physique anticipatrice constitue néanmoins une direction crédible.

Les VLA sont devenus un terrain de compétition dense depuis Pi-0 de Physical Intelligence, OpenVLA, et les approches RoboVLMs, qui exploitent des backbones vision-langage pré-entraînés pour produire des politiques généralisables. Côté world models, des travaux comme Dreamer (DeepMind) et UniSim ont popularisé la prédiction vidéo comme supervision indirecte pour la robotique. RynnVLA-002 cherche à unifier explicitement ces deux lignes, se différenciant ainsi des architectures à modules séparés. À sa troisième version de preprint, le travail est en itération active, mais aucune affiliation institutionnelle claire ni partenariat industriel n'est mentionné dans l'abstract, ce qui limite l'évaluation de sa maturité réelle. Les prochaines étapes logiques incluront une validation sur des benchmarks plus exigeants comme CALVIN ou RLBench, et idéalement une publication des poids du modèle pour permettre une réplication indépendante.

Impact France/UE

L'utilisation de LeRobot (framework open-source de HuggingFace, entreprise française) comme cadre expérimental de référence valide l'écosystème robotique open-source porté par un acteur français, sans impact direct sur le marché ou la R&D en France/UE.

Dans nos dossiers

IA physique & VLA Physical Intelligence — π0 OpenVLA / RT-X World models

À lire aussi

1arXiv cs.RO

MotionVLA : intégration du mouvement géométrique dans un modèle vision-langage-action (VLA)

Un preprint déposé sur arXiv le 9 juin 2026 (arXiv:2606.08288) introduit MotionVLA, une interface de mémoire motrice conçue pour améliorer les modèles vision-language-action appliqués à la manipulation robotique longue portée. Le principe : plutôt qu'alimenter le modèle avec une séquence d'images passées traitées indépendamment, MotionVLA convertit une courte fenêtre vidéo récente en tokens de champ de trajectoire (trajectory-field tokens), compacts et temporellement continus. Ces tokens encodent le mouvement cohérent entre les observations, et les tokens visuels courants les interrogent pour extraire les informations de mouvement pertinentes à la tâche en cours. Le tout est réinjecté dans le flux VLA via une supervision ancrée sur les trajectoires. Les auteurs rapportent des améliorations sur des benchmarks de simulation ainsi que des essais préliminaires sur robot réel, avec des exécutions décrites comme plus fluides et plus directes. L'enjeu est théorique, mais les implications pratiques sont directes. Les VLA actuels -- pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure) -- cherchent à résoudre l'ambiguïté des tâches longues en injectant toujours plus de contexte : historique d'images, profondeur, features 4D. L'hypothèse implicite est "plus de contexte spatio-temporel équivaut à une meilleure politique". MotionVLA conteste cette hypothèse : un contexte incohérent en termes de mouvement introduit de la dérive géométrique, des indices temporels fragmentés et une génération d'actions instable. Reformuler la mémoire comme un champ de mouvement plutôt que comme un empilement de frames résout le problème à la source, ce qui intéresse directement les équipes cherchant à stabiliser des VLA en déploiement industriel sans exploser le budget de calcul. Ce travail s'inscrit dans une course intense à l'architecture VLA optimale. Les approches concurrentes incluent les modèles à base de profondeur (SpatialVLA), de features 4D (CogACT), ou de diffusion de trajectoires (pi-0). MotionVLA se rapproche davantage des travaux sur le flot optique dense et les représentations de mouvement continu. Deux mises en garde s'imposent : les résultats sur robot réel sont explicitement qualifiés de "préliminaires" par les auteurs, et aucun chiffre de benchmark précis n'est disponible dans la publication actuelle. À ce stade, il s'agit d'une contribution de recherche, non d'un produit industrialisé ni d'une démonstration validée à l'échelle.

RechercheOpinion

1 source

2arXiv cs.RO

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion

1 source

3arXiv cs.RO

FutureNav : modélisation unifiée monde-action pour la navigation vision-langage

FutureNav est un cadre de modélisation unifiée monde-action pour la navigation vision-langage (VLN) en environnements continus, présenté sous forme de preprint sur arXiv (arXiv:2606.30367). Le système encode conjointement des features textuelles, visuelles et spatiales dans un grand modèle de langage, entraîné sur quatre objectifs simultanés : prédiction d'action de navigation, dynamiques inverse et forward pour modéliser les transitions d'états, et génération future pour anticiper les états spatiaux à venir. Avec un backbone de 4 milliards de paramètres, FutureNav revendique des performances state-of-the-art sur plusieurs benchmarks VLN, surpassant les méthodes antérieures selon ses auteurs. Le code et les modèles seront publiés en open source. La contribution centrale est architecturale : la plupart des modèles de navigation fondationnels récents traitent la tâche comme une génération directe d'actions, sans modéliser explicitement l'état du monde ni son évolution future. FutureNav cherche à combler cet écart en forçant le modèle à représenter des transitions d'états, ce qui est censé renforcer la robustesse sur des séquences d'actions longues en environnement non discrétisé. Pour les chercheurs en navigation incarnée ou les intégrateurs de robots mobiles autonomes, cela pointe vers une approche où le raisonnement spatial prospectif améliore la politique d'action sans surcoût d'inférence notable, un point clé pour l'embarqué. La VLN en environnements continus est un domaine actif depuis les benchmarks R2R, VLN-CE et REVERIE. Des travaux comme NavGPT, MapGPT ou EmbodiedScan ont scalé des VLM sur la navigation, mais en mode "action pure". FutureNav s'inscrit dans la tendance des world models appliqués à la navigation incarnée, parallèlement aux approches VLA comme OpenVLA ou aux travaux de DeepMind sur la robotique prédictive. Il s'agit pour l'instant d'un preprint non évalué par les pairs, et les gains annoncés sur les benchmarks méritent une vérification indépendante avant conclusions définitives. La prochaine étape annoncée est la publication publique du code.

RechercheActu

1 source

4arXiv cs.RO

VLAFlow : un cadre d'entraînement unifié pour les modèles vision-langage-action via co-entraînement et alignement latent futur

Des chercheurs présentent VLAFlow (Vision-Language-Action Flow), un framework unifié de flow-matching destiné à comparer objectivement les différents paradigmes d'entraînement des modèles vision-langage-action (VLA) en manipulation robotique. L'étude s'appuie sur OXEMix, un corpus hétérogène d'environ 5 000 heures de données combinant DROID, OpenX-Embodiment, OpenX-Augmented et RoboCOIN. Sous une architecture commune de type pi-0, avec le même backbone VLM, le même action expert et un espace d'action à 14 dimensions, les auteurs évaluent quatre approches strictement comparables : l'entraînement sur les seules actions (MindPI), le co-entraînement supervisé par le langage (MindLPI), l'alignement des représentations latentes futures (MindWPI), et leur combinaison (MindLWPI). Les tests sont menés sur trois bancs d'essai de référence : LIBERO, LIBERO-Plus et SimplerEnv. Pour les équipes qui entraînent des modèles VLA sur des données robotiques hétérogènes, l'apport principal n'est pas un nouveau produit mais une comparaison contrôlée rare dans un champ où architecture, données et protocole d'évaluation varient habituellement d'un papier à l'autre, rendant les résultats difficiles à départager. Les résultats montrent que l'entraînement action seule se dégrade quand les données proviennent de sources trop diverses, un signal utile pour qui envisage de simplement agréger des jeux de données multi-robots sans garde-fou. La supervision par le langage préserve la généralisation vision-langage, et l'alignement latent futur améliore la modélisation des transitions d'état et des relations action-résultat. La combinaison des deux signaux (MindLWPI) offre le transfert le plus stable sur l'ensemble des bancs d'essai, suggérant qu'un espace de méta-action combinant contraintes linguistiques et prédictives rend l'apprentissage par imitation plus robuste au passage à l'échelle. Ce travail s'inscrit dans la lignée des architectures pi-0 popularisées par Physical Intelligence, dans un paysage où Nvidia (GR00T N2), Figure (Helix) ou d'autres laboratoires développent également des modèles généralistes pour la manipulation robotique. Contrairement à des annonces produit, il s'agit ici d'une publication de recherche (preprint arXiv) centrée sur la méthodologie d'entraînement plutôt que sur un déploiement matériel. Les auteurs positionnent VLAFlow comme un socle reproductible pour de futures comparaisons de paradigmes, sans annoncer pour l'instant de calendrier de mise à disposition du code ou des poids du modèle.

RechercheActu

1 source