Aller au contenu principal
RecherchearXiv cs.RO4h

RynnVLA-002 : un modèle unifié vision-langage-action (VLA) et du monde

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche a publié RynnVLA-002, un modèle unifié combinant Vision-Language-Action (VLA) et world model, présenté en preprint sur arXiv (2511.17502v3). L'architecture couple deux composantes interdépendantes : le world model prédit des états visuels futurs à partir des actions et observations courantes, apprenant ainsi la physique implicite de l'environnement ; le modèle VLA génère en retour les actions suivantes depuis des observations visuelles brutes. Ce couplage bidirectionnel vise un apprentissage conjoint de la dynamique environnementale et de la planification motrice. Sur le benchmark de simulation LIBERO, RynnVLA-002 atteint 97,4 % de taux de succès sans pré-entraînement. En conditions réelles, dans des expériences conduites avec le framework open-source LeRobot de Hugging Face, l'intégration du world model améliore le taux de succès global de 50 % par rapport au modèle VLA seul.

L'intérêt de cette architecture tient dans la mutualisation de deux paradigmes historiquement distincts. Les world models ont longtemps servi d'outils de planification offline ou de data augmentation, tandis que les VLA visent la génération d'actions en temps réel depuis des observations brutes. RynnVLA-002 cherche à démontrer leur renforcement mutuel : le world model corrige la génération d'actions en anticipant leurs conséquences visuelles, ce qui réduit la dépendance aux données d'entraînement dans des zones peu couvertes. Le gain de 50 % en real-world est significatif, mais le preprint reste peu disert sur la diversité des tâches testées et les conditions expérimentales précises, ce qui rend une évaluation indépendante prématurée. Pour les équipes confrontées au sim-to-real gap, l'idée d'ancrer une VLA dans une représentation physique anticipatrice constitue néanmoins une direction crédible.

Les VLA sont devenus un terrain de compétition dense depuis Pi-0 de Physical Intelligence, OpenVLA, et les approches RoboVLMs, qui exploitent des backbones vision-langage pré-entraînés pour produire des politiques généralisables. Côté world models, des travaux comme Dreamer (DeepMind) et UniSim ont popularisé la prédiction vidéo comme supervision indirecte pour la robotique. RynnVLA-002 cherche à unifier explicitement ces deux lignes, se différenciant ainsi des architectures à modules séparés. À sa troisième version de preprint, le travail est en itération active, mais aucune affiliation institutionnelle claire ni partenariat industriel n'est mentionné dans l'abstract, ce qui limite l'évaluation de sa maturité réelle. Les prochaines étapes logiques incluront une validation sur des benchmarks plus exigeants comme CALVIN ou RLBench, et idéalement une publication des poids du modèle pour permettre une réplication indépendante.

Impact France/UE

L'utilisation de LeRobot (framework open-source de HuggingFace, entreprise française) comme cadre expérimental de référence valide l'écosystème robotique open-source porté par un acteur français, sans impact direct sur le marché ou la R&D en France/UE.

À lire aussi

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)
1arXiv cs.RO 

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion
1 source
Entraînement hybride pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

Entraînement hybride pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié sur arXiv (identifiant 2510.00600, version 2) un framework nommé Hybrid Training (HyT), conçu pour les modèles Vision-Language-Action (VLA) utilisés en robotique de manipulation. Le problème central est le suivant : le raisonnement par chaîne de pensée (Chain-of-Thought, CoT), qui consiste à générer des "pensées" intermédiaires avant chaque action, améliore les performances des VLA mais allonge mécaniquement le temps d'inférence. Dans des tâches requérant de longues séquences d'actions successives, ce délai compromet l'utilisabilité réelle du système. HyT découple la phase d'apprentissage de la phase d'exécution : le modèle s'entraîne en intégrant les pensées intermédiaires, acquiert les gains de performance associés, puis peut les omettre entièrement lors du déploiement. Le framework supporte trois modes à l'inférence selon le contexte : prédiction directe d'actions, génération CoT complète, ou suivi d'instructions. Les auteurs ont validé l'approche sur plusieurs benchmarks simulés et sur des expériences en conditions réelles. Ce découplage entraînement/inférence répond à l'une des tensions fondamentales dans le déploiement industriel des VLA : les techniques qui améliorent la fiabilité dégradent souvent la réactivité. Pour un intégrateur ou un COO industriel, un système qui "réfléchit" trop longtemps avant d'agir est difficilement intégrable sur une ligne de production cadencée. HyT avance que les bénéfices du raisonnement explicite peuvent être distillés dans les poids du modèle et activés implicitement, sans générer de tokens supplémentaires au runtime. Si ce résultat se confirme à plus grande échelle, il simplifierait le compromis latence/performance qui freine aujourd'hui le déploiement de bras manipulateurs VLA en environnement non structuré. C'est également une réponse indirecte au "demo gap" fréquemment reproché à ces modèles : de bonnes performances en simulation ne garantissent pas une vitesse d'exécution acceptable sur le terrain. L'essor des VLA s'est accéléré depuis 2023 avec RT-2 (Google DeepMind), OpenVLA (UC Berkeley), Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), qui combinent vision, langage et prédiction d'actions dans un seul réseau. L'application du CoT à la robotique prolonge les travaux fondateurs sur les LLMs, mais se heurte aux contraintes temps-réel absentes du traitement de texte. HyT s'inscrit dans un courant de recherche orienté déployabilité, aux côtés de la distillation de politiques et des architectures à flux de tokens réduit. La publication est une preprint arXiv non peer-reviewed, et les résultats en conditions réelles restent à confirmer à plus grande échelle industrielle. Aucun acteur européen n'est impliqué dans ces travaux ; les laboratoires cités opèrent principalement depuis les États-Unis.

RechercheOpinion
1 source
Évolution continue des compétences dans un modèle vision-langage-action (VLA)
3arXiv cs.RO 

Évolution continue des compétences dans un modèle vision-langage-action (VLA)

Des chercheurs ont publié Stellar VLA (arXiv:2511.18085v3), un cadre d'apprentissage continu par imitation (continual imitation learning, CIL) pour les modèles Vision-Langage-Action (VLA). La méthode propose deux variantes progressives : T-Stellar, fondée sur une modélisation plate centrée sur les tâches, et TS-Stellar, organisée en structure hiérarchique tâche-compétence. Les expériences menées sur le benchmark LIBERO, référence standard pour les tâches de manipulation robotique, montrent que les deux variantes surpassent les baselines VLA et CIL actuelles, avec seulement 1 % de rejeu de données. Une validation en conditions réelles sur une plateforme bi-bras, avec des configurations de scènes et d'embodiments distincts, confirme que le transfert de connaissances entre tâches reste effectif au-delà du simulateur. Le principal apport de Stellar VLA est d'adresser un frein structurel au déploiement des grands modèles VLA : les méthodes CIL existantes nécessitent des paramètres additionnels ou des modules externes, ce qui les rend difficilement scalables lorsque le modèle de base est déjà massif. En optimisant conjointement des représentations de tâches et un espace de connaissances partagé, Stellar VLA introduit un mécanisme de routage expert guidé par la sémantique, sélectionnant les K embeddings les plus proches pour orienter le modèle vers la compétence pertinente, sans alourdir l'architecture. Pour les équipes qui déploient des robots polyvalents en production, cela ouvre la voie à l'apprentissage incrémental de nouvelles tâches avec un coût de fine-tuning réduit. TS-Stellar se distingue notamment sur les manipulations hiérarchiques complexes, et les visualisations publiées illustrent une rétention robuste des compétences acquises ainsi qu'une capacité de découverte automatique de nouvelles tâches. Les VLA constituent un axe de recherche en accélération depuis 2023, portés par Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA (UC Berkeley) ou encore RT-2 (Google DeepMind), qui cherchent à généraliser la manipulation robotique via un préentraînement multimodal massif. La question du catastrophic forgetting, c'est-à-dire la perte des compétences antérieures lors de l'apprentissage d'une nouvelle tâche, reste un verrou non résolu à l'échelle industrielle. Stellar VLA se positionne comme une surcouche légère applicable à des VLA existants, sans retraining complet. Le projet est documenté sur stellarvla.github.io ; aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication, qui reste à ce stade un travail de recherche académique.

RechercheOpinion
1 source
RedVLA : l'attaque physique des modèles vision-langage-action (VLA)
4arXiv cs.RO 

RedVLA : l'attaque physique des modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié RedVLA (arXiv:2604.22591), présenté comme le premier framework de red teaming physique dédié aux modèles VLA (Vision-Language-Action), ces architectures multimodales qui pilotent des robots physiques en interprétant simultanément des instructions visuelles et textuelles. Le framework opère en deux étapes : une phase de "Risk Scenario Synthesis" qui identifie automatiquement les régions d'interaction critiques dans des trajectoires normales pour y insérer des facteurs de risque entremêlés au flux d'exécution du modèle, suivie d'un "Risk Amplification" qui raffine itérativement la position et l'état du facteur de risque via une optimisation sans gradient guidée par des caractéristiques de trajectoire. Testé sur six modèles VLA représentatifs, RedVLA atteint un taux de succès d'attaque (Attack Success Rate) de 95,5 % en seulement 10 itérations d'optimisation. Les chercheurs proposent en parallèle SimpleVLA-Guard, un module de sécurité léger entraîné sur les données générées par RedVLA, dont le code et les assets sont disponibles publiquement. Un ASR de 95,5 % signifie que dans quasiment tous les scénarios testés, le framework a réussi à provoquer des comportements dangereux dans des modèles VLA avant déploiement. C'est un résultat préoccupant pour les intégrateurs industriels : contrairement aux attaques sur systèmes purement logiciels, les comportements physiques incorrects (collisions, chutes d'objets, dommages environnementaux) sont souvent irréversibles. RedVLA démontre qu'il est possible de cartographier ces risques de façon systématique avant mise en production, ce qui comble un vide méthodologique réel. Pour les équipes chargées de qualifier des robots manipulateurs ou des humanoïdes, ce type d'outil d'évaluation adversariale pourrait devenir une exigence de certification, à l'image des standards de sécurité fonctionnelle (IEC 61508) dans l'automatisation industrielle. Les modèles VLA ont connu une accélération marquée depuis 2023 avec RT-2 (Google DeepMind), OpenVLA (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), chacun visant à généraliser les capacités de manipulation via de grandes architectures multimodales pré-entraînées. La sécurité physique de ces systèmes est restée largement sous-étudiée, la recherche en robustesse IA se concentrant surtout sur les attaques adversariales textuelles ou visuelles en contexte numérique. RedVLA adapte les méthodologies de red teaming issues des LLMs au domaine physique, un glissement de paradigme qui devrait intéresser aussi bien les acteurs américains (Figure AI, Agility Robotics, Boston Dynamics) que les startups européennes déployant des robots en environnement humain, comme Enchanted Tools (Mirokaï, France) ou Wandercraft. Les prochaines étapes naturelles seraient des validations sur hardware réel et l'intégration de SimpleVLA-Guard dans des pipelines de déploiement industriels.

UELes startups françaises déployant des robots en environnement humain (Enchanted Tools, Wandercraft) sont directement concernées par ces vulnérabilités VLA, et SimpleVLA-Guard pourrait s'imposer comme exigence dans les pipelines de qualification sous réglementation européenne (AI Act, certification IEC 61508).

RechercheOpinion
1 source