Aller au contenu principal
IA physiquearXiv cs.RO2h

Entraîner des modèles vision-langage-action (VLA) avec une supervision dense par chaîne de pensée incarnée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe du laboratoire RUCKBReasoning (Université Renmin de Chine) a publié le 30 juin 2026 ZR-0, un modèle VLA (vision-language-action) de 2,6 milliards de paramètres entraîné avec une supervision dense par chaîne de raisonnement incarnée, ou ECoT (Embodied Chain-of-Thought). Le modèle repose sur une architecture dual-stream : un VLM pré-entraîné (baptisé System 2) génère des annotations de raisonnement structuré pendant l'entraînement, tandis qu'un expert d'action basé sur un Diffusion Transformer (System 1) produit des séquences d'actions continues par flow matching. Les deux composants sont couplés via cross-attention, avec un masque d'attention qui permet de court-circuiter entièrement la génération ECoT à l'inférence sans perte de performance mesurée. Le modèle a été pré-entraîné sur ProcCorpus-60M, un corpus de 60 millions de frames (environ 1 000 heures) issus de plus de 400 000 trajectoires, avec des annotations ECoT couvrant 96,8 % des frames. Les évaluations couvrent trois benchmarks de simulation, LIBERO (bras unique), RoboTwin 2.0 (bras bimanuels) et RoboCasa GR-1 Tabletop (humanoïde), ainsi que des expériences réelles sur plateforme xArm.

L'enjeu central est le transfert cross-embodiment : les espaces d'états et d'actions diffèrent fondamentalement d'un robot à l'autre, ce qui rend la généralisation difficile pour les modèles end-to-end. L'hypothèse de ZR-0 est que les processus cognitifs de haut niveau, perception de scène, identification d'objets, planification, décomposition de sous-tâches, sont partagés entre embodiments, même si les commandes moteur ne le sont pas. En ancrant l'alignement des représentations dans ce niveau d'abstraction, les auteurs contournent la nécessité d'adapter le modèle à chaque cinématique robot. Pour les intégrateurs industriels, le gain potentiel est concret : un seul modèle entraînable sur données hétérogènes, déployable sur plusieurs plateformes sans fine-tuning spécifique à chaque bras.

Cette approche s'inscrit dans une vague de modèles VLA généralistes qui cherchent à résoudre le sim-to-real gap par des architectures raisonnantes. Les concurrents directs incluent Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et OpenVLA, qui explorent des stratégies similaires de pré-entraînement multi-robot. ZR-0 se distingue par son dispositif ECoT dédié à l'entraînement et neutralisable à l'inférence, ce qui préserve la vitesse d'exécution. Le code et les checkpoints sont publiés en open source sur GitHub. Aucun déploiement industriel ni partenaire B2B n'est annoncé à ce stade, il s'agit d'une contribution de recherche académique, pas d'un produit shipé.

À lire aussi

VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action
1arXiv cs.RO 

VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action

Le laboratoire TRI-ML (Toyota Research Institute Machine Learning) publie VLA Foundry, un framework open-source qui unifie dans une seule base de code l'entraînement des modèles LLM, VLM et VLA (Vision-Language-Action). Jusqu'ici, la majorité des pipelines open-source de robotique apprenante se concentraient exclusivement sur l'étape d'entraînement à l'action, assemblant à la hâte des briques de préentraînement incompatibles entre elles. VLA Foundry propose à la place un continuum de bout en bout: du préentraînement linguistique jusqu'au fine-tuning spécialisé pour le contrôle moteur. Deux familles de modèles sont publiées simultanément: la première entraînée intégralement depuis zéro via le pipeline LLM→VLM→VLA, la seconde construite sur le backbone Qwen3-VL d'Alibaba. Les deux sont évalués en boucle fermée sur LBM Eval, un simulateur open-source et open-data de manipulation sur table. Sur les tâches multi-objets, le modèle fondé sur Qwen3-VL dépasse la baseline de façon significative, sans que TRI-ML ne quantifie précisément l'écart dans le résumé publié. Le code est disponible sur GitHub (TRI-ML/vla_foundry) et les poids sont libérés sur HuggingFace. Ce que VLA Foundry prouve concrètement, c'est que le choix du backbone VLM est un levier critique: partir d'un modèle vision-langage préentraîné et performant comme Qwen3-VL, plutôt que de construire une architecture robotique ad hoc, améliore substantiellement la politique de contrôle multi-tâches. Pour les équipes d'intégration et les chercheurs, cela valide une stratégie de transfert: exploiter les représentations génériques des grands VLMs commerciaux ou open-weights plutôt que de repartir de zéro. Par ailleurs, le fait que le modèle from-scratch atteigne les performances des travaux closed-source antérieurs de TRI-ML constitue un signal positif pour la reproductibilité de cette classe de modèles, souvent opaque dans la littérature. TRI-ML est l'un des laboratoires de robotique académique les plus actifs, avec une longue historique en apprentissage par renforcement et en manipulation. Dans la course aux VLA, il affronte désormais Physical Intelligence et son modèle pi0, Figure AI avec Helix, Google DeepMind (RT-2, et ses successeurs), ainsi que plusieurs startups émergentes. L'appui sur Qwen3-VL, un modèle produit par l'équipe Qwen d'Alibaba, illustre la tendance croissante à hybrider les avancées du monde NLP avec les contraintes du monde physique. Les prochaines étapes mentionnées incluent des améliorations d'outillage pour le simulateur LBM Eval et l'outil d'analyse STEP, deux contributions qui pourraient aider la communauté à standardiser l'évaluation des politiques robotiques en boucle fermée.

IA physiqueOpinion
1 source
Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils
2arXiv cs.RO 

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils

Des chercheurs ont déposé en mai 2026 sur arXiv un papier proposant "VLAs-as-Tools", une architecture modulaire pour dépasser les limites des modèles vision-langage-action (VLA) sur des tâches robotiques à long horizon. Le principe repose sur une division des rôles : un agent VLM (vision-language model) de haut niveau prend en charge la planification temporelle, l'analyse de scène et la récupération sur erreur, tandis qu'une famille d'outils VLA spécialisés exécutent chacun une sous-tâche physique bornée. Une interface dédiée expose la sélection explicite d'outils et un retour de progression en cours d'exécution, permettant au planificateur de se reconfigurer sur événement plutôt que de surveiller le robot en continu. Pour entraîner ces outils spécialisés à suivre fidèlement les invocations de l'agent, l'équipe propose TAPT (Tool-Aligned Post-Training), qui construit des unités d'entraînement alignées et s'appuie sur des adaptateurs résiduels par famille d'outils. Appliqué au modèle π0.5 de Physical Intelligence, ce pipeline améliore le taux de succès de 4,8 points sur LIBERO-Long et de 23,1 points sur RoboTwin, et augmente la fidélité d'invocation de 15,0 points mesurée par le Non-biased Rate. Ce résultat s'attaque à l'un des goulots d'étranglement les mieux documentés des VLA : leur incapacité à enchaîner des séquences d'actions longues et hétérogènes sans dérive ou blocage. Le gain de 23,1 points sur RoboTwin est particulièrement significatif, ce benchmark simulant des tâches de manipulation complexes proches des conditions industrielles. Là où les approches précédentes soumettaient en boucle le contexte complet au modèle planificateur, VLAs-as-Tools découple strictement planification et exécution, ce qui réduit la latence de replanification et évite la saturation du contexte. Pour un intégrateur ou un COO industriel, cela signifie que des fondations généralistessont en train de franchir le seuil des workflows multi-étapes sans orchestration comportementale ad hoc -- territoire jusqu'ici réservé aux systèmes classiques de type BT ou FSM. Il faut néanmoins souligner que les résultats restent confinés à la simulation : aucune validation sur hardware réel n'est présentée dans le papier. π0.5 est le modèle VLA généraliste de Physical Intelligence (Pi), startup fondée en 2023 par Sergey Levine, Chelsea Finn et d'autres anciens de Google et Berkeley, avec plus de 400 millions de dollars levés. Pi est l'un des rares acteurs à proposer un VLA pré-entraîné sur données réelles à large échelle, en concurrence directe avec GR00T N2 de NVIDIA, les efforts de Google DeepMind, et les approches open-source comme OpenVLA (Stanford). La course se joue désormais sur la généralisation zero-shot et la robustesse hors distribution, deux critères que les benchmarks actuels n'évaluent que partiellement. Les auteurs annoncent la publication du code, ouvrant la voie à l'adaptation de TAPT sur d'autres VLA de base; une validation sur plateforme réelle, annoncée implicitement comme prochaine étape, sera déterminante pour confirmer les gains observés en simulation.

💬 +23 points sur RoboTwin, c'est du solide. Séparer planificateur haut-niveau et exécuteurs VLA spécialisés, l'intuition était là depuis un moment, mais VLAs-as-Tools est le premier à boucler le pipeline complet avec les chiffres qui justifient. Bon, c'est de la simulation pure : aucune manip sur hardware réel dans le papier, et c'est là que les gains ont tendance à fondre.

IA physiqueOpinion
1 source
Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)
3arXiv cs.RO 

Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)

Des chercheurs ont déposé sur arXiv (arXiv:2605.13632, mai 2026) GTA-VLA (Guide, Think, Act), un framework Vision-Language-Action interactif qui permet d'injecter des indices visuels explicites dans le raisonnement d'un robot avant l'exécution. Contrairement aux VLA classiques qui appliquent un mapping direct perception-action appris sur données d'entraînement, GTA-VLA introduit une étape de raisonnement spatial conditionné : l'opérateur peut fournir des points d'affordance, des boîtes englobantes ou des trajectoires dessinées sur l'image, que le modèle intègre dans une chaîne de pensée (Chain-of-Thought, CoT) avant de générer les commandes motrices. Une tête d'action légère ("reactive action head") assure ensuite l'exécution. Sur le benchmark SimplerEnv WidowX en conditions in-domain, le système atteint un taux de succès de 81,2 %, présenté comme état de l'art sur cette tâche. Les auteurs rapportent qu'une seule interaction visuelle suffit à améliorer substantiellement les performances sous perturbations visuelles ou ambiguïtés spatiales hors distribution (OOD). Ce résultat pointe une limite structurelle des VLA actuels : leur fragilité face aux shifts de distribution, c'est-à-dire dès que l'environnement de déploiement diffère des données d'entraînement. Les approches CoT existantes exposent le raisonnement intermédiaire mais restent aveugles à la guidance humaine, rendant la reprise sur erreur difficile sans réentraînement. GTA-VLA propose une troisième voie : maintenir l'autonomie du modèle tout en ouvrant un canal de correction humain minimal, ciblé sur l'espace visuel. Pour un intégrateur industriel, c'est un argument concret contre le demo-to-reality gap : si le robot échoue, l'opérateur désigne visuellement l'objet cible plutôt que de réécrire une instruction texte. La métrique de 81,2 % sur SimplerEnv mérite toutefois d'être contextualisée : ce benchmark reste un environnement simulé contrôlé, et aucun résultat sur hardware réel n'est communiqué dans le papier. GTA-VLA s'inscrit dans l'effervescence des architectures VLA depuis Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui ont tous cherché à coupler raisonnement de haut niveau et exécution robotique fluide. L'apport spécifique est de rendre ce raisonnement "steerable" via des priors spatiaux explicites, là où Pi-0 ou GR00T N2 restent essentiellement autonomes une fois déployés. Publié en preprint non encore évalué par des pairs, le papier ne mentionne ni déploiement sur plateforme physique ni partenariats industriels annoncés. Les prochaines étapes naturelles seraient une validation sur manipulateurs réels (WidowX physique, Franka) et une évaluation de la robustesse de l'interface de guidance en conditions industrielles réelles.

IA physiqueOpinion
1 source
L'affinage des modèles vision-langage-action (VLA) nécessite moins de couches qu'on ne le pense
4arXiv cs.RO 

L'affinage des modèles vision-langage-action (VLA) nécessite moins de couches qu'on ne le pense

Des chercheurs ont publié le 19 juin 2026 (arXiv:2606.20246) une méthode de compression structurelle pour les modèles VLA (Vision-Language-Action) tels que pi-0 (Physical Intelligence) et GR00T N1.5 (NVIDIA). Le constat de départ : ces architectures de plusieurs milliards de paramètres, pré-entraînées sur de vastes corpus vidéo-robot, imposent des coûts de calcul prohibitifs lors du fine-tuning et de l'inférence temps-réel. La méthode proposée est entièrement sans entraînement (training-free) : un unique passage forward via la Centered Kernel Alignment (CKA) suffit à identifier les couches redondantes du backbone VLM et de la tête de contrôle continu. En supprimant ces "couches jumelles", le pipeline compresse la profondeur du modèle jusqu'à 50 %. Les gains mesurés sont de 40 à 50 % sur le temps de fine-tuning et jusqu'à 30 % sur la vitesse d'inférence, tout en conservant des performances équivalentes ou supérieures au modèle complet. Les validations couvrent trois benchmarks de simulation (LIBERO, RoboCasa, SimplerEnv) et dix tâches de manipulation réelle sur quatre embodiments robotiques distincts. Ce résultat remet en question un présupposé structurant du domaine : la profondeur des VLA serait proportionnelle à leurs capacités. Démontrer qu'une redondance massive existe dans ces architectures malgré un entraînement sur des trajectoires physiques diversifiées est non trivial. Pour les intégrateurs et les équipes MLOps industrielles, l'impact pratique est direct : des cycles de fine-tuning deux fois plus courts réduisent le coût d'adaptation à de nouveaux environnements, nouveaux grippers ou nouvelles tâches, sans matériel supplémentaire. L'absence d'entraînement dans la phase de compression est particulièrement critique : les méthodes concurrentes (distillation, token pruning dynamique) exigent de charger le modèle complet, ce qui reste un goulot d'étranglement sur GPU A100/H100. Les VLA comme pi-0 (Physical Intelligence, fondée en 2023 par d'anciens de Google, DeepMind et Stanford) et GR00T N1.5 (NVIDIA, annoncé en mars 2025) représentent actuellement la frontière technique des politiques de manipulation généraliste. La compression de modèles pour robots est un axe de recherche actif : des travaux récents explorent la distillation (OpenVLA-OFT), la quantification et le pruning à la volée. Cette approche se distingue par sa simplicité opérationnelle : aucun dataset de calibration étendu, aucune phase d'optimisation. Les auteurs ne mentionnent pas de partenaire industriel ni de pipeline de déploiement à l'échelle, ce qui en fait pour l'instant une contribution de recherche prometteuse plutôt qu'un produit prêt à l'intégration.

💬 La moitié des couches de pi-0 ou GR00T seraient redondantes, et une seule passe forward suffit à les identifier : c'est le genre de résultat qui va faire mal aux équipes qui ont commandé des clusters H100 pour du fine-tuning robotique. Sans phase d'entraînement, sans dataset de calibration, juste une analyse de similarité entre couches (la CKA, si tu veux creuser). Reste à voir si ça tient hors benchmarks de simulation, mais l'idée que la profondeur des VLA soit largement du gras plutôt que du muscle, c'est une vraie remise en question du consensus actuel.

IA physiqueActu
1 source