Entraîner des modèles vision-langage-action (VLA) avec une supervision dense par chaîne de pensée incarnée
Une équipe du laboratoire RUCKBReasoning (Université Renmin de Chine) a publié le 30 juin 2026 ZR-0, un modèle VLA (vision-language-action) de 2,6 milliards de paramètres entraîné avec une supervision dense par chaîne de raisonnement incarnée, ou ECoT (Embodied Chain-of-Thought). Le modèle repose sur une architecture dual-stream : un VLM pré-entraîné (baptisé System 2) génère des annotations de raisonnement structuré pendant l'entraînement, tandis qu'un expert d'action basé sur un Diffusion Transformer (System 1) produit des séquences d'actions continues par flow matching. Les deux composants sont couplés via cross-attention, avec un masque d'attention qui permet de court-circuiter entièrement la génération ECoT à l'inférence sans perte de performance mesurée. Le modèle a été pré-entraîné sur ProcCorpus-60M, un corpus de 60 millions de frames (environ 1 000 heures) issus de plus de 400 000 trajectoires, avec des annotations ECoT couvrant 96,8 % des frames. Les évaluations couvrent trois benchmarks de simulation, LIBERO (bras unique), RoboTwin 2.0 (bras bimanuels) et RoboCasa GR-1 Tabletop (humanoïde), ainsi que des expériences réelles sur plateforme xArm.
L'enjeu central est le transfert cross-embodiment : les espaces d'états et d'actions diffèrent fondamentalement d'un robot à l'autre, ce qui rend la généralisation difficile pour les modèles end-to-end. L'hypothèse de ZR-0 est que les processus cognitifs de haut niveau, perception de scène, identification d'objets, planification, décomposition de sous-tâches, sont partagés entre embodiments, même si les commandes moteur ne le sont pas. En ancrant l'alignement des représentations dans ce niveau d'abstraction, les auteurs contournent la nécessité d'adapter le modèle à chaque cinématique robot. Pour les intégrateurs industriels, le gain potentiel est concret : un seul modèle entraînable sur données hétérogènes, déployable sur plusieurs plateformes sans fine-tuning spécifique à chaque bras.
Cette approche s'inscrit dans une vague de modèles VLA généralistes qui cherchent à résoudre le sim-to-real gap par des architectures raisonnantes. Les concurrents directs incluent Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et OpenVLA, qui explorent des stratégies similaires de pré-entraînement multi-robot. ZR-0 se distingue par son dispositif ECoT dédié à l'entraînement et neutralisable à l'inférence, ce qui préserve la vitesse d'exécution. Le code et les checkpoints sont publiés en open source sur GitHub. Aucun déploiement industriel ni partenaire B2B n'est annoncé à ce stade, il s'agit d'une contribution de recherche académique, pas d'un produit shipé.




