
Wang Zhongyuan (BAAI) : les VLA ne mourront pas, mais les modèles du monde sont l'avenir
Wang Zhongyuan, directeur du Beijing Academy of Artificial Intelligence (BAAI, 北京智源人工智能研究院), institution de recherche non lucrative chinoise, a accordé une interview approfondie au média spécialisé 硬氪 en marge de la conférence annuelle de l'académie, consacrée cette année aux modèles du monde (World Models) et aux agents intelligents. Il y cartographie quatre grandes familles de world models en compétition : les modèles centrés sur le langage comme les VLA et VLM (dont Gemini 3), qui prédisent le prochain token sans comprendre les conséquences physiques ; les modèles centrés sur les pixels comme Sora ou Seedance, efficaces pour la génération vidéo mais aveugles à la causalité physique ; les modèles centrés sur la structure 3D, dont Marble de World Labs (l'équipe de Li Feifei), qui reconstruisent l'espace géométrique sans en modéliser les états physiques ; et les modèles centrés sur la représentation visuelle, comme la série V-JEPA de Yann LeCun, dont l'évolution des embeddings ne correspond pas à l'évolution des lois physiques. BAAI explore une cinquième voie : fusionner représentations linguistiques et visuelles dans un espace latent unifié (latent space), depuis lequel des décodeurs distincts restituent langage, actions et vision selon le besoin, via des systèmes déjà déployables comme Physis et RoboBrain Orca.
L'enjeu central, selon Wang, est de substituer au paradigme "Next Token Prediction" des LLM un paradigme "Next Physical State Prediction", soit la prédiction du prochain état physique du monde. Cette bascule est directement liée aux limites exposées par l'IA incarnée (embodied AI) : les robots actuels, qu'ils s'appuient sur des VLA ou des architectures plus simples, restent des exécutants passifs, cantonnés à des tâches mono-scène avec des données très spécifiques. Ils ne généralisent pas. Un robot VLA peut attraper un colis sur une chaîne logistique, mais il est incapable de prédire ce qui se passe si une bouteille ouverte tombe à côté. Wang rejette catégoriquement l'équivalence entre génération vidéo et world model, qui s'est répandue depuis qu'OpenAI a qualifié Sora de "World Simulator" : produire une vidéo physiquement plausible n'est pas modéliser le monde. Un vrai world model doit être physiquement correct (gravité, optique, fluides), doté d'une causalité action-résultat explicite, cohérent sur de longues séquences temporelles, et généralisable à des tâches multiples. Quant au débat "VLA is dead", Wang le tranche sans ambiguïté : les VLA restent utiles aujourd'hui et le resteront à court terme, mais les world models représentent l'étape suivante.
BAAI a construit cette position en couches successives depuis le LLM Wudao (悟道), premier grand modèle chinois public, jusqu'aux architectures multimodales natives Emu3 et Emu3.5, avant d'amorcer en 2024 la transition vers la "Next State Prediction". L'académie est aussi un vivier : les fondateurs de Zhipu AI (Tang Jie), Moonshot AI (Yang Zhilin), iFlytek Research (Liu Zhiyuan) et Galactic General Robotics (Wang He) y ont tous conduit des recherches. Côté compétition internationale, BAAI se positionne face à World Labs (Marble), OpenAI (Sora), DeepMind (Genie 2) et au programme V-JEPA de LeCun chez Meta. Wang situe l'état actuel des world models à l'équivalent du deep learning vers 2012 : données fragmentées, benchmarks divergents, pas encore de "moment ChatGPT". Il estime qu'un véritable cerveau robotique à base de world model est un horizon de trois ans minimum, avec des applications prioritaires dans la robotique industrielle, la simulation physique et l'IA for Science.
Dans nos dossiers




