Chine/Asie36Kr 15 juin 2026

Wang Zhongyuan (BAAI) : les VLA ne mourront pas, mais les modèles du monde sont l'avenir

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Wang Zhongyuan, directeur du Beijing Academy of Artificial Intelligence (BAAI, 北京智源人工智能研究院), institution de recherche non lucrative chinoise, a accordé une interview approfondie au média spécialisé 硬氪 en marge de la conférence annuelle de l'académie, consacrée cette année aux modèles du monde (World Models) et aux agents intelligents. Il y cartographie quatre grandes familles de world models en compétition : les modèles centrés sur le langage comme les VLA et VLM (dont Gemini 3), qui prédisent le prochain token sans comprendre les conséquences physiques ; les modèles centrés sur les pixels comme Sora ou Seedance, efficaces pour la génération vidéo mais aveugles à la causalité physique ; les modèles centrés sur la structure 3D, dont Marble de World Labs (l'équipe de Li Feifei), qui reconstruisent l'espace géométrique sans en modéliser les états physiques ; et les modèles centrés sur la représentation visuelle, comme la série V-JEPA de Yann LeCun, dont l'évolution des embeddings ne correspond pas à l'évolution des lois physiques. BAAI explore une cinquième voie : fusionner représentations linguistiques et visuelles dans un espace latent unifié (latent space), depuis lequel des décodeurs distincts restituent langage, actions et vision selon le besoin, via des systèmes déjà déployables comme Physis et RoboBrain Orca.

L'enjeu central, selon Wang, est de substituer au paradigme "Next Token Prediction" des LLM un paradigme "Next Physical State Prediction", soit la prédiction du prochain état physique du monde. Cette bascule est directement liée aux limites exposées par l'IA incarnée (embodied AI) : les robots actuels, qu'ils s'appuient sur des VLA ou des architectures plus simples, restent des exécutants passifs, cantonnés à des tâches mono-scène avec des données très spécifiques. Ils ne généralisent pas. Un robot VLA peut attraper un colis sur une chaîne logistique, mais il est incapable de prédire ce qui se passe si une bouteille ouverte tombe à côté. Wang rejette catégoriquement l'équivalence entre génération vidéo et world model, qui s'est répandue depuis qu'OpenAI a qualifié Sora de "World Simulator" : produire une vidéo physiquement plausible n'est pas modéliser le monde. Un vrai world model doit être physiquement correct (gravité, optique, fluides), doté d'une causalité action-résultat explicite, cohérent sur de longues séquences temporelles, et généralisable à des tâches multiples. Quant au débat "VLA is dead", Wang le tranche sans ambiguïté : les VLA restent utiles aujourd'hui et le resteront à court terme, mais les world models représentent l'étape suivante.

BAAI a construit cette position en couches successives depuis le LLM Wudao (悟道), premier grand modèle chinois public, jusqu'aux architectures multimodales natives Emu3 et Emu3.5, avant d'amorcer en 2024 la transition vers la "Next State Prediction". L'académie est aussi un vivier : les fondateurs de Zhipu AI (Tang Jie), Moonshot AI (Yang Zhilin), iFlytek Research (Liu Zhiyuan) et Galactic General Robotics (Wang He) y ont tous conduit des recherches. Côté compétition internationale, BAAI se positionne face à World Labs (Marble), OpenAI (Sora), DeepMind (Genie 2) et au programme V-JEPA de LeCun chez Meta. Wang situe l'état actuel des world models à l'équivalent du deep learning vers 2012 : données fragmentées, benchmarks divergents, pas encore de "moment ChatGPT". Il estime qu'un véritable cerveau robotique à base de world model est un horizon de trois ans minimum, avec des applications prioritaires dans la robotique industrielle, la simulation physique et l'IA for Science.

Dans nos dossiers

IA physique & VLA World models

À lire aussi

1SCMP Tech

L'IA et les modèles du monde : pourquoi la Chine a une longueur d'avance

Les modèles de monde ("world models") sont désormais identifiés comme la prochaine rupture technologique en intelligence artificielle, dépassant les grands modèles de langage (LLM) en leur ajoutant une capacité de simulation de l'environnement physique. Contrairement aux LLM qui traitent du texte, ces architectures apprennent les lois de la physique, la causalité et la géométrie de l'espace réel, ce qui permet d'entraîner des systèmes à intelligence incarnée (embodied AI) : robots humanoïdes, véhicules autonomes, bras industriels. La Chine a déjà déployé ces systèmes à une échelle nettement supérieure à celle des États-Unis, avec des entreprises comme Baidu Apollo (plusieurs dizaines de millions de kilomètres d'autonomie sur route réelle), Unitree et ses robots humanoïdes en production, ainsi que des modèles de monde propriétaires développés par Tencent (HunyuanWorld) et ByteDance. Cet avantage chinois est structurel autant que technologique : le cadre réglementaire y autorise des déploiements massifs en conditions réelles, là où les États-Unis maintiennent des restrictions plus strictes sur les tests d'autonomie. Pour les intégrateurs industriels et les décideurs B2B, cela signifie que le gap sim-to-real, longtemps considéré comme le principal frein à l'adoption robotique, est en train d'être résolu plus vite en Chine qu'ailleurs. Les world models permettent de générer des données synthétiques d'entraînement à partir de simulations physiquement cohérentes, réduisant drastiquement le besoin de collecte en environnement réel. Côté contexte, le concept de world model remonte aux travaux de Yann LeCun chez Meta (architecture JEPA, 2022-2024), mais sa concrétisation industrielle s'est accélérée en 2025-2026 avec l'émergence de modèles dédiés à la robotique comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et les plateformes chinoises. En Europe, des acteurs comme Enchanted Tools (Paris) travaillent sur des approches similaires mais à bien plus petite échelle. La prochaine étape sera probablement la standardisation des benchmarks de world models, un domaine où le leadership de définition reste encore ouvert.

UEL'Europe accuse un retard structurel face à la Chine dans la course aux world models pour la robotique incarnée, avec seulement Enchanted Tools (Paris) identifié comme acteur actif à petite échelle, là où Pékin bénéficie d'un cadre réglementaire autorisant des déploiements massifs en conditions réelles qui accélèrent la résolution du gap sim-to-real.

Chine/AsieOpinion

1 source

236Kr

Zhang Yaqin : l'IA n'est pas une bulle, mais les entreprises d'IA si

Zhang Yaqin, académicien de l'Académie chinoise d'ingénierie et ancien vice-président de Microsoft Research, dirige depuis cinq ans le AIR (Institut de recherche en industrie intelligente de l'Université Tsinghua), qu'il a fondé à Pékin. L'institut a incubé dix entreprises cumulant environ 15 milliards de yuans de levées de fonds et une valorisation totale de 150 milliards de yuans, parmi lesquelles les licornes Huashen Zhiyao (IA pharmaceutique) et Tashi Zhihang. Dans un entretien accordé lors du forum Taihu Dialogue 2026 organisé à Wuxi, Zhang a livré une analyse structurée de l'état réel du marché IA chinois. Sa position centrale : l'IA en tant que technologie ne constitue pas une bulle, mais les valorisations des entreprises IA en sont une. Il situe le secteur à l'équivalent de 1998-1999 pour l'internet, période de déploiement massif d'infrastructures (électricité, calcul, algorithmes), où des acteurs alors dominants comme Yahoo ont disparu tandis que les véritables géants n'étaient pas encore identifiables. Sur le segment robotique, il estime que des centaines d'entreprises sont actuellement en lice, mais que trois à quatre ans suffiront pour n'en retenir qu'une vingtaine ; les grands modèles de langage chinois se consolideront de leur côté en trois à quatre acteurs. L'analyse de Zhang sur la dynamique d'investissement constitue un signal d'alerte direct pour les décideurs. Il observe que lever des capitaux excessifs sans modèle économique consolidé aboutit dans la plupart des cas à brûler la trésorerie sans convertir en revenus, un schéma qu'il juge structurellement identique à la bulle internet. Il distingue néanmoins une différence qualitative avec 2000 : OpenAI et Anthropic affichent des courbes de revenus sans précédent historique, ce qui justifie partiellement la confiance actuelle du marché. Mais il soulève une question non résolue : les investissements massifs des géants technologiques mondiaux dans les datacenters et les puces pourront-ils se convertir en commandes et revenus réels ? Il fixe une fenêtre d'observation de deux à trois ans comme test décisif. Sur la robotique physique, Zhang maintient son estimation que les robots domestiques généralistes nécessitent encore dix ans ou plus, faute de percées théoriques et algorithmiques suffisantes dans l'interaction homme-machine en environnement ouvert. Les robots industriels et spécialisés, eux, progresseront significativement plus vite. L'AIR positionne ses travaux à l'intersection de ces limites. L'approche RSR (Real-to-Sim-to-Real), développée par le professeur Zhou Guyue depuis plusieurs années, vise à fermer la boucle entre environnements simulés et monde physique, un problème central du transfert sim-to-real qui freine tout le secteur. Zhang identifie trois manières de pallier le déficit de données physiques : collecte en vue subjective à partir d'interactions humain-environnement, acquisition autonome par les robots eux-mêmes, et génération de données en simulation. Sur l'entrepreneuriat académique, il préconise le modèle professeur-cofondateur ou chief scientist associé à un CEO commercial distinct, plutôt que le professeur PDG à plein temps, jugeant le taux d'échec de ce dernier schéma structurellement élevé aussi bien en Chine qu'aux États-Unis. L'AIR n'est pas un incubateur au sens financier : il produit une à deux entreprises par an, toutes en phase de validation de leur capacité d'exécution commerciale.

Chine/AsieOpinion

1 source

336Kr

Le Fil IA fondée par des anciens de Tsinghua lève des centaines de millions de yuans : « on ne veut pas de l'étiquette modèle du monde »

La startup chinoise Liqing Zhineng (厘清智能, "Clarity Intelligence"), fondée en avril 2026 à Pékin, a bouclé un tour d'amorçage de plusieurs centaines de millions de yuans (soit plusieurs dizaines de millions d'euros), révélé début juillet par le média chinois Zhinen Yongxian. Le tour réunit Shunwei Capital, Sequoia Chine, Hillhouse Ventures, FreeS Fund, Xinglian Capital, le fonds d'amorçage des alumni de Tsinghua, SEE Fund, ainsi que des investisseurs industriels comme AgiBot (智元机器人), Linker Hand (灵心巧手) et Century Golden Resources. L'équipe, adossée au laboratoire de Li Yiming, professeur assistant à l'école d'intelligence artificielle de Tsinghua et ancien chercheur Vision & Robotics chez Nvidia (bourse Nvidia 2024, dix lauréats dans le monde), compte une cinquantaine de membres d'une moyenne d'âge de 23 ans. Le produit central est une infrastructure baptisée "Physical AI Infra", construite autour de deux briques maison : un pipeline de collecte de données visant à passer de la centaine de milliers d'heures habituelle du secteur à plusieurs millions, voire dizaines de millions d'heures, via notamment des gants tactiles propriétaires dont le coût unitaire est ramené du niveau du dollar à celui du yuan ; et un moteur physique différentiable permettant une boucle "réel vers simulation vers réel", capable de modéliser des matériaux complexes (fluides, corps mous, déformations élastoplastiques). L'ensemble cible des gestes fins comme couper, visser, brancher, mélanger, presser ou enfiler, avec un objectif de portabilité entre différentes mains articulées et bras robotiques, pour des usages en usine, retail, hôtellerie, restauration et assistance médicale. Le positionnement de Li Yiming tranche avec l'engouement actuel pour les "world models" (modèles du monde), qu'il juge être la notion la plus galvaudée de 2026, tant les acteurs vidéo, 3D ou VLA (vision-langage-action) s'en réclament dès qu'ils touchent à la simulation physique. Sa thèse : le modèle du monde n'est qu'un composant technique parmi d'autres, sans valeur isolé du reste de la chaîne (données, matériel, déploiement) ; ce qui compte, c'est un système capable de généraliser à travers robots et scénarios. Il affirme ainsi pouvoir entraîner des politiques avec environ 1% du volume de données réelles habituellement nécessaire, en calibrant les transitions d'état du modèle de monde sur un petit échantillon de données réelles puis en laissant le robot s'entraîner par renforcement en simulation, l'exemple cité étant l'apprentissage de la découpe d'une pomme sans détruire des centaines d'exemplaires. Ces chiffres, avancés par le fondateur lui-même sans validation indépendante, restent à confirmer sur des déploiements réels plutôt que sur des démonstrations internes. Le parcours de Li Yiming inclut un doctorat à NYU avec des travaux co-signés avec Saining Xie (cofondateur et chercheur en chef d'AMI Labs), ainsi que plusieurs publications distinguées à CVPR et NeurIPS en collaboration avec Nvidia. La feuille de route affichée prévoit la sortie d'un modèle du monde généralisable à plusieurs scénarios B2B d'ici fin 2026, puis un passage à l'échelle commerciale visé pour 2028, avec pour ambition de livrer aux clients une solution matériel-logiciel intégrée plutôt qu'un simple modèle. Ce pari sur une intégration verticale complète, de la collecte de données au moteur physique en passant par le matériel de capture, reste rare en Chine où la plupart des équipes de robotique physique se concentrent sur un seul maillon de la chaîne ; il positionne Liqing Zhineng en concurrence indirecte avec les autres poids lourds chinois de l'IA incarnée comme AgiBot, qui figure aussi parmi ses investisseurs.

Chine/AsieActu

1 source

4Pandaily

BAAI et Alibaba, tous les deux jours un nouveau modèle d'IA incarnée voit le jour

Treize nouveaux modèles fondation et modèles du monde pour la robotique embarquée ont été annoncés en juin 2026, soit environ un tous les 48 heures. Lors de la Conférence Zhiyuan 2026, le BAAI (Beijing Academy of Artificial Intelligence) a présenté deux avancées : Wujie Physis-v0.1, qui prédit l'état physique suivant en compressant vidéo, données RGB-D, nuages de points 3D et retour tactile dans un espace latent unifié, et Wujie RoboBrain Orca, un "cerveau" robotique combinant représentation unifiée, raisonnement causal et décodage multimodal. Le 16 juin, Alibaba a dévoilé la suite Qwen-Robot, composée de trois modèles complémentaires : Qwen-RobotNav pour l'allocation d'attention visuelle en navigation mobile, Qwen-RobotManip qui standardise l'espace état-action pour la manipulation, et Qwen-RobotWorld, doté d'une interface en langage naturel pour prédire la dynamique du monde. CasiaHand a lancé Brain-Si 0.5, présenté comme le premier modèle de manipulation dextre humanoïde, avec une architecture à trois niveaux allant de la planification VLA jusqu'à des modèles physiquement interprétables. GalaxyBot a de son côté publié AstraBrain-WBC 0.5, un modèle de contrôle corps entier entraîné sur environ 2 milliards d'images issues de mouvements humains, pour 80 millions de paramètres. RoboScience, Current Robotics et BoundlessPower ont complété la liste avec respectivement l'architecture Visics, le modèle Curl-0 et le modèle du monde MWA. Cette accélération marque un basculement net dans l'industrie de la robotique embarquée : la compétition ne se joue plus sur les capacités matérielles des robots, mais sur l'intelligence logicielle qui les pilote. Signe le plus révélateur, la posture d'Alibaba tranche avec l'approche dominante du "plus de données, plus de robots" : le groupe affirme que l'hétérogénéité du monde physique ne peut pas être résolue par le seul passage à l'échelle et nécessite un alignement au niveau du modèle lui-même. Pour les intégrateurs et décideurs industriels, le signal est important : les équipes ne cherchent plus seulement à démontrer ce que les robots savent faire, mais à expliquer pourquoi ils échouent encore sur certaines tâches, chacune identifiant un goulot d'étranglement différent, retour tactile, coordination corps entier, transfert simulation-réel ou planification à long horizon. Ce foisonnement s'inscrit dans la course engagée depuis 2024-2025 entre laboratoires chinois et occidentaux (Figure, Physical Intelligence avec Pi-0, NVIDIA avec GR00T) autour des modèles vision-langage-action. La France et l'Europe restent absentes de cette vague spécifique de publications, la dynamique se concentrant pour l'instant sur les acteurs chinois (BAAI, Alibaba, CasiaHand, GalaxyBot) et américains. Les prochaines étapes attendues concernent la validation de ces architectures sur des déploiements réels au-delà des démonstrations en laboratoire, un point sur lequel la prudence reste de mise tant les métriques annoncées, notamment le nombre de paramètres ou de frames d'entraînement, restent difficiles à comparer d'un laboratoire à l'autre sans benchmarks communs.

Chine/AsieOpinion

1 source