Aller au contenu principal
Wang Zhongyuan (BAAI) : les VLA ne mourront pas, mais les modèles du monde sont l'avenir
Chine/Asie36Kr1h

Wang Zhongyuan (BAAI) : les VLA ne mourront pas, mais les modèles du monde sont l'avenir

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Wang Zhongyuan, directeur du Beijing Academy of Artificial Intelligence (BAAI, 北京智源人工智能研究院), institution de recherche non lucrative chinoise, a accordé une interview approfondie au média spécialisé 硬氪 en marge de la conférence annuelle de l'académie, consacrée cette année aux modèles du monde (World Models) et aux agents intelligents. Il y cartographie quatre grandes familles de world models en compétition : les modèles centrés sur le langage comme les VLA et VLM (dont Gemini 3), qui prédisent le prochain token sans comprendre les conséquences physiques ; les modèles centrés sur les pixels comme Sora ou Seedance, efficaces pour la génération vidéo mais aveugles à la causalité physique ; les modèles centrés sur la structure 3D, dont Marble de World Labs (l'équipe de Li Feifei), qui reconstruisent l'espace géométrique sans en modéliser les états physiques ; et les modèles centrés sur la représentation visuelle, comme la série V-JEPA de Yann LeCun, dont l'évolution des embeddings ne correspond pas à l'évolution des lois physiques. BAAI explore une cinquième voie : fusionner représentations linguistiques et visuelles dans un espace latent unifié (latent space), depuis lequel des décodeurs distincts restituent langage, actions et vision selon le besoin, via des systèmes déjà déployables comme Physis et RoboBrain Orca.

L'enjeu central, selon Wang, est de substituer au paradigme "Next Token Prediction" des LLM un paradigme "Next Physical State Prediction", soit la prédiction du prochain état physique du monde. Cette bascule est directement liée aux limites exposées par l'IA incarnée (embodied AI) : les robots actuels, qu'ils s'appuient sur des VLA ou des architectures plus simples, restent des exécutants passifs, cantonnés à des tâches mono-scène avec des données très spécifiques. Ils ne généralisent pas. Un robot VLA peut attraper un colis sur une chaîne logistique, mais il est incapable de prédire ce qui se passe si une bouteille ouverte tombe à côté. Wang rejette catégoriquement l'équivalence entre génération vidéo et world model, qui s'est répandue depuis qu'OpenAI a qualifié Sora de "World Simulator" : produire une vidéo physiquement plausible n'est pas modéliser le monde. Un vrai world model doit être physiquement correct (gravité, optique, fluides), doté d'une causalité action-résultat explicite, cohérent sur de longues séquences temporelles, et généralisable à des tâches multiples. Quant au débat "VLA is dead", Wang le tranche sans ambiguïté : les VLA restent utiles aujourd'hui et le resteront à court terme, mais les world models représentent l'étape suivante.

BAAI a construit cette position en couches successives depuis le LLM Wudao (悟道), premier grand modèle chinois public, jusqu'aux architectures multimodales natives Emu3 et Emu3.5, avant d'amorcer en 2024 la transition vers la "Next State Prediction". L'académie est aussi un vivier : les fondateurs de Zhipu AI (Tang Jie), Moonshot AI (Yang Zhilin), iFlytek Research (Liu Zhiyuan) et Galactic General Robotics (Wang He) y ont tous conduit des recherches. Côté compétition internationale, BAAI se positionne face à World Labs (Marble), OpenAI (Sora), DeepMind (Genie 2) et au programme V-JEPA de LeCun chez Meta. Wang situe l'état actuel des world models à l'équivalent du deep learning vers 2012 : données fragmentées, benchmarks divergents, pas encore de "moment ChatGPT". Il estime qu'un véritable cerveau robotique à base de world model est un horizon de trois ans minimum, avec des applications prioritaires dans la robotique industrielle, la simulation physique et l'IA for Science.

À lire aussi

L'équipe Qwen d'Alibaba entre dans l'IA incarnée avec son modèle VLA
1Pandaily 

L'équipe Qwen d'Alibaba entre dans l'IA incarnée avec son modèle VLA

L'équipe Tongyi Qianwen d'Alibaba a annoncé en 2026 son entrée dans le domaine de l'IA embodiée avec Qwen-VLA, un modèle vision-langue-action (VLA) destiné à doter robots et appareils intelligents d'une capacité de perception, de compréhension et d'action dans le monde physique. L'architecture unifiée du modèle intègre trois composantes : la perception visuelle, la compréhension du langage naturel, et la planification d'actions physiques. Concrètement, un système embarquant Qwen-VLA serait en mesure d'analyser son environnement via des caméras, d'interpréter des instructions vocales ou textuelles, et de générer les commandes motrices correspondantes. Les applications visées couvrent un spectre large : robots industriels, robots de service, et équipements domestiques connectés. Le modèle s'appuie sur l'expertise accumulée par la série Qwen en LLM et IA multimodale, en étendant ces capacités vers la prédiction d'actions robotiques. Aucune métrique de performance (charge utile, degrés de liberté, temps de cycle) n'a été communiquée à ce stade, ce qui situe clairement cette publication comme une annonce de cap stratégique plutôt que le lancement d'un produit finalisé. L'entrée d'Alibaba reconfigure l'équilibre de la course à l'IA embodiée en Chine, non pas par une approche hardware-first, mais par la couche modèle. Qwen-VLA est positionné comme une plateforme ouverte : Alibaba ne construit pas ses propres robots, mais fournit le "cerveau" que des partenaires matériels peuvent embarquer dans leurs systèmes, quel que soit le facteur de forme. Cette stratégie rappelle davantage celle d'un fournisseur de fondations que celle d'un constructeur robotique intégré. L'atout différenciant réside dans les ressources mobilisables : la puissance de calcul d'Alibaba Cloud, les données réelles issues des opérations logistiques de Cainiao et des flux e-commerce de Taobao, et un écosystème dense de partenaires industriels. Si ces données propriétaires représentent un avantage réel pour l'entraînement et le fine-tuning de VLA, leur exploitation sans friction juridique ou de gouvernance reste à démontrer en pratique. La publication de Qwen-VLA s'inscrit dans une accélération marquée du marché chinois de l'IA embodiée en 2026, portée par la convergence des modèles de fondation, des capteurs et des capacités manufacturières. Alibaba rejoint un champ concurrentiel déjà dense : Unitree Robotics et Deep Robotics sur le hardware, Zhiyuan et AgiBot sur l'intégration système, et des géants tech comme Xiaomi et ByteDance qui investissent de plus en plus dans la robotique généraliste. La stratégie d'Alibaba, modèle ouvert sans robot propriétaire, la distingue de Figure AI ou 1X Technologies aux États-Unis, qui misent sur une intégration verticale complète. Elle se rapproche davantage de l'approche de NVIDIA avec GR00T N2, ou de Physical Intelligence avec Pi-0 côté américain. Les prochaines étapes à surveiller : des partenariats hardware concrets, des benchmarks comparables aux standards du secteur, et d'éventuels pilotes industriels chez des opérateurs logistiques comme Cainiao, qui constitueraient le premier vrai test de passage à l'échelle.

UEL'accélération de l'IA embodiée en Chine avec Qwen-VLA accentue la pression concurrentielle sur les acteurs européens du secteur, sans impact direct immédiat sur le marché français ou les réglementations EU.

Chine/AsieOpinion
1 source
L'ex-directeur tech de Meituan crée un modèle du monde pour la restauration à l'ère de l'IA incarnée
236Kr 

L'ex-directeur tech de Meituan crée un modèle du monde pour la restauration à l'ère de l'IA incarnée

AtomBite.AI (元节智能), startup chinoise d'intelligence incarnée, vient de boucler un tour d'amorçage de plusieurs dizaines de millions de yuans mené par le fonds Yinno Innovation, avec la participation du Shuimu Tsinghua Alumni Seed Fund. La société cible un terrain peu médiatisé mais à forte récurrence : la cuisine professionnelle de restauration et la chaîne d'exécution des commandes de livraison de repas. Son équipe fondatrice porte l'ADN de Meituan : Wang Dong (CEO, docteur en informatique) y dirigeait l'ingénierie de Meituan Waimai, supervisant mille ingénieurs et des algorithmes traitant des dizaines de millions de commandes quotidiennes ; Li Tao pilotait les systèmes algorithmiques et data de la même division ; Li Haozhe, troisième co-fondateur, est un entrepreneur en série à dimension internationale. La technologie centrale est un "World Action Model" (WAM) dédié à la restauration, décliné en architecture VT-WAM combinant vision et retour tactile, en rupture explicite avec l'approche VLA (Vision-Language-Action) dominante dans le secteur. Un premier déploiement pilote en cuisine professionnelle est attendu d'ici fin 2026, avec plusieurs lettres d'intention déjà signées avec des opérateurs nationaux et internationaux. Le choix de la restauration résulte d'un audit de plusieurs mois conduit en Amérique du Nord et à Singapour. Wang Dong y a identifié un triptyque rare : besoin universel (même problématique en Chine, aux États-Unis et en Asie du Sud-Est), ROI mesurable pour le restaurateur (réduction des erreurs de commande, gains à l'emballage, allègement de la masse salariale) et cycle de décision court chez les PME, contrairement aux scénarios domestiques ou médico-sociaux. L'industrie est structurellement sous pression : hausse soutenue des salaires horaires en Amérique du Nord, turnover chronique et difficultés de recrutement persistantes en Chine. Sur le plan technique, AtomBite.AI conteste le paradigme VLA en affirmant que le contrôle moteur réel ne passe pas par le langage mais par la compréhension visuelle et physique. L'approche VT-WAM fusionne ces deux modalités dans un espace latent pour prédire les conséquences de contact avant exécution : inférer si un gobelet est plein ou chaud modifie les forces de friction et le centre de gravité lors de la saisie, ce que la vision seule ne permet pas de capturer. AtomBite.AI prend le contre-pied de la stratégie "modèle universel d'abord" adoptée par la plupart de ses concurrents. Les opérations répétitives de la cuisine, emballage, tri et transfert de commandes, génèrent un flux naturel de données d'interaction physique difficile à reproduire en simulation, alimentant un cycle d'amélioration continue du modèle depuis le terrain réel. L'architecture se décompose en trois couches : modèle monde incarné pour la perception et la planification d'actions, moteur d'orchestration des tâches, et couche matérielle combinant composants propriétaires et hardware standard. Les gestes récurrents s'exécutent en local sur des modèles légers pour limiter la latence ; le cloud gère les exceptions comme un ingrédient manquant ou un objet détecté hors place. Sur ce segment, Miso Robotics aux États-Unis et Keenon Robotics en Chine sont déjà présents, sur des périmètres différents (friture automatisée, service en salle). La feuille de route prévoit une extension progressive vers le tri, la logistique interne de restaurant, et à terme la cuisine domestique.

Chine/AsieActu
1 source
Ex-cadre IA incarnée de Huawei : un modèle du monde neuromorphique concurrent de JEPA lève 100 millions de yuans
336Kr 

Ex-cadre IA incarnée de Huawei : un modèle du monde neuromorphique concurrent de JEPA lève 100 millions de yuans

JuNao Panshi (具脑磐石), startup chinoise spécialisée dans les architectures cognitives pour la robotique incarnée, a annoncé en mai 2026 la clôture d'un tour de financement dépassant 100 millions de yuans (environ 13,5 millions d'euros), conduit par un fonds industriel positionné sur l'intersection neuromorphique et robotique, avec réinvestissement des actionnaires existants et participation de plusieurs fonds de premier rang. Un second tour serait en cours de finalisation simultanément, selon la publication chinoise 36Kr. La société, fondée en 2025, est dirigée par Zhu Senhua, ancien responsable du programme "cerveau incarné" chez Huawei, où il a piloté la plateforme cloud IA-neurosciences, le modèle Pangu pour l'intelligence incarnée et le Global Embodied Intelligence Innovation Center. Titulaire d'un doctorat en neurosciences cognitives de l'Université de Pennsylvanie et d'un post-doctorat au Laboratoire national clé Cerveau et Cognition de l'Académie des sciences de Chine, Zhu Senhua est l'un des rares profils combinant recherche académique en neuro-IA, validation expérimentale et industrialisation à grande échelle. JuNao Panshi développe un Cognitive World Model (modèle de monde cognitif) fondé sur l'intelligence neuromorphique, avec quatre objectifs techniques structurants : apprentissage avec peu de données, forte généralisation intersituationnelle, apprentissage à vie et faible consommation énergétique. Plusieurs proof-of-concepts sont en cours de déploiement auprès de clients industriels en Chine et à l'international. L'intérêt de cette levée dépasse la valorisation d'une startup : elle signale un basculement dans les priorités de R&D du secteur de la robotique incarnée, où le terme VLA (Vision-Language-Action) cède progressivement la place au concept de world model comme axe central de compétition. JuNao Panshi argumente que la grande majorité des approches actuelles restent bloquées sur un paradigme data-intensif et énergivore, incapable de généraliser sans réentraînement à chaque nouvel environnement. En s'appuyant sur les mécanismes fonctionnels du cerveau humain, notamment les neurones multi-compartiments, l'attention non linéaire, la mémoire multi-stades et l'inférence active, la société cherche à construire un système capable d'apprentissage abstrait à partir de peu d'exemples, de mémoire persistante et de planification autonome en conditions réelles. Pour les intégrateurs industriels et les décideurs B2B, la promesse est concrète : un robot qui n'a pas besoin d'être réentraîné à chaque changement de ligne ou d'environnement est un robot économiquement viable à déployer à grande échelle. Sur le plan concurrentiel, la trajectoire technique de JuNao Panshi s'aligne explicitement avec l'architecture JEPA (Joint Embedding Predictive Architecture) de Yann LeCun, dont AMI Labs explore la branche causale et de raisonnement. En parallèle, Fei-Fei Li parie sur l'intelligence spatiale 3D, NVIDIA et Google DeepMind accélèrent la simulation physique et l'apprentissage par interaction réelle. JuNao Panshi se positionne un cran au-dessus dans la hiérarchie qu'elle définit elle-même en cinq niveaux, revendiquant la couche la plus haute : l'inférence active issue des neurosciences cognitives. La stratégie commerciale repose sur un modèle "un cerveau, plusieurs robots, plusieurs morphologies" (一脑多机一脑多形), avec des partenariats matériels déjà établis avec les fabricants de robots Lejiu, Xingchen Intelligence et Zhidongli. La feuille de route prévoit d'ouvrir le modèle de cerveau cognitif universel à l'écosystème d'intégrateurs, une fois les capacités de généralisation jugées suffisantes pour piloter des configurations de robots hétérogènes depuis un seul modèle central.

Chine/AsieActu
1 source
ShadowAI lève 14 millions de dollars pour ses modèles du monde en 3D
4Pandaily 

ShadowAI lève 14 millions de dollars pour ses modèles du monde en 3D

ShadowAI, startup fondée à Hangzhou en juin 2024, a bouclé trois tours de financement successifs (angel, angel+ et pré-série A) pour un total d'environ 100 millions de yuans, soit 14 millions de dollars. La société développe des modèles de monde 3D dynamiques natifs pour l'IA incarnée (embodied AI), avec un portefeuille qui comprend YingShen 360, un système de capture 3D temps réel utilisant quatre à cinq caméras RGB bas coût, le modèle de monde dynamique S1, et des robots de fabrication flexible. Déployés en production réelle, ces robots atteignent 3 000 paires de chaussures produites par shift de 8 heures dans le secteur de la chaussure, un chiffre concret qui distingue cette annonce d'un simple démonstrateur. La levée illustre l'intérêt croissant des investisseurs pour la couche "perception 3D temps réel" de la robotique industrielle, un maillon souvent sous-estimé face aux modèles de langage visuel (VLA). En rendant la capture 3D accessible via des caméras RGB standard plutôt que des LiDAR onéreux, ShadowAI cible directement les intégrateurs et les PME industrielles pour lesquels le coût du capteur est un frein à l'automatisation flexible. Min Wei, fondateur et CEO, est docteur de l'Université Tsinghua et a dirigé des équipes robotique chez la division services locaux d'Alibaba, ce qui lui confère une connaissance opérationnelle des contraintes de déploiement à grande échelle. La société s'inscrit dans un écosystème chinois dense, en concurrence avec des acteurs comme Unitree, Agibot ou les divisions robotique de Meituan, mais se différencie par un positionnement centré sur la modélisation 3D du monde plutôt que sur le robot physique lui-même. Les prochaines étapes probables incluent une extension à d'autres secteurs de fabrication légère et un potentiel tour de série A pour financer l'industrialisation du S1.

Chine/AsieOpinion
1 source