Aller au contenu principal
L'IA et les modèles du monde : pourquoi la Chine a une longueur d'avance
Chine/AsieSCMP Tech49min

L'IA et les modèles du monde : pourquoi la Chine a une longueur d'avance

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Les modèles de monde ("world models") sont désormais identifiés comme la prochaine rupture technologique en intelligence artificielle, dépassant les grands modèles de langage (LLM) en leur ajoutant une capacité de simulation de l'environnement physique. Contrairement aux LLM qui traitent du texte, ces architectures apprennent les lois de la physique, la causalité et la géométrie de l'espace réel, ce qui permet d'entraîner des systèmes à intelligence incarnée (embodied AI) : robots humanoïdes, véhicules autonomes, bras industriels. La Chine a déjà déployé ces systèmes à une échelle nettement supérieure à celle des États-Unis, avec des entreprises comme Baidu Apollo (plusieurs dizaines de millions de kilomètres d'autonomie sur route réelle), Unitree et ses robots humanoïdes en production, ainsi que des modèles de monde propriétaires développés par Tencent (HunyuanWorld) et ByteDance.

Cet avantage chinois est structurel autant que technologique : le cadre réglementaire y autorise des déploiements massifs en conditions réelles, là où les États-Unis maintiennent des restrictions plus strictes sur les tests d'autonomie. Pour les intégrateurs industriels et les décideurs B2B, cela signifie que le gap sim-to-real, longtemps considéré comme le principal frein à l'adoption robotique, est en train d'être résolu plus vite en Chine qu'ailleurs. Les world models permettent de générer des données synthétiques d'entraînement à partir de simulations physiquement cohérentes, réduisant drastiquement le besoin de collecte en environnement réel.

Côté contexte, le concept de world model remonte aux travaux de Yann LeCun chez Meta (architecture JEPA, 2022-2024), mais sa concrétisation industrielle s'est accélérée en 2025-2026 avec l'émergence de modèles dédiés à la robotique comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et les plateformes chinoises. En Europe, des acteurs comme Enchanted Tools (Paris) travaillent sur des approches similaires mais à bien plus petite échelle. La prochaine étape sera probablement la standardisation des benchmarks de world models, un domaine où le leadership de définition reste encore ouvert.

Impact France/UE

L'Europe accuse un retard structurel face à la Chine dans la course aux world models pour la robotique incarnée, avec seulement Enchanted Tools (Paris) identifié comme acteur actif à petite échelle, là où Pékin bénéficie d'un cadre réglementaire autorisant des déploiements massifs en conditions réelles qui accélèrent la résolution du gap sim-to-real.

À lire aussi

La Chine mise sur l'IA et la fabrication avancée pour contrer les vents économiques contraires
1SCMP Tech 

La Chine mise sur l'IA et la fabrication avancée pour contrer les vents économiques contraires

Le Premier ministre chinois Li Qiang a effectué lundi une visite symbolique à Pékin, passant par l'usine de véhicules électriques de Xiaomi puis par le Humanoid Robot Innovation Centre, un hub qui regroupe plus d'une douzaine de start-ups spécialisées en IA incarnée (embodied AI), des partenaires industriels et des institutions de recherche. Lors de cette tournée, Li a appelé à une intégration accélérée entre les acteurs de l'IA et le secteur de la fabrication avancée, positionnant cette convergence comme levier de croissance prioritaire face au ralentissement de la demande intérieure et aux pressions commerciales extérieures, notamment les tensions tarifaires avec les États-Unis. Le signal politique est clair : Pékin veut transformer ses capacités en robotique humanoïde et en IA générative en avantages compétitifs industriels concrets, pas seulement en vitrines technologiques. Pour les intégrateurs et décideurs B2B, cela signifie une accélération probable des déploiements pilotes en usine, avec un soutien étatique direct aux start-ups locales. La visite du Humanoid Robot Innovation Centre illustre aussi la stratégie de clustering : concentrer capital, talents et clients industriels pour réduire le fossé entre démo lab et déploiement réel. Ce mouvement s'inscrit dans une trajectoire déjà engagée : la Chine a multiplié les programmes de soutien à la robotique humanoïde depuis 2023, avec des acteurs comme Unitree, Fourier Intelligence ou Agibot qui affichent des cadences de production croissantes. Face à eux, les acteurs américains (Figure AI, Physical Intelligence, Tesla Optimus) et européens avancent sur des segments différents. La prochaine étape à surveiller sera la concrétisation de ces orientations politiques en contrats industriels mesurables.

UEL'accélération du soutien étatique chinois à la robotique humanoïde intensifie la pression concurrentielle sur les acteurs européens, qui devront consolider des niches différenciées face à des cadences de production chinoises croissantes.

Chine/AsieOpinion
1 source
L'ex-directeur tech de Meituan crée un modèle du monde pour la restauration à l'ère de l'IA incarnée
236Kr 

L'ex-directeur tech de Meituan crée un modèle du monde pour la restauration à l'ère de l'IA incarnée

AtomBite.AI (元节智能), startup chinoise d'intelligence incarnée, vient de boucler un tour d'amorçage de plusieurs dizaines de millions de yuans mené par le fonds Yinno Innovation, avec la participation du Shuimu Tsinghua Alumni Seed Fund. La société cible un terrain peu médiatisé mais à forte récurrence : la cuisine professionnelle de restauration et la chaîne d'exécution des commandes de livraison de repas. Son équipe fondatrice porte l'ADN de Meituan : Wang Dong (CEO, docteur en informatique) y dirigeait l'ingénierie de Meituan Waimai, supervisant mille ingénieurs et des algorithmes traitant des dizaines de millions de commandes quotidiennes ; Li Tao pilotait les systèmes algorithmiques et data de la même division ; Li Haozhe, troisième co-fondateur, est un entrepreneur en série à dimension internationale. La technologie centrale est un "World Action Model" (WAM) dédié à la restauration, décliné en architecture VT-WAM combinant vision et retour tactile, en rupture explicite avec l'approche VLA (Vision-Language-Action) dominante dans le secteur. Un premier déploiement pilote en cuisine professionnelle est attendu d'ici fin 2026, avec plusieurs lettres d'intention déjà signées avec des opérateurs nationaux et internationaux. Le choix de la restauration résulte d'un audit de plusieurs mois conduit en Amérique du Nord et à Singapour. Wang Dong y a identifié un triptyque rare : besoin universel (même problématique en Chine, aux États-Unis et en Asie du Sud-Est), ROI mesurable pour le restaurateur (réduction des erreurs de commande, gains à l'emballage, allègement de la masse salariale) et cycle de décision court chez les PME, contrairement aux scénarios domestiques ou médico-sociaux. L'industrie est structurellement sous pression : hausse soutenue des salaires horaires en Amérique du Nord, turnover chronique et difficultés de recrutement persistantes en Chine. Sur le plan technique, AtomBite.AI conteste le paradigme VLA en affirmant que le contrôle moteur réel ne passe pas par le langage mais par la compréhension visuelle et physique. L'approche VT-WAM fusionne ces deux modalités dans un espace latent pour prédire les conséquences de contact avant exécution : inférer si un gobelet est plein ou chaud modifie les forces de friction et le centre de gravité lors de la saisie, ce que la vision seule ne permet pas de capturer. AtomBite.AI prend le contre-pied de la stratégie "modèle universel d'abord" adoptée par la plupart de ses concurrents. Les opérations répétitives de la cuisine, emballage, tri et transfert de commandes, génèrent un flux naturel de données d'interaction physique difficile à reproduire en simulation, alimentant un cycle d'amélioration continue du modèle depuis le terrain réel. L'architecture se décompose en trois couches : modèle monde incarné pour la perception et la planification d'actions, moteur d'orchestration des tâches, et couche matérielle combinant composants propriétaires et hardware standard. Les gestes récurrents s'exécutent en local sur des modèles légers pour limiter la latence ; le cloud gère les exceptions comme un ingrédient manquant ou un objet détecté hors place. Sur ce segment, Miso Robotics aux États-Unis et Keenon Robotics en Chine sont déjà présents, sur des périmètres différents (friture automatisée, service en salle). La feuille de route prévoit une extension progressive vers le tri, la logistique interne de restaurant, et à terme la cuisine domestique.

Chine/AsieActu
1 source
Les avancées de l'IA physique chinoise s'affichent sur les routes, dans les airs et en usine
3SCMP Tech 

Les avancées de l'IA physique chinoise s'affichent sur les routes, dans les airs et en usine

L'IA physique - la combinaison de machines avancées dotées de "cerveaux" capables d'interagir avec leur environnement - connaît une expansion accélérée en Chine. Des drones de livraison sillonnent désormais les airs au-dessus de Shenzhen, dans le sud du pays, tandis que des robots de livraison empruntent les réseaux de métro urbains. Les premiers véhicules autonomes circulent sur des axes publics, et des robots humanoïdes font leur apparition aussi bien sur les lignes de production industrielles que sur des scènes de spectacle. Cette convergence entre robotique, véhicules autonomes et drones représente un changement structurel dans la façon dont la Chine déploie l'IA au-delà des serveurs : il ne s'agit plus de démos en laboratoire, mais de systèmes en opération réelle dans des environnements non contrôlés. Pour les intégrateurs industriels et les décideurs B2B, cela signifie que le fossé entre prototype et déploiement se réduit concrètement sur plusieurs verticales simultanément, ce qui accroît la pression concurrentielle sur les acteurs occidentaux et japonais du secteur. Ce déploiement s'inscrit dans une stratégie industrielle nationale de long terme, soutenue par des financements publics et une chaîne d'approvisionnement en composants (actionneurs, capteurs, puces) largement localisée. Face à la Chine, les États-Unis misent sur des acteurs comme Figure AI, Agility Robotics ou Boston Dynamics, tandis qu'en Europe, des sociétés comme Enchanted Tools (France) ou Wandercraft restent à des stades de commercialisation plus précoces. Les prochaines étapes chinoises devraient inclure une densification des flottes de drones en zone urbaine et l'extension des corridors de test pour véhicules autonomes.

UELes entreprises françaises comme Enchanted Tools et Wandercraft, encore en phase de commercialisation précoce, subissent une pression concurrentielle croissante face aux déploiements à grande échelle opérés en Chine sur plusieurs verticales simultanément.

Chine/AsieOpinion
1 source
Wang Zhongyuan (BAAI) : les VLA ne mourront pas, mais les modèles du monde sont l'avenir
436Kr 

Wang Zhongyuan (BAAI) : les VLA ne mourront pas, mais les modèles du monde sont l'avenir

Wang Zhongyuan, directeur du Beijing Academy of Artificial Intelligence (BAAI, 北京智源人工智能研究院), institution de recherche non lucrative chinoise, a accordé une interview approfondie au média spécialisé 硬氪 en marge de la conférence annuelle de l'académie, consacrée cette année aux modèles du monde (World Models) et aux agents intelligents. Il y cartographie quatre grandes familles de world models en compétition : les modèles centrés sur le langage comme les VLA et VLM (dont Gemini 3), qui prédisent le prochain token sans comprendre les conséquences physiques ; les modèles centrés sur les pixels comme Sora ou Seedance, efficaces pour la génération vidéo mais aveugles à la causalité physique ; les modèles centrés sur la structure 3D, dont Marble de World Labs (l'équipe de Li Feifei), qui reconstruisent l'espace géométrique sans en modéliser les états physiques ; et les modèles centrés sur la représentation visuelle, comme la série V-JEPA de Yann LeCun, dont l'évolution des embeddings ne correspond pas à l'évolution des lois physiques. BAAI explore une cinquième voie : fusionner représentations linguistiques et visuelles dans un espace latent unifié (latent space), depuis lequel des décodeurs distincts restituent langage, actions et vision selon le besoin, via des systèmes déjà déployables comme Physis et RoboBrain Orca. L'enjeu central, selon Wang, est de substituer au paradigme "Next Token Prediction" des LLM un paradigme "Next Physical State Prediction", soit la prédiction du prochain état physique du monde. Cette bascule est directement liée aux limites exposées par l'IA incarnée (embodied AI) : les robots actuels, qu'ils s'appuient sur des VLA ou des architectures plus simples, restent des exécutants passifs, cantonnés à des tâches mono-scène avec des données très spécifiques. Ils ne généralisent pas. Un robot VLA peut attraper un colis sur une chaîne logistique, mais il est incapable de prédire ce qui se passe si une bouteille ouverte tombe à côté. Wang rejette catégoriquement l'équivalence entre génération vidéo et world model, qui s'est répandue depuis qu'OpenAI a qualifié Sora de "World Simulator" : produire une vidéo physiquement plausible n'est pas modéliser le monde. Un vrai world model doit être physiquement correct (gravité, optique, fluides), doté d'une causalité action-résultat explicite, cohérent sur de longues séquences temporelles, et généralisable à des tâches multiples. Quant au débat "VLA is dead", Wang le tranche sans ambiguïté : les VLA restent utiles aujourd'hui et le resteront à court terme, mais les world models représentent l'étape suivante. BAAI a construit cette position en couches successives depuis le LLM Wudao (悟道), premier grand modèle chinois public, jusqu'aux architectures multimodales natives Emu3 et Emu3.5, avant d'amorcer en 2024 la transition vers la "Next State Prediction". L'académie est aussi un vivier : les fondateurs de Zhipu AI (Tang Jie), Moonshot AI (Yang Zhilin), iFlytek Research (Liu Zhiyuan) et Galactic General Robotics (Wang He) y ont tous conduit des recherches. Côté compétition internationale, BAAI se positionne face à World Labs (Marble), OpenAI (Sora), DeepMind (Genie 2) et au programme V-JEPA de LeCun chez Meta. Wang situe l'état actuel des world models à l'équivalent du deep learning vers 2012 : données fragmentées, benchmarks divergents, pas encore de "moment ChatGPT". Il estime qu'un véritable cerveau robotique à base de world model est un horizon de trois ans minimum, avec des applications prioritaires dans la robotique industrielle, la simulation physique et l'IA for Science.

Chine/AsieOpinion
1 source