Chine/Asie36Kr 2 juin 2026

L'ex-directeur tech de Meituan crée un modèle du monde pour la restauration à l'ère de l'IA incarnée

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

AtomBite.AI (元节智能), startup chinoise d'intelligence incarnée, vient de boucler un tour d'amorçage de plusieurs dizaines de millions de yuans mené par le fonds Yinno Innovation, avec la participation du Shuimu Tsinghua Alumni Seed Fund. La société cible un terrain peu médiatisé mais à forte récurrence : la cuisine professionnelle de restauration et la chaîne d'exécution des commandes de livraison de repas. Son équipe fondatrice porte l'ADN de Meituan : Wang Dong (CEO, docteur en informatique) y dirigeait l'ingénierie de Meituan Waimai, supervisant mille ingénieurs et des algorithmes traitant des dizaines de millions de commandes quotidiennes ; Li Tao pilotait les systèmes algorithmiques et data de la même division ; Li Haozhe, troisième co-fondateur, est un entrepreneur en série à dimension internationale. La technologie centrale est un "World Action Model" (WAM) dédié à la restauration, décliné en architecture VT-WAM combinant vision et retour tactile, en rupture explicite avec l'approche VLA (Vision-Language-Action) dominante dans le secteur. Un premier déploiement pilote en cuisine professionnelle est attendu d'ici fin 2026, avec plusieurs lettres d'intention déjà signées avec des opérateurs nationaux et internationaux.

Le choix de la restauration résulte d'un audit de plusieurs mois conduit en Amérique du Nord et à Singapour. Wang Dong y a identifié un triptyque rare : besoin universel (même problématique en Chine, aux États-Unis et en Asie du Sud-Est), ROI mesurable pour le restaurateur (réduction des erreurs de commande, gains à l'emballage, allègement de la masse salariale) et cycle de décision court chez les PME, contrairement aux scénarios domestiques ou médico-sociaux. L'industrie est structurellement sous pression : hausse soutenue des salaires horaires en Amérique du Nord, turnover chronique et difficultés de recrutement persistantes en Chine. Sur le plan technique, AtomBite.AI conteste le paradigme VLA en affirmant que le contrôle moteur réel ne passe pas par le langage mais par la compréhension visuelle et physique. L'approche VT-WAM fusionne ces deux modalités dans un espace latent pour prédire les conséquences de contact avant exécution : inférer si un gobelet est plein ou chaud modifie les forces de friction et le centre de gravité lors de la saisie, ce que la vision seule ne permet pas de capturer.

AtomBite.AI prend le contre-pied de la stratégie "modèle universel d'abord" adoptée par la plupart de ses concurrents. Les opérations répétitives de la cuisine, emballage, tri et transfert de commandes, génèrent un flux naturel de données d'interaction physique difficile à reproduire en simulation, alimentant un cycle d'amélioration continue du modèle depuis le terrain réel. L'architecture se décompose en trois couches : modèle monde incarné pour la perception et la planification d'actions, moteur d'orchestration des tâches, et couche matérielle combinant composants propriétaires et hardware standard. Les gestes récurrents s'exécutent en local sur des modèles légers pour limiter la latence ; le cloud gère les exceptions comme un ingrédient manquant ou un objet détecté hors place. Sur ce segment, Miso Robotics aux États-Unis et Keenon Robotics en Chine sont déjà présents, sur des périmètres différents (friture automatisée, service en salle). La feuille de route prévoit une extension progressive vers le tri, la logistique interne de restaurant, et à terme la cuisine domestique.

Dans nos dossiers

IA physique & VLA

À lire aussi

136Kr

L'ex-directeur du laboratoire robotique et véhicules autonomes de Baidu lève des dizaines de millions pour créer un modèle du monde universel pour la robotique

Nüwa Robotics (纽娲机器人), startup chinoise fondée en février 2026 par le Dr Yang Ruigang, vient de boucler un tour angel de 50 millions de yuans (environ 6,9 millions d'euros), mené par Bluerun Ventures, avec la participation de Butong Capital et de Gongqingcheng Puyi Investment. C'est le deuxième financement en moins de deux mois : un seed round avait été conduit par Plug and Play Chine peu avant. Yang Ruigang est une figure connue de l'écosystème autonomie chinois : il a dirigé le laboratoire de conduite autonome et de robotique de Baidu, puis exercé comme CTO d'Inceptio Technology (嬴彻科技), où il a piloté la mise en production de camions autonomes de niveau L3. Aujourd'hui professeur associé à l'Université Jiao Tong de Shanghai, il oriente Nüwa vers un objectif précis : la construction d'un "World Traversal Model" (WTM), un modèle de navigation destiné à des robots de toute morphologie, humanoïdes, quadrupèdes, AGV ou véhicules de livraison. Le pari de Nüwa repose sur un constat que le secteur commence à intérioriser : la mobilité dans les environnements humains reste un verrou sous-estimé de la robotique incarnée. Là où la majorité des acteurs se concentrent sur la manipulation ou les architectures VLA (Vision-Language-Action), Nüwa cible la couche locomotion-navigation avec une ambition de déploiement sans carte ou à partir de plans génériques (Gaode, Baidu Maps). Leur moteur de simulation maison, SimWeaver, affiche selon la société des performances 3x supérieures à NVIDIA ISAAC Sim en vitesse de génération de données, une réduction de 20 % de l'erreur sim-to-real, et un taux de succès en zero-shot de 91 % sur des tâches de manipulation d'objets flexibles. Ces chiffres sont auto-déclarés et non vérifiés par des tiers. En locomotion, le système parvient à franchir des escaliers creux inclinés à 55 degrés en combinant vision et proprioception, là où d'autres solutions procèdent en aveugle. Nüwa intègre également un module de "conformité sociale" : le modèle est entraîné à respecter des règles comportementales implicites comme laisser sortir avant d'entrer dans un ascenseur ou céder le passage en espace public. Nüwa s'inscrit dans un paysage compétitif où les grandes architectures sont déjà définies : chez Figure, le modèle Helix (System 0/1/2) sépare planification lente et contrôle rapide ; NVIDIA GR00T N1 suit une logique similaire ; en Chine, Zhiyuan (智元) découpe locomotion, manipulation et interaction, tandis que Tencent RoboticsX structure son architecture SLAP en quatre couches. Nüwa choisit une entrée différente : transférer les acquis de l'autonomie véhiculaire vers des environnements beaucoup plus denses (ascenseurs, couloirs, centres commerciaux), en capitalisant sur la maîtrise de la simulation physique 3D de l'équipe. Le fondateur reconnaît que la brique manipulation reste à construire from scratch, sans analogue dans la conduite autonome. La feuille de route prévoit un premier déploiement du WTM dans un à deux scénarios réels en 2026, logistique et tourisme en priorité, avant une montée en puissance vers la production de robots propres à Nüwa et l'ouverture de la plateforme à des intégrateurs tiers. Aucun client ni partenaire industriel nommé n'a été annoncé à ce stade.

UEL'émergence de Nüwa illustre la compétition croissante de l'écosystème robotique chinois sur la couche navigation-locomotion, un segment encore peu occupé par les acteurs européens, sans impact opérationnel immédiat pour la France/UE.

Chine/AsieActu

1 source

236Kr

Du chaos à l'ordre : révolution de la fourniture de données et structuration des compétences pour l'IA incarnée

Lors de la conférence AI+ Industry 2026 de Beijing Yizhuang, Xu Liangwei, CTO et cofondateur de Zhiyu Jishi (智域基石), a exposé un pipeline de compilation de données en cinq couches destiné à l'intelligence incarnée (embodied AI). Son argument central: la loi de mise à l'échelle (Scaling Law) qui sous-tend les grands modèles de langage ne se transfère pas aux robots. Un LLM peut absorber des textes hétérogènes en masse, mais un robot opérant dans le monde physique nécessite des données multimodales couplées dans le temps et dans l'espace, où qualité et traçabilité priment sur le volume brut. Le pipeline de Zhiyu Jishi comprend cinq étapes séquentielles: contrôle qualité des données brutes, alignement spatio-temporel, extraction sémantique et causale (séquence contexte-action-conséquence), traitement à grande échelle avec indexation multi-dimensionnelle, et livraison aux équipes de modèles. Xu Liangwei précise que ce pipeline s'applique indifféremment aux architectures VLA (Vision-Language-Action, apprentissage par imitation) et aux world models, les deux paradigmes convergeant vers le même besoin: des données physiques structurées et tracées. L'enjeu concret pour les intégrateurs et les équipes de modèles est la traçabilité des défaillances terrain. En 2026, certains robots commencent à passer de pilotes laboratoire à des déploiements industriels en petit lot, et les équipes peinent à relier un comportement anormal à un sample d'entraînement défaillant. Xu Liangwei précise que les modèles fixent le plafond de capacité d'un robot, mais que la qualité des données dans les cas d'échec, de reprise et de retry conditionne la fiabilité en environnement dégradé. Sans cette traçabilité bout en bout, la boucle fermée données-modèle-terrain-données ne peut pas converger à l'échelle industrielle, rendant impossible le passage du petit lot à la production réelle. Zhiyu Jishi se positionne dans une niche émergente, les "data foundry" pour l'embodied AI, distincte des services de labeling classiques par la dimension temporelle et multimodale des données robotiques. Le discours de Xu Liangwei s'oppose implicitement au modèle fragmenté actuel, où fabricants de plateformes matérielles, développeurs de modèles et intégrateurs industriels produisent chacun leurs données en silo. Sa proposition est de structurer un écosystème à trois acteurs avec une séparation claire des responsabilités, comparable à une couche d'infrastructure partagée. La présentation ne comporte aucun chiffre de déploiement vérifiable ni de client cité, ce qui la positionne davantage comme une communication de positionnement stratégique que comme un bilan d'exécution. La suite annoncée est l'ouverture de ce pipeline à l'ensemble de l'écosystème robotique chinois, sans calendrier précis communiqué.

Chine/AsieOpinion

1 source

336Kr

Ex-cadre IA incarnée de Huawei : un modèle du monde neuromorphique concurrent de JEPA lève 100 millions de yuans

JuNao Panshi (具脑磐石), startup chinoise spécialisée dans les architectures cognitives pour la robotique incarnée, a annoncé en mai 2026 la clôture d'un tour de financement dépassant 100 millions de yuans (environ 13,5 millions d'euros), conduit par un fonds industriel positionné sur l'intersection neuromorphique et robotique, avec réinvestissement des actionnaires existants et participation de plusieurs fonds de premier rang. Un second tour serait en cours de finalisation simultanément, selon la publication chinoise 36Kr. La société, fondée en 2025, est dirigée par Zhu Senhua, ancien responsable du programme "cerveau incarné" chez Huawei, où il a piloté la plateforme cloud IA-neurosciences, le modèle Pangu pour l'intelligence incarnée et le Global Embodied Intelligence Innovation Center. Titulaire d'un doctorat en neurosciences cognitives de l'Université de Pennsylvanie et d'un post-doctorat au Laboratoire national clé Cerveau et Cognition de l'Académie des sciences de Chine, Zhu Senhua est l'un des rares profils combinant recherche académique en neuro-IA, validation expérimentale et industrialisation à grande échelle. JuNao Panshi développe un Cognitive World Model (modèle de monde cognitif) fondé sur l'intelligence neuromorphique, avec quatre objectifs techniques structurants : apprentissage avec peu de données, forte généralisation intersituationnelle, apprentissage à vie et faible consommation énergétique. Plusieurs proof-of-concepts sont en cours de déploiement auprès de clients industriels en Chine et à l'international. L'intérêt de cette levée dépasse la valorisation d'une startup : elle signale un basculement dans les priorités de R&D du secteur de la robotique incarnée, où le terme VLA (Vision-Language-Action) cède progressivement la place au concept de world model comme axe central de compétition. JuNao Panshi argumente que la grande majorité des approches actuelles restent bloquées sur un paradigme data-intensif et énergivore, incapable de généraliser sans réentraînement à chaque nouvel environnement. En s'appuyant sur les mécanismes fonctionnels du cerveau humain, notamment les neurones multi-compartiments, l'attention non linéaire, la mémoire multi-stades et l'inférence active, la société cherche à construire un système capable d'apprentissage abstrait à partir de peu d'exemples, de mémoire persistante et de planification autonome en conditions réelles. Pour les intégrateurs industriels et les décideurs B2B, la promesse est concrète : un robot qui n'a pas besoin d'être réentraîné à chaque changement de ligne ou d'environnement est un robot économiquement viable à déployer à grande échelle. Sur le plan concurrentiel, la trajectoire technique de JuNao Panshi s'aligne explicitement avec l'architecture JEPA (Joint Embedding Predictive Architecture) de Yann LeCun, dont AMI Labs explore la branche causale et de raisonnement. En parallèle, Fei-Fei Li parie sur l'intelligence spatiale 3D, NVIDIA et Google DeepMind accélèrent la simulation physique et l'apprentissage par interaction réelle. JuNao Panshi se positionne un cran au-dessus dans la hiérarchie qu'elle définit elle-même en cinq niveaux, revendiquant la couche la plus haute : l'inférence active issue des neurosciences cognitives. La stratégie commerciale repose sur un modèle "un cerveau, plusieurs robots, plusieurs morphologies" (一脑多机一脑多形), avec des partenariats matériels déjà établis avec les fabricants de robots Lejiu, Xingchen Intelligence et Zhidongli. La feuille de route prévoit d'ouvrir le modèle de cerveau cognitif universel à l'écosystème d'intégrateurs, une fois les capacités de généralisation jugées suffisantes pour piloter des configurations de robots hétérogènes depuis un seul modèle central.

Chine/AsieActu

1 source

4SCMP Tech

L'IA et les modèles du monde : pourquoi la Chine a une longueur d'avance

Les modèles de monde ("world models") sont désormais identifiés comme la prochaine rupture technologique en intelligence artificielle, dépassant les grands modèles de langage (LLM) en leur ajoutant une capacité de simulation de l'environnement physique. Contrairement aux LLM qui traitent du texte, ces architectures apprennent les lois de la physique, la causalité et la géométrie de l'espace réel, ce qui permet d'entraîner des systèmes à intelligence incarnée (embodied AI) : robots humanoïdes, véhicules autonomes, bras industriels. La Chine a déjà déployé ces systèmes à une échelle nettement supérieure à celle des États-Unis, avec des entreprises comme Baidu Apollo (plusieurs dizaines de millions de kilomètres d'autonomie sur route réelle), Unitree et ses robots humanoïdes en production, ainsi que des modèles de monde propriétaires développés par Tencent (HunyuanWorld) et ByteDance. Cet avantage chinois est structurel autant que technologique : le cadre réglementaire y autorise des déploiements massifs en conditions réelles, là où les États-Unis maintiennent des restrictions plus strictes sur les tests d'autonomie. Pour les intégrateurs industriels et les décideurs B2B, cela signifie que le gap sim-to-real, longtemps considéré comme le principal frein à l'adoption robotique, est en train d'être résolu plus vite en Chine qu'ailleurs. Les world models permettent de générer des données synthétiques d'entraînement à partir de simulations physiquement cohérentes, réduisant drastiquement le besoin de collecte en environnement réel. Côté contexte, le concept de world model remonte aux travaux de Yann LeCun chez Meta (architecture JEPA, 2022-2024), mais sa concrétisation industrielle s'est accélérée en 2025-2026 avec l'émergence de modèles dédiés à la robotique comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et les plateformes chinoises. En Europe, des acteurs comme Enchanted Tools (Paris) travaillent sur des approches similaires mais à bien plus petite échelle. La prochaine étape sera probablement la standardisation des benchmarks de world models, un domaine où le leadership de définition reste encore ouvert.

UEL'Europe accuse un retard structurel face à la Chine dans la course aux world models pour la robotique incarnée, avec seulement Enchanted Tools (Paris) identifié comme acteur actif à petite échelle, là où Pékin bénéficie d'un cadre réglementaire autorisant des déploiements massifs en conditions réelles qui accélèrent la résolution du gap sim-to-real.

Chine/AsieOpinion

1 source