Aller au contenu principal
Chine/Asie36Kr2h

L'ex-directeur tech de Meituan crée un modèle du monde pour la restauration à l'ère de l'IA incarnée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

AtomBite.AI (元节智能), startup chinoise d'intelligence incarnée, vient de boucler un tour d'amorçage de plusieurs dizaines de millions de yuans mené par le fonds Yinno Innovation, avec la participation du Shuimu Tsinghua Alumni Seed Fund. La société cible un terrain peu médiatisé mais à forte récurrence : la cuisine professionnelle de restauration et la chaîne d'exécution des commandes de livraison de repas. Son équipe fondatrice porte l'ADN de Meituan : Wang Dong (CEO, docteur en informatique) y dirigeait l'ingénierie de Meituan Waimai, supervisant mille ingénieurs et des algorithmes traitant des dizaines de millions de commandes quotidiennes ; Li Tao pilotait les systèmes algorithmiques et data de la même division ; Li Haozhe, troisième co-fondateur, est un entrepreneur en série à dimension internationale. La technologie centrale est un "World Action Model" (WAM) dédié à la restauration, décliné en architecture VT-WAM combinant vision et retour tactile, en rupture explicite avec l'approche VLA (Vision-Language-Action) dominante dans le secteur. Un premier déploiement pilote en cuisine professionnelle est attendu d'ici fin 2026, avec plusieurs lettres d'intention déjà signées avec des opérateurs nationaux et internationaux.

Le choix de la restauration résulte d'un audit de plusieurs mois conduit en Amérique du Nord et à Singapour. Wang Dong y a identifié un triptyque rare : besoin universel (même problématique en Chine, aux États-Unis et en Asie du Sud-Est), ROI mesurable pour le restaurateur (réduction des erreurs de commande, gains à l'emballage, allègement de la masse salariale) et cycle de décision court chez les PME, contrairement aux scénarios domestiques ou médico-sociaux. L'industrie est structurellement sous pression : hausse soutenue des salaires horaires en Amérique du Nord, turnover chronique et difficultés de recrutement persistantes en Chine. Sur le plan technique, AtomBite.AI conteste le paradigme VLA en affirmant que le contrôle moteur réel ne passe pas par le langage mais par la compréhension visuelle et physique. L'approche VT-WAM fusionne ces deux modalités dans un espace latent pour prédire les conséquences de contact avant exécution : inférer si un gobelet est plein ou chaud modifie les forces de friction et le centre de gravité lors de la saisie, ce que la vision seule ne permet pas de capturer.

AtomBite.AI prend le contre-pied de la stratégie "modèle universel d'abord" adoptée par la plupart de ses concurrents. Les opérations répétitives de la cuisine, emballage, tri et transfert de commandes, génèrent un flux naturel de données d'interaction physique difficile à reproduire en simulation, alimentant un cycle d'amélioration continue du modèle depuis le terrain réel. L'architecture se décompose en trois couches : modèle monde incarné pour la perception et la planification d'actions, moteur d'orchestration des tâches, et couche matérielle combinant composants propriétaires et hardware standard. Les gestes récurrents s'exécutent en local sur des modèles légers pour limiter la latence ; le cloud gère les exceptions comme un ingrédient manquant ou un objet détecté hors place. Sur ce segment, Miso Robotics aux États-Unis et Keenon Robotics en Chine sont déjà présents, sur des périmètres différents (friture automatisée, service en salle). La feuille de route prévoit une extension progressive vers le tri, la logistique interne de restaurant, et à terme la cuisine domestique.

Dans nos dossiers

À lire aussi

Du chaos à l'ordre : révolution de la fourniture de données et structuration des compétences pour l'IA incarnée
136Kr 

Du chaos à l'ordre : révolution de la fourniture de données et structuration des compétences pour l'IA incarnée

Lors de la conférence AI+ Industry 2026 de Beijing Yizhuang, Xu Liangwei, CTO et cofondateur de Zhiyu Jishi (智域基石), a exposé un pipeline de compilation de données en cinq couches destiné à l'intelligence incarnée (embodied AI). Son argument central: la loi de mise à l'échelle (Scaling Law) qui sous-tend les grands modèles de langage ne se transfère pas aux robots. Un LLM peut absorber des textes hétérogènes en masse, mais un robot opérant dans le monde physique nécessite des données multimodales couplées dans le temps et dans l'espace, où qualité et traçabilité priment sur le volume brut. Le pipeline de Zhiyu Jishi comprend cinq étapes séquentielles: contrôle qualité des données brutes, alignement spatio-temporel, extraction sémantique et causale (séquence contexte-action-conséquence), traitement à grande échelle avec indexation multi-dimensionnelle, et livraison aux équipes de modèles. Xu Liangwei précise que ce pipeline s'applique indifféremment aux architectures VLA (Vision-Language-Action, apprentissage par imitation) et aux world models, les deux paradigmes convergeant vers le même besoin: des données physiques structurées et tracées. L'enjeu concret pour les intégrateurs et les équipes de modèles est la traçabilité des défaillances terrain. En 2026, certains robots commencent à passer de pilotes laboratoire à des déploiements industriels en petit lot, et les équipes peinent à relier un comportement anormal à un sample d'entraînement défaillant. Xu Liangwei précise que les modèles fixent le plafond de capacité d'un robot, mais que la qualité des données dans les cas d'échec, de reprise et de retry conditionne la fiabilité en environnement dégradé. Sans cette traçabilité bout en bout, la boucle fermée données-modèle-terrain-données ne peut pas converger à l'échelle industrielle, rendant impossible le passage du petit lot à la production réelle. Zhiyu Jishi se positionne dans une niche émergente, les "data foundry" pour l'embodied AI, distincte des services de labeling classiques par la dimension temporelle et multimodale des données robotiques. Le discours de Xu Liangwei s'oppose implicitement au modèle fragmenté actuel, où fabricants de plateformes matérielles, développeurs de modèles et intégrateurs industriels produisent chacun leurs données en silo. Sa proposition est de structurer un écosystème à trois acteurs avec une séparation claire des responsabilités, comparable à une couche d'infrastructure partagée. La présentation ne comporte aucun chiffre de déploiement vérifiable ni de client cité, ce qui la positionne davantage comme une communication de positionnement stratégique que comme un bilan d'exécution. La suite annoncée est l'ouverture de ce pipeline à l'ensemble de l'écosystème robotique chinois, sans calendrier précis communiqué.

Chine/AsieOpinion
1 source
Ex-cadre IA incarnée de Huawei : un modèle du monde neuromorphique concurrent de JEPA lève 100 millions de yuans
236Kr 

Ex-cadre IA incarnée de Huawei : un modèle du monde neuromorphique concurrent de JEPA lève 100 millions de yuans

JuNao Panshi (具脑磐石), startup chinoise spécialisée dans les architectures cognitives pour la robotique incarnée, a annoncé en mai 2026 la clôture d'un tour de financement dépassant 100 millions de yuans (environ 13,5 millions d'euros), conduit par un fonds industriel positionné sur l'intersection neuromorphique et robotique, avec réinvestissement des actionnaires existants et participation de plusieurs fonds de premier rang. Un second tour serait en cours de finalisation simultanément, selon la publication chinoise 36Kr. La société, fondée en 2025, est dirigée par Zhu Senhua, ancien responsable du programme "cerveau incarné" chez Huawei, où il a piloté la plateforme cloud IA-neurosciences, le modèle Pangu pour l'intelligence incarnée et le Global Embodied Intelligence Innovation Center. Titulaire d'un doctorat en neurosciences cognitives de l'Université de Pennsylvanie et d'un post-doctorat au Laboratoire national clé Cerveau et Cognition de l'Académie des sciences de Chine, Zhu Senhua est l'un des rares profils combinant recherche académique en neuro-IA, validation expérimentale et industrialisation à grande échelle. JuNao Panshi développe un Cognitive World Model (modèle de monde cognitif) fondé sur l'intelligence neuromorphique, avec quatre objectifs techniques structurants : apprentissage avec peu de données, forte généralisation intersituationnelle, apprentissage à vie et faible consommation énergétique. Plusieurs proof-of-concepts sont en cours de déploiement auprès de clients industriels en Chine et à l'international. L'intérêt de cette levée dépasse la valorisation d'une startup : elle signale un basculement dans les priorités de R&D du secteur de la robotique incarnée, où le terme VLA (Vision-Language-Action) cède progressivement la place au concept de world model comme axe central de compétition. JuNao Panshi argumente que la grande majorité des approches actuelles restent bloquées sur un paradigme data-intensif et énergivore, incapable de généraliser sans réentraînement à chaque nouvel environnement. En s'appuyant sur les mécanismes fonctionnels du cerveau humain, notamment les neurones multi-compartiments, l'attention non linéaire, la mémoire multi-stades et l'inférence active, la société cherche à construire un système capable d'apprentissage abstrait à partir de peu d'exemples, de mémoire persistante et de planification autonome en conditions réelles. Pour les intégrateurs industriels et les décideurs B2B, la promesse est concrète : un robot qui n'a pas besoin d'être réentraîné à chaque changement de ligne ou d'environnement est un robot économiquement viable à déployer à grande échelle. Sur le plan concurrentiel, la trajectoire technique de JuNao Panshi s'aligne explicitement avec l'architecture JEPA (Joint Embedding Predictive Architecture) de Yann LeCun, dont AMI Labs explore la branche causale et de raisonnement. En parallèle, Fei-Fei Li parie sur l'intelligence spatiale 3D, NVIDIA et Google DeepMind accélèrent la simulation physique et l'apprentissage par interaction réelle. JuNao Panshi se positionne un cran au-dessus dans la hiérarchie qu'elle définit elle-même en cinq niveaux, revendiquant la couche la plus haute : l'inférence active issue des neurosciences cognitives. La stratégie commerciale repose sur un modèle "un cerveau, plusieurs robots, plusieurs morphologies" (一脑多机一脑多形), avec des partenariats matériels déjà établis avec les fabricants de robots Lejiu, Xingchen Intelligence et Zhidongli. La feuille de route prévoit d'ouvrir le modèle de cerveau cognitif universel à l'écosystème d'intégrateurs, une fois les capacités de généralisation jugées suffisantes pour piloter des configurations de robots hétérogènes depuis un seul modèle central.

Chine/AsieActu
1 source
Zhongke Diwuji lève des centaines de millions en série A pour déployer ses modèles d'IA incarnée à grande échelle
3Pandaily 

Zhongke Diwuji lève des centaines de millions en série A pour déployer ses modèles d'IA incarnée à grande échelle

Zhongke Diwuji, entreprise chinoise spécialisée dans l'intelligence incarnée (embodied AI), a bouclé une levée de fonds de Série A d'un montant de plusieurs centaines de millions de yuans, annoncée en 2026. Le tour a été mené par Futi Capital, avec la participation de Shanghai Semiconductor Industry Investment, CAS Investment, China Venture Capital et Hongruida Technology. L'investisseur historique Zoyuan Asia a choisi d'augmenter significativement sa participation. Il s'agit du troisième tour de financement réalisé par la société dans la seule année 2026. Les fonds seront alloués au développement de la série FAM (few-shot large model), au modèle monde incarné de prochaine génération BridgeV2W, à l'industrialisation des algorithmes d'apprentissage par renforcement, à l'extension des capacités de production robotique et au recrutement d'ingénieurs de haut niveau. La société affirme avoir sécurisé plusieurs centaines de millions de yuans de commandes auprès de clients entreprises internationaux, bien que leurs noms n'aient pas été communiqués. Trois levées en moins de douze mois pour une entreprise fondée en septembre 2024 constituent un signal d'intérêt institutionnel inhabituellement fort. Ce qui distingue Zhongke Diwuji de ses concurrents n'est pas la plateforme matérielle mais la couche d'apprentissage : son approche par few-shot learning permet à un système robotique d'acquérir de nouvelles capacités de manipulation à partir d'un nombre minimal d'exemples, sans les volumineuses campagnes de collecte de données qui alourdissent traditionnellement le coût d'adaptation à de nouvelles tâches industrielles. C'est précisément ce goulot d'étranglement économique qui freine les déploiements à grande échelle, et une solution crédible à ce problème justifie des valorisations élevées. L'obtention de commandes fermes de clients industriels internationaux, et non de simples lettres d'intention, indique que la technologie a franchi la frontière entre démonstration en laboratoire et valeur terrain vérifiable, même si l'absence de noms de clients invite à une certaine prudence. Fondée en septembre 2024, Zhongke Diwuji s'est positionnée dès l'origine comme un acteur de modèles fondationnels physiques universels, à mi-chemin entre startup robotique et laboratoire de recherche en IA. En 2026, le secteur chinois de la robotique incarnée est entré dans une phase de déploiement commercial à l'échelle, avec des concurrents directs comme Unitree Robotics, AgiBot et Fourier Intelligence en compétition sur les mêmes segments industriels. La présence remarquée de Zhongke Diwuji lors de salons professionnels européens et ses commandes internationales annoncées témoignent d'une ambition d'expansion explicite au-delà du marché domestique. Les prochaines étapes identifiées incluent la mise en production de BridgeV2W et l'intégration du reinforcement learning dans des déploiements clients réels, deux jalons qui permettront de vérifier si la promesse du few-shot tient effectivement à l'échelle industrielle.

UELa présence de Zhongke Diwuji lors de salons professionnels européens et ses commandes internationales annoncées signalent une ambition d'expansion vers l'UE qui pourrait accroître la pression concurrentielle sur les acteurs européens de la robotique industrielle et de l'IA physique.

Chine/AsieOpinion
1 source
4Pandaily 

L'équipe Qwen d'Alibaba entre dans l'IA incarnée avec son modèle VLA

L'équipe Tongyi Qianwen d'Alibaba a annoncé en 2026 son entrée dans le domaine de l'IA embodiée avec Qwen-VLA, un modèle vision-langue-action (VLA) destiné à doter robots et appareils intelligents d'une capacité de perception, de compréhension et d'action dans le monde physique. L'architecture unifiée du modèle intègre trois composantes : la perception visuelle, la compréhension du langage naturel, et la planification d'actions physiques. Concrètement, un système embarquant Qwen-VLA serait en mesure d'analyser son environnement via des caméras, d'interpréter des instructions vocales ou textuelles, et de générer les commandes motrices correspondantes. Les applications visées couvrent un spectre large : robots industriels, robots de service, et équipements domestiques connectés. Le modèle s'appuie sur l'expertise accumulée par la série Qwen en LLM et IA multimodale, en étendant ces capacités vers la prédiction d'actions robotiques. Aucune métrique de performance (charge utile, degrés de liberté, temps de cycle) n'a été communiquée à ce stade, ce qui situe clairement cette publication comme une annonce de cap stratégique plutôt que le lancement d'un produit finalisé. L'entrée d'Alibaba reconfigure l'équilibre de la course à l'IA embodiée en Chine, non pas par une approche hardware-first, mais par la couche modèle. Qwen-VLA est positionné comme une plateforme ouverte : Alibaba ne construit pas ses propres robots, mais fournit le "cerveau" que des partenaires matériels peuvent embarquer dans leurs systèmes, quel que soit le facteur de forme. Cette stratégie rappelle davantage celle d'un fournisseur de fondations que celle d'un constructeur robotique intégré. L'atout différenciant réside dans les ressources mobilisables : la puissance de calcul d'Alibaba Cloud, les données réelles issues des opérations logistiques de Cainiao et des flux e-commerce de Taobao, et un écosystème dense de partenaires industriels. Si ces données propriétaires représentent un avantage réel pour l'entraînement et le fine-tuning de VLA, leur exploitation sans friction juridique ou de gouvernance reste à démontrer en pratique. La publication de Qwen-VLA s'inscrit dans une accélération marquée du marché chinois de l'IA embodiée en 2026, portée par la convergence des modèles de fondation, des capteurs et des capacités manufacturières. Alibaba rejoint un champ concurrentiel déjà dense : Unitree Robotics et Deep Robotics sur le hardware, Zhiyuan et AgiBot sur l'intégration système, et des géants tech comme Xiaomi et ByteDance qui investissent de plus en plus dans la robotique généraliste. La stratégie d'Alibaba, modèle ouvert sans robot propriétaire, la distingue de Figure AI ou 1X Technologies aux États-Unis, qui misent sur une intégration verticale complète. Elle se rapproche davantage de l'approche de NVIDIA avec GR00T N2, ou de Physical Intelligence avec Pi-0 côté américain. Les prochaines étapes à surveiller : des partenariats hardware concrets, des benchmarks comparables aux standards du secteur, et d'éventuels pilotes industriels chez des opérateurs logistiques comme Cainiao, qui constitueraient le premier vrai test de passage à l'échelle.

UEL'accélération de l'IA embodiée en Chine avec Qwen-VLA accentue la pression concurrentielle sur les acteurs européens du secteur, sans impact direct immédiat sur le marché français ou les réglementations EU.

Chine/AsieOpinion
1 source