Chine/Asie36Kr2h

Zhang Yaqin : l'IA n'est pas une bulle, mais les entreprises d'IA si

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Zhang Yaqin, académicien de l'Académie chinoise d'ingénierie et ancien vice-président de Microsoft Research, dirige depuis cinq ans le AIR (Institut de recherche en industrie intelligente de l'Université Tsinghua), qu'il a fondé à Pékin. L'institut a incubé dix entreprises cumulant environ 15 milliards de yuans de levées de fonds et une valorisation totale de 150 milliards de yuans, parmi lesquelles les licornes Huashen Zhiyao (IA pharmaceutique) et Tashi Zhihang. Dans un entretien accordé lors du forum Taihu Dialogue 2026 organisé à Wuxi, Zhang a livré une analyse structurée de l'état réel du marché IA chinois. Sa position centrale : l'IA en tant que technologie ne constitue pas une bulle, mais les valorisations des entreprises IA en sont une. Il situe le secteur à l'équivalent de 1998-1999 pour l'internet, période de déploiement massif d'infrastructures (électricité, calcul, algorithmes), où des acteurs alors dominants comme Yahoo ont disparu tandis que les véritables géants n'étaient pas encore identifiables. Sur le segment robotique, il estime que des centaines d'entreprises sont actuellement en lice, mais que trois à quatre ans suffiront pour n'en retenir qu'une vingtaine ; les grands modèles de langage chinois se consolideront de leur côté en trois à quatre acteurs.

L'analyse de Zhang sur la dynamique d'investissement constitue un signal d'alerte direct pour les décideurs. Il observe que lever des capitaux excessifs sans modèle économique consolidé aboutit dans la plupart des cas à brûler la trésorerie sans convertir en revenus, un schéma qu'il juge structurellement identique à la bulle internet. Il distingue néanmoins une différence qualitative avec 2000 : OpenAI et Anthropic affichent des courbes de revenus sans précédent historique, ce qui justifie partiellement la confiance actuelle du marché. Mais il soulève une question non résolue : les investissements massifs des géants technologiques mondiaux dans les datacenters et les puces pourront-ils se convertir en commandes et revenus réels ? Il fixe une fenêtre d'observation de deux à trois ans comme test décisif. Sur la robotique physique, Zhang maintient son estimation que les robots domestiques généralistes nécessitent encore dix ans ou plus, faute de percées théoriques et algorithmiques suffisantes dans l'interaction homme-machine en environnement ouvert. Les robots industriels et spécialisés, eux, progresseront significativement plus vite.

L'AIR positionne ses travaux à l'intersection de ces limites. L'approche RSR (Real-to-Sim-to-Real), développée par le professeur Zhou Guyue depuis plusieurs années, vise à fermer la boucle entre environnements simulés et monde physique, un problème central du transfert sim-to-real qui freine tout le secteur. Zhang identifie trois manières de pallier le déficit de données physiques : collecte en vue subjective à partir d'interactions humain-environnement, acquisition autonome par les robots eux-mêmes, et génération de données en simulation. Sur l'entrepreneuriat académique, il préconise le modèle professeur-cofondateur ou chief scientist associé à un CEO commercial distinct, plutôt que le professeur PDG à plein temps, jugeant le taux d'échec de ce dernier schéma structurellement élevé aussi bien en Chine qu'aux États-Unis. L'AIR n'est pas un incubateur au sens financier : il produit une à deux entreprises par an, toutes en phase de validation de leur capacité d'exécution commerciale.

À lire aussi

136Kr

Wang Zhongyuan (BAAI) : les VLA ne mourront pas, mais les modèles du monde sont l'avenir

Wang Zhongyuan, directeur du Beijing Academy of Artificial Intelligence (BAAI, 北京智源人工智能研究院), institution de recherche non lucrative chinoise, a accordé une interview approfondie au média spécialisé 硬氪 en marge de la conférence annuelle de l'académie, consacrée cette année aux modèles du monde (World Models) et aux agents intelligents. Il y cartographie quatre grandes familles de world models en compétition : les modèles centrés sur le langage comme les VLA et VLM (dont Gemini 3), qui prédisent le prochain token sans comprendre les conséquences physiques ; les modèles centrés sur les pixels comme Sora ou Seedance, efficaces pour la génération vidéo mais aveugles à la causalité physique ; les modèles centrés sur la structure 3D, dont Marble de World Labs (l'équipe de Li Feifei), qui reconstruisent l'espace géométrique sans en modéliser les états physiques ; et les modèles centrés sur la représentation visuelle, comme la série V-JEPA de Yann LeCun, dont l'évolution des embeddings ne correspond pas à l'évolution des lois physiques. BAAI explore une cinquième voie : fusionner représentations linguistiques et visuelles dans un espace latent unifié (latent space), depuis lequel des décodeurs distincts restituent langage, actions et vision selon le besoin, via des systèmes déjà déployables comme Physis et RoboBrain Orca. L'enjeu central, selon Wang, est de substituer au paradigme "Next Token Prediction" des LLM un paradigme "Next Physical State Prediction", soit la prédiction du prochain état physique du monde. Cette bascule est directement liée aux limites exposées par l'IA incarnée (embodied AI) : les robots actuels, qu'ils s'appuient sur des VLA ou des architectures plus simples, restent des exécutants passifs, cantonnés à des tâches mono-scène avec des données très spécifiques. Ils ne généralisent pas. Un robot VLA peut attraper un colis sur une chaîne logistique, mais il est incapable de prédire ce qui se passe si une bouteille ouverte tombe à côté. Wang rejette catégoriquement l'équivalence entre génération vidéo et world model, qui s'est répandue depuis qu'OpenAI a qualifié Sora de "World Simulator" : produire une vidéo physiquement plausible n'est pas modéliser le monde. Un vrai world model doit être physiquement correct (gravité, optique, fluides), doté d'une causalité action-résultat explicite, cohérent sur de longues séquences temporelles, et généralisable à des tâches multiples. Quant au débat "VLA is dead", Wang le tranche sans ambiguïté : les VLA restent utiles aujourd'hui et le resteront à court terme, mais les world models représentent l'étape suivante. BAAI a construit cette position en couches successives depuis le LLM Wudao (悟道), premier grand modèle chinois public, jusqu'aux architectures multimodales natives Emu3 et Emu3.5, avant d'amorcer en 2024 la transition vers la "Next State Prediction". L'académie est aussi un vivier : les fondateurs de Zhipu AI (Tang Jie), Moonshot AI (Yang Zhilin), iFlytek Research (Liu Zhiyuan) et Galactic General Robotics (Wang He) y ont tous conduit des recherches. Côté compétition internationale, BAAI se positionne face à World Labs (Marble), OpenAI (Sora), DeepMind (Genie 2) et au programme V-JEPA de LeCun chez Meta. Wang situe l'état actuel des world models à l'équivalent du deep learning vers 2012 : données fragmentées, benchmarks divergents, pas encore de "moment ChatGPT". Il estime qu'un véritable cerveau robotique à base de world model est un horizon de trois ans minimum, avec des applications prioritaires dans la robotique industrielle, la simulation physique et l'IA for Science.

Chine/AsieOpinion

1 source

236Kr

Table ronde : tout le monde voit la bulle, mais quand les robots entreront-ils dans des usages réels ?

Lors de la conférence WAVES 2026 organisée par 36Kr à Guangzhou fin juin, une table ronde sur la robotique incarnée (具身智能) a réuni six acteurs du secteur : les fondateurs de Shenpu Intelligence et Qiongming Intelligence côté constructeurs, le CEO de Qingtian Rent pour la commercialisation, et trois investisseurs de BV Baidu Ventures, Kailiane Capital et Yunshi Capital. La toile de fond est parlante : la startup Shizhi Hang vient de lever 242 millions de dollars en tour d'amorçage, mais Goldman Sachs a sondé neuf fournisseurs de la chaîne d'approvisionnement robotique chinoise, sans qu'aucun ne rapporte de gros contrat ferme. BV Baidu Ventures, entrée dès 2022 avant la vague spéculative, confirme continuer à investir et à renforcer ses positions existantes. La discussion cartographie ce qui génère concrètement des revenus aujourd'hui. La location courte durée de robots, à quelques milliers de yuans par jour pour cinq à dix unités (comparable à la location d'une Rolls-Royce selon un investisseur du panel), constitue la niche la plus rentable à court terme. La sous-traitance humaine déguisée en collecte de données d'entraînement représente un deuxième flux, tout comme les ventes dans le marché geek/maker et les robots compagnons à forte dimension IP. Qingtian Rent affirme que l'intégralité de ses contrats est rentable en se concentrant sur les tâches "sous le plafond" des capacités actuelles. Les participants reconnaissent unanimement le triangle impossible des robots domestiques : bon marché, fonctionnel et sûr, trois critères impossibles à satisfaire simultanément à ce stade. Les modèles grand public à moins de 10 000 yuans existent, mais restent cantonnés à l'accompagnement ; dès que l'on exige des tâches ménagères réelles, le coût monte immédiatement. Cui Kedi de BV Baidu Ventures cite les combats de robots développés par Zhongqing comme scénario haute intensité utile pour valider les capacités dynamiques, tout en estimant que le secteur reste sous-financé par rapport aux grands laboratoires d'IA générative. BV Baidu Ventures a commencé à investir dans l'intelligence incarnée dès mi-2022, en partant du débordement technologique de la conduite autonome. Li Xiaofei de Shenpu compare l'état actuel au marché de l'autonomie routière en 2017-2018 : la preuve de concept est établie, mais la commercialisation de masse s'inscrit sur un horizon de cinq à dix ans. Sa stratégie dite "1+2+N" (un modèle de base, deux pipelines de données réelles, N scénarios progressifs) privilégie d'abord les environnements structurés comme les hôtels et les établissements de soins avant de viser les foyers. Ce gradualisme rejoint le constat de Wang Zixuan de Yunshi Capital : les robots qui font déjà de l'argent opèrent souvent dans des espaces invisibles, chantiers navals, usines lourdes périphériques, fonds marins, là où l'équation économique est claire avant même que la généralisation soit résolue.

Chine/AsieOpinion

1 source

3Pandaily

IA incarnée chinoise : une entreprise domine le benchmark RoboArena, devant NVIDIA et Physical Intelligence

Une entreprise chinoise spécialisée en intelligence artificielle incarnée (embodied AI) a décroché la première place du classement RoboArena lors de la conférence NVIDIA GTC Taipei 2026, devançant NVIDIA et Physical Intelligence (PI). Le benchmark RoboArena est conçu pour évaluer des systèmes d'IA robotique sur des tâches physiques réelles variées : manipulation d'objets, navigation mobile et utilisation d'outils complexes. Sa méthodologie inclut des conditions environnementales aléatoires, des perturbations adversariales et des exigences strictes de reproductibilité, ce qui en fait l'un des rares benchmarks difficiles à truquer par overfitting. Fait notable : l'article source ne mentionne pas le nom de cette entreprise, ce qui affaiblit la portée de l'annonce et rend toute vérification indépendante impossible pour l'instant. La solution retenue s'appuie sur une architecture qui intègre étroitement la perception visuelle et le contrôle moteur au niveau du réseau de neurones, permettant une adaptation rapide à de nouveaux environnements avec un fine-tuning minimal. L'entrée de NVIDIA, construite sur sa plateforme Isaac et ses pipelines de simulation-to-real accélérés GPU, ainsi que celle de Physical Intelligence, connue pour ses politiques robotiques généralistes (dont le modèle Pi-0), ont toutes deux été surpassées en score agrégé. Ce résultat conteste l'hypothèse dominante selon laquelle la puissance de calcul brute est le principal levier de performance en embodied AI. Si confirmé, cela suggère que l'innovation architecturale et une utilisation efficace des données réelles peuvent compenser un désavantage de ressources significatif face à des acteurs comme NVIDIA ou PI, qui disposent de budgets compute sans commune mesure. Pour les intégrateurs et décideurs industriels, cela signifie que le marché reste ouvert à des challengers lean, et que la course à la généralisation robotique n'est pas encore jouée par les seuls hyperscalers. La validation par un benchmark tiers réputé représente un argument commercial fort, surtout dans un secteur où les démonstrations en conditions contrôlées sont légion. Il convient cependant de rester prudent : aucune métrique précise (payload, degrés de liberté, temps de cycle, taux de succès par tâche) n'est communiquée dans l'annonce, et les vidéos de démonstration n'ont pas encore été soumises à un audit indépendant. RoboArena a été lancé comme réponse directe aux critiques sur la reproductibilité des benchmarks robotiques, dans un contexte où des acteurs comme Figure AI (Figure 03), Tesla (Optimus Gen 3), Boston Dynamics, 1X Technologies et Physical Intelligence publient des résultats difficiles à comparer. La Chine construit depuis plusieurs années un écosystème embodied AI dense, porté par une base de fabrication hardware mature, un vivier de talents en vision par ordinateur issus des géants technologiques (Baidu, Alibaba, DJI), et un soutien gouvernemental actif à l'industrialisation de l'IA. La prochaine étape logique pour cette entreprise anonyme sera de se nommer publiquement, de publier ses données brutes et d'annoncer des déploiements pilotes en environnement industriel réel pour confirmer que la performance benchmark se traduit en valeur opérationnelle.

UELa compétitivité croissante de l'écosystème chinois en IA incarnée constitue un signal d'alerte indirect pour les industriels et laboratoires européens positionnés sur la robotique généraliste.

Chine/AsieOpinion

1 source

4Pandaily

Des milliards investis dans l'IA incarnée, mais le déploiement en usine reste hors de portée

Au premier semestre 2026, le secteur chinois de la robotique embodied AI a absorbé 46 milliards de yuans (environ 6,2 milliards d'euros) répartis sur 288 opérations de financement impliquant 226 entreprises, selon les données d'IT Juzi. La concentration est massive : les cinq premiers acteurs (Qianxun Intelligence, Xiwang Sunrise, Xinghaitu, Zibianliang Robot et Jijia Vision) ont capté 17,1 milliards de yuans, soit 37 % du total, et le top 20 emporte 70 % des fonds. Qianxun Intelligence seule a levé 4,5 milliards de yuans en quatre tours en quatre mois. Le profil des investisseurs change : les grandes rondes au-dessus du milliard de yuans sont désormais pilotées à plus de 40 % par des industriels et des entités publiques (Baidu, ByteDance, Xiaomi, Meituan, SAIC, fonds gouvernementaux), le capital d'État participant à 42 % des transactions à plusieurs centaines de millions. Ce flux d'argent masque un écart criant entre vitrine et déploiement réel. Le cas Daluo est emblématique : valorisée à plus de 20 milliards de yuans, ayant levé 5,4 milliards, la société n'a vendu que 1,4 million de yuans de produits sur les sept premiers mois de 2025 tout en enregistrant 84,25 millions de pertes nettes. La cause structurelle identifiée par le secteur est le manque de données d'interaction physique de qualité : on estime à 500 000 heures seulement le volume mondial de données réelles utilisables pour entraîner des robots, contre des milliards de tokens texte pour les LLM. Les réponses sont proportionnelles : Xinghaitu a lancé une campagne "un million d'heures" à Yizhuang, Qianxun Intelligence a déployé 300 000 points de collecte à l'échelle nationale, JD.com vise 10 millions d'heures sous deux ans. Les résultats restent modestes : un responsable algorithmique a reconnu que des dizaines de millions de yuans investis pour collecter 100 000 heures n'avaient amélioré la capacité des modèles que de 5 %. Le secteur reste en phase de recherche appliquée, loin d'une industrialisation. L'état de l'art interne, estimé sur 100 points par un praticien du domaine, place les bras industriels à 50, les châssis à roues à 40, les quadrupèdes à 30, les humanoïdes bipèdes à 15, les mains dextères à 5, et l'IA embarquée de support à 3. Les approches VLA (Vision-Language-Action) et World Model convergent techniquement mais sans consensus sur la feuille de route. Les acteurs occidentaux comme Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) font face aux mêmes verrous de sim-to-real et de données, mais le déploiement à l'échelle usine reste introuvable partout. Malgré l'étiquette "année de la production de masse" accolée à 2026, aucun robot polyvalent fiable ne s'est encore imposé commercialement dans des environnements industriels non contrôlés.

UELes mêmes verrous structurels, 500 000 heures de données physiques mondiales, sim-to-real non résolu, contraignent les acteurs européens au même plafond de verre que les géants chinois pourtant dix fois mieux capitalisés.

Chine/AsieOpinion

1 source