Aller au contenu principal
Du chaos à l'ordre : révolution de la fourniture de données et structuration des compétences pour l'IA incarnée
Chine/Asie36Kr16h

Du chaos à l'ordre : révolution de la fourniture de données et structuration des compétences pour l'IA incarnée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Lors de la conférence AI+ Industry 2026 de Beijing Yizhuang, Xu Liangwei, CTO et cofondateur de Zhiyu Jishi (智域基石), a exposé un pipeline de compilation de données en cinq couches destiné à l'intelligence incarnée (embodied AI). Son argument central: la loi de mise à l'échelle (Scaling Law) qui sous-tend les grands modèles de langage ne se transfère pas aux robots. Un LLM peut absorber des textes hétérogènes en masse, mais un robot opérant dans le monde physique nécessite des données multimodales couplées dans le temps et dans l'espace, où qualité et traçabilité priment sur le volume brut. Le pipeline de Zhiyu Jishi comprend cinq étapes séquentielles: contrôle qualité des données brutes, alignement spatio-temporel, extraction sémantique et causale (séquence contexte-action-conséquence), traitement à grande échelle avec indexation multi-dimensionnelle, et livraison aux équipes de modèles. Xu Liangwei précise que ce pipeline s'applique indifféremment aux architectures VLA (Vision-Language-Action, apprentissage par imitation) et aux world models, les deux paradigmes convergeant vers le même besoin: des données physiques structurées et tracées.

L'enjeu concret pour les intégrateurs et les équipes de modèles est la traçabilité des défaillances terrain. En 2026, certains robots commencent à passer de pilotes laboratoire à des déploiements industriels en petit lot, et les équipes peinent à relier un comportement anormal à un sample d'entraînement défaillant. Xu Liangwei précise que les modèles fixent le plafond de capacité d'un robot, mais que la qualité des données dans les cas d'échec, de reprise et de retry conditionne la fiabilité en environnement dégradé. Sans cette traçabilité bout en bout, la boucle fermée données-modèle-terrain-données ne peut pas converger à l'échelle industrielle, rendant impossible le passage du petit lot à la production réelle.

Zhiyu Jishi se positionne dans une niche émergente, les "data foundry" pour l'embodied AI, distincte des services de labeling classiques par la dimension temporelle et multimodale des données robotiques. Le discours de Xu Liangwei s'oppose implicitement au modèle fragmenté actuel, où fabricants de plateformes matérielles, développeurs de modèles et intégrateurs industriels produisent chacun leurs données en silo. Sa proposition est de structurer un écosystème à trois acteurs avec une séparation claire des responsabilités, comparable à une couche d'infrastructure partagée. La présentation ne comporte aucun chiffre de déploiement vérifiable ni de client cité, ce qui la positionne davantage comme une communication de positionnement stratégique que comme un bilan d'exécution. La suite annoncée est l'ouverture de ce pipeline à l'ensemble de l'écosystème robotique chinois, sans calendrier précis communiqué.

À lire aussi

DeepMotor : une startup de Pékin mise sur les données en première personne pour une IA incarnée générale
1Pandaily 

DeepMotor : une startup de Pékin mise sur les données en première personne pour une IA incarnée générale

DeepMotor, une startup pékinoise fondée par Chen Kai au début 2025, développe une approche d'intelligence artificielle incarnée (embodied AGI) basée sur l'entraînement à partir de vidéos en première personne capturées par des humains. Au lancement, la thèse de l'entreprise n'a convaincu ni les investisseurs domestiques ni la majorité du secteur : pourquoi parier sur une méthode que même les géants américains n'avaient pas encore validée ? La startup a levé plusieurs centaines de millions de RMB et poursuit aujourd'hui un déploiement accéléré. La chronologie des validations industrielles donne la mesure de son avance : en mai 2025, Tesla a annoncé réorienter l'entraînement d'Optimus vers des données vidéo humaines. En juin 2025, GeneralistAI a présenté une démo d'apprentissage imitatif robotique, puis a confirmé les lois de mise à l'échelle avec 270 000 heures de données humaines réelles collectées sur le terrain. FigureAI a de son côté annoncé des partenariats avec des opérateurs immobiliers commerciaux pour collecter des flux en première personne. En février 2026, NVIDIA a publié EgoScale, un modèle pré-entraîné sur 20 000 heures de vidéo première personne destiné à la manipulation dextre. L'importance de cette séquence dépasse le simple calendrier. Elle valide l'hypothèse centrale de DeepMotor : la vidéo en vue égocentrique est le signal d'apprentissage le plus dense pour combler le sim-to-real gap en robotique généraliste. Chaque acteur majeur converge vers cette approche non par choix idéologique, mais parce que les benchmarks internes le forcent. Pour les intégrateurs industriels et les décideurs B2B, cela signifie que la prochaine génération de robots manipulateurs ne sera pas entraînée dans des simulateurs mais sur des flux de travail humains réels, ce qui redéfinit les exigences en matière de collecte de données et de gouvernance des contenus vidéo. DeepMotor s'inscrit dans un écosystème robotique chinois en forte accélération, concurrent direct d'Unitree, d'Agibot et des branches robotique de Baidu et Tencent, mais avec une orientation plus fondamentale sur la couche de données brutes plutôt que sur le hardware. La startup a devancé d'environ un an le consensus industriel mondial sur l'approche egocentric data, ce qui lui confère une position de référence potentielle si elle parvient à publier ses propres scaling laws ou à ouvrir un dataset. Les prochaines étapes probables incluent la publication de résultats comparatifs et des partenariats avec des fabricants de robots humanoides pour valider le transfert de politique sur des plateformes tiers. La source originale (Waves/暗涌) reste un media chinois spécialisé, et les chiffres de levée ne sont pas précisément détaillés.

UELe basculement de l'industrie vers les données vidéo égocentristes comme signal d'entraînement de référence redéfinira les exigences de collecte de données et de gouvernance vidéo pour les intégrateurs et fabricants de robots européens, sans acteur français ou européen directement impliqué à ce stade.

Chine/AsieOpinion
1 source
De la perception de l'environnement à la transformation du monde : opportunités, voies et pratiques de l'IA physique
236Kr 

De la perception de l'environnement à la transformation du monde : opportunités, voies et pratiques de l'IA physique

À la conférence AI+ de Beijing Yizhuang en mai 2026, Chen Long, directeur technique "foundation models" de Jiangxing Intelligence (江行智能), a présenté l'architecture d'IA physique industrielle JX-Phi, déjà déployée dans des centrales photovoltaïques et des réseaux électriques au Guizhou et en Mongolie intérieure. Le système couvre plus de 1 000 stations d'inspection avec une précision algorithmique annoncée à 99 %. L'architecture se décompose en trois couches : une infrastructure de données (JX-Phi World), un modèle central en cours d'évolution vers un World Action Model (JX-Phi Brain, intégrant des modèles Vision-Language-Action longue durée, dits LT-VLA), et une couche applicative (JX-Phi Agent) qui orchestre drones, chiens robotiques, robots à roues et bras mécaniques via un contrôleur global de 100 milliards de paramètres. Indicateur structurant : une simple tâche d'inspection d'équipement se décompose en 100 à 200 sous-tâches dans un contexte industriel, contre quelques dizaines en usage grand public. Ce chiffre illustre une bascule dans la compétition autour de l'IA : l'enjeu n'est plus le nombre de paramètres des modèles de base, mais la capacité à déployer des systèmes stables et contrôlés dans des environnements physiques contraignants. La densité des scénarios industriels chinois constitue un avantage structurel difficile à répliquer : le parc de robots industriels installés en Chine représente 8,6 fois celui des États-Unis et a crû d'un facteur 12 en dix ans, alimentant un volant de données continu sans équivalent mondial. L'approche sim-to-real de Jiangxing repose sur un moteur de simulation 3D génératif (AutoWorld) qui produit des scénarios rares, pannes atypiques ou conditions météo extrêmes, avant tout déploiement terrain, réduisant significativement les risques dans des secteurs où l'erreur en conditions réelles n'est pas tolérable, comme l'énergie ou la pétrochimie. Jiangxing capitalise sur cinq couches d'infrastructure que la Chine a constituées : densité de scénarios industriels, modèles open source compétitifs (DeepSeek, Qwen, Kimi) en rattrapage rapide sur les niveaux de performance mondiaux, 4,48 millions de stations 5G représentant plus de 60 % du parc mondial, capacité électrique environ deux fois supérieure à celle des États-Unis, et une co-optimisation logiciel-matériel stimulée en partie par les restrictions d'accès aux puces d'entraînement haut de gamme. Sur le plan concurrentiel, la société se positionne comme fournisseur de système complet face à des acteurs comme Unitree ou Boston Dynamics côté plateformes robotiques, et Physical Intelligence (Pi-0) côté modèles généralistes. Les prochaines étapes visent une extension aux secteurs minier et chimique, où la criticité des tâches et la rareté des données d'incidents justifient précisément l'approche simulation-to-real développée par la société.

UELes avantages structurels de la Chine en IA physique industrielle (parc robotique 8,6x supérieur aux États-Unis, 60 % des stations 5G mondiales, capacité électrique double) représentent un écart compétitif croissant que les industriels européens devront intégrer dans leur stratégie d'automatisation à horizon 5 ans.

Chine/AsieOpinion
1 source
IA à l'échelle urbaine : du pilote à la généralisation, robots en conditions réelles et passage à l'échelle
336Kr 

IA à l'échelle urbaine : du pilote à la généralisation, robots en conditions réelles et passage à l'échelle

Coowa Technology, fondée en 2015 à Shanghai et dont le siège social est à Pékin, a présenté lors de la conférence AI+ Industry de Yizhuang en mai 2026 un bilan opérationnel chiffré: 55 millions de kilomètres réels parcourus, déploiement dans plus de 50 villes chinoises, et 10 millions de clips vidéo-sémantique-action alignés collectés. La gamme commercialisée comprend des robots d'assainissement urbain de 1 et 3 tonnes, le minibus autonome Coobus (déployé dans une dizaine de villes à l'échelle mondiale, dont prochainement Yizhuang), le robot de gestion immobilière Wall-E R0, et des robots-chiens quadrupèdes pour la livraison du dernier kilomètre, capables d'assurer des livraisons en moins de 30 minutes dans un rayon de 3 km sans modification des ascenseurs ni de l'infrastructure existante. Li Kehong, COO et co-fondateur, a indiqué une rentabilité annuelle de "plusieurs centaines de millions de yuans". L'argument central de la présentation porte sur la donnée comme avantage concurrentiel structurel: dans l'IA incarnée (embodied AI), le goulot d'étranglement n'est pas algorithmique mais datalogique. Coowa y répond avec une stratégie où les revenus d'exploitation financent directement l'itération du modèle CooWAIM (World-Action Interactive Model), une architecture duale combinant inférence temps réel en bordure de réseau pour la sécurité immédiate et planification sémantique longue portée pour la navigation globale. L'approche "Drive+Work", qui fusionne mobilité et manipulation dans un espace d'action indissociable, s'écarte du paradigme modulaire dominant dans la robotique de service. Les chiffres d'exploitation donnent une mesure concrète: aux heures de pointe, les robots traitent en temps réel plus de 100 caractéristiques dynamiques par intersection (piétons, véhicules non motorisés); un gain de 20% sur le temps de traversée équivaut selon Coowa à une hausse de 20% de la marge brute, argument directement actionnable pour un décideur B2B ou un intégrateur. Fondée sur la base académique de l'Université Jiaotong de Shanghai, Coowa opère depuis dix ans dans les environnements urbains ouverts chinois, accumulant une antériorité opérationnelle que peu de concurrents peuvent revendiquer à cette échelle commerciale. Waymo, issu du laboratoire Google X après plus d'une décennie de développement, et Tesla, qui s'appuie sur sa flotte de plusieurs millions de véhicules pour constituer ses données d'entraînement, progressent en robotaxi sur un périmètre distinct; les acteurs de la robotique humanoïde comme Figure, Agility Robotics ou 1X Technologies demeurent majoritairement en phase de pilote industriel. Coowa anticipe l'ouverture réglementaire de marchés étrangers en positionnant en priorité ses produits dans les pays de l'initiative "Ceinture et Route". Les prochaines étapes concernent la montée en puissance de la livraison instantanée à court terme et, à horizon plus long, l'entrée dans les environnements domestiques fermés, segment le plus complexe techniquement mais potentiellement le plus générateur de données d'entraînement inédites.

Chine/AsieActu
1 source
SenseTime ouvre un commerce de proximité en IA incarnée avec des robots humanoïdes à Shanghai
4Pandaily 

SenseTime ouvre un commerce de proximité en IA incarnée avec des robots humanoïdes à Shanghai

SenseTime, l'un des principaux groupes d'intelligence artificielle en Chine, a inauguré en mai 2026 à Shanghai un point de vente de détail entièrement opéré par des robots humanoïdes. La boutique, baptisée "Shaomai Gou" (烧卖购), est installée dans le site touristique Baoshan Riverside Scenic Area. Le protocole client est simple : scanner un QR code pour passer commande depuis son téléphone, puis recevoir le produit directement des mains du robot. Au-delà de la préparation des commandes, les robots seraient capables d'assurer la sélection des références, la tarification et l'analyse des données de réapprovisionnement des stocks. Le magasin a attiré des files d'attente spontanées lors du week-end du 1er mai. Aucun modèle de robot n'est identifié dans l'annonce officielle, et SenseTime ne publie pas de métriques opérationnelles (temps de cycle, taux de succès des saisies, volume de transactions). Ce déploiement est significatif parce qu'il sort les robots humanoïdes du contexte industriel contrôlé pour les placer face à des consommateurs non formés, dans un environnement ouvert et non structuré. La manipulation de produits variés, la gestion des interactions client et le réassort en rayon constituent des tâches difficiles pour un système robotique généraliste. Cela dit, l'absence de données techniques publiées invite à la prudence : l'initiative ressemble davantage à un déploiement pilote à forte valeur marketing qu'à une preuve de passage à l'échelle industrielle. Ce que cela valide en revanche, c'est l'existence d'une voie commerciale pour l'embodied AI dans les services de proximité à forte fréquentation, un segment jusqu'ici dominé par des kiosques automatisés passifs. SenseTime a bâti sa réputation initiale sur la vision par ordinateur et la reconnaissance faciale avant de pivoter vers l'IA incarnée, combinant vision robotique, compréhension du langage naturel et manipulation physique. En Chine, la société fait face à la concurrence de Unitree Robotics, Fourier Intelligence et UBTECH sur le segment humanoïde ; à l'international, les références du secteur restent Figure AI avec le robot 03, Physical Intelligence avec Pi-0 et Boston Dynamics. La prochaine étape logique pour SenseTime sera d'étendre "Shaomai Gou" à d'autres sites et de publier des données de performance qui permettraient de distinguer la démonstration du déploiement opérationnel réel.

Chine/AsieActu
1 source