
Du chaos à l'ordre : révolution de la fourniture de données et structuration des compétences pour l'IA incarnée
Lors de la conférence AI+ Industry 2026 de Beijing Yizhuang, Xu Liangwei, CTO et cofondateur de Zhiyu Jishi (智域基石), a exposé un pipeline de compilation de données en cinq couches destiné à l'intelligence incarnée (embodied AI). Son argument central: la loi de mise à l'échelle (Scaling Law) qui sous-tend les grands modèles de langage ne se transfère pas aux robots. Un LLM peut absorber des textes hétérogènes en masse, mais un robot opérant dans le monde physique nécessite des données multimodales couplées dans le temps et dans l'espace, où qualité et traçabilité priment sur le volume brut. Le pipeline de Zhiyu Jishi comprend cinq étapes séquentielles: contrôle qualité des données brutes, alignement spatio-temporel, extraction sémantique et causale (séquence contexte-action-conséquence), traitement à grande échelle avec indexation multi-dimensionnelle, et livraison aux équipes de modèles. Xu Liangwei précise que ce pipeline s'applique indifféremment aux architectures VLA (Vision-Language-Action, apprentissage par imitation) et aux world models, les deux paradigmes convergeant vers le même besoin: des données physiques structurées et tracées.
L'enjeu concret pour les intégrateurs et les équipes de modèles est la traçabilité des défaillances terrain. En 2026, certains robots commencent à passer de pilotes laboratoire à des déploiements industriels en petit lot, et les équipes peinent à relier un comportement anormal à un sample d'entraînement défaillant. Xu Liangwei précise que les modèles fixent le plafond de capacité d'un robot, mais que la qualité des données dans les cas d'échec, de reprise et de retry conditionne la fiabilité en environnement dégradé. Sans cette traçabilité bout en bout, la boucle fermée données-modèle-terrain-données ne peut pas converger à l'échelle industrielle, rendant impossible le passage du petit lot à la production réelle.
Zhiyu Jishi se positionne dans une niche émergente, les "data foundry" pour l'embodied AI, distincte des services de labeling classiques par la dimension temporelle et multimodale des données robotiques. Le discours de Xu Liangwei s'oppose implicitement au modèle fragmenté actuel, où fabricants de plateformes matérielles, développeurs de modèles et intégrateurs industriels produisent chacun leurs données en silo. Sa proposition est de structurer un écosystème à trois acteurs avec une séparation claire des responsabilités, comparable à une couche d'infrastructure partagée. La présentation ne comporte aucun chiffre de déploiement vérifiable ni de client cité, ce qui la positionne davantage comme une communication de positionnement stratégique que comme un bilan d'exécution. La suite annoncée est l'ouverture de ce pipeline à l'ensemble de l'écosystème robotique chinois, sans calendrier précis communiqué.
Dans nos dossiers




