Aller au contenu principal
Chine/Asie36Kr1h

SenseTime mise sur les caméras spatiales grand public pour collecter des données réelles destinées à l'IA incarnée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Zhuma Innovation (竹马创新), startup chinoise fondée en novembre 2025, vient de boucler un tour Angel+ de plusieurs dizaines de millions de yuans mené par SenseTime Guoxiang Capital, le bras d'investissement de SenseTime, avec la participation de Dinghui VGC et Fengru Capital. Les fonds serviront au développement produit, à la préparation de la production en série et à l'expansion internationale. La société développe Pebble, une caméra autonome grand public intégrant le rendu 3D Gaussian Splatting (3DGS), la fusion multi-capteurs et une interface AI-native, conçue pour capturer une scène tridimensionnelle aussi simplement qu'une vidéo ordinaire. Le produit est encore en phase de R&D et n'a pas atteint la production industrielle.

L'intérêt stratégique de Zhuma dépasse le marché de la caméra 3D : la société se positionne comme infrastructure de données pour l'IA incarnée (embodied AI). Les modèles VLA (Vision-Language-Action) pilotant la prochaine génération de robots humanoïdes sont aujourd'hui majoritairement entraînés sur des données de téléopération, une méthode coûteuse et difficile à scaler. Le consensus qui émerge dans la recherche est que des vidéos en première personne, des données de capteurs spatiaux et des séquences comportementales en environnement réel constitueront la prochaine source dominante d'entraînement. Zhuma propose des données photoréalistes dotées de structure 3D, de sémantique et d'échelle physique correcte, directement utilisables pour construire des world models ou affiner la perception spatiale en simulation, réduisant ainsi la dépendance aux environnements synthétiques dont le réalisme reste limité.

La société est cofondée par Zhang Ji, ancien vice-président de Kujiale (plateforme de design d'intérieur à grande échelle en Chine), et dirigée scientifiquement par Guo Jie, maître de conférences permanent à l'Université de Nanjing et spécialiste reconnu du 3DGS. La technologie 3DGS, popularisée depuis 2023, reconstruit des scènes 3D photoréalistes à partir de vidéos ordinaires, avec des performances supérieures au NeRF sur les temps de rendu. L'entrée de SenseTime comme investisseur principal apporte des ressources algorithmiques complémentaires aux capacités matérielles de Zhuma. Le marché reste largement ouvert : les acteurs industriels du lidar et des scanners haute précision n'ont pas encore attaqué le segment consommateur. Les investisseurs positionnent explicitement Zhuma comme un potentiel Insta360 de la caméra spatiale, une marque capable de définir une catégorie hardware avant que le marché ne se structure.

À lire aussi

DeepMotor : une startup de Pékin mise sur les données en première personne pour une IA incarnée générale
1Pandaily 

DeepMotor : une startup de Pékin mise sur les données en première personne pour une IA incarnée générale

DeepMotor, une startup pékinoise fondée par Chen Kai au début 2025, développe une approche d'intelligence artificielle incarnée (embodied AGI) basée sur l'entraînement à partir de vidéos en première personne capturées par des humains. Au lancement, la thèse de l'entreprise n'a convaincu ni les investisseurs domestiques ni la majorité du secteur : pourquoi parier sur une méthode que même les géants américains n'avaient pas encore validée ? La startup a levé plusieurs centaines de millions de RMB et poursuit aujourd'hui un déploiement accéléré. La chronologie des validations industrielles donne la mesure de son avance : en mai 2025, Tesla a annoncé réorienter l'entraînement d'Optimus vers des données vidéo humaines. En juin 2025, GeneralistAI a présenté une démo d'apprentissage imitatif robotique, puis a confirmé les lois de mise à l'échelle avec 270 000 heures de données humaines réelles collectées sur le terrain. FigureAI a de son côté annoncé des partenariats avec des opérateurs immobiliers commerciaux pour collecter des flux en première personne. En février 2026, NVIDIA a publié EgoScale, un modèle pré-entraîné sur 20 000 heures de vidéo première personne destiné à la manipulation dextre. L'importance de cette séquence dépasse le simple calendrier. Elle valide l'hypothèse centrale de DeepMotor : la vidéo en vue égocentrique est le signal d'apprentissage le plus dense pour combler le sim-to-real gap en robotique généraliste. Chaque acteur majeur converge vers cette approche non par choix idéologique, mais parce que les benchmarks internes le forcent. Pour les intégrateurs industriels et les décideurs B2B, cela signifie que la prochaine génération de robots manipulateurs ne sera pas entraînée dans des simulateurs mais sur des flux de travail humains réels, ce qui redéfinit les exigences en matière de collecte de données et de gouvernance des contenus vidéo. DeepMotor s'inscrit dans un écosystème robotique chinois en forte accélération, concurrent direct d'Unitree, d'Agibot et des branches robotique de Baidu et Tencent, mais avec une orientation plus fondamentale sur la couche de données brutes plutôt que sur le hardware. La startup a devancé d'environ un an le consensus industriel mondial sur l'approche egocentric data, ce qui lui confère une position de référence potentielle si elle parvient à publier ses propres scaling laws ou à ouvrir un dataset. Les prochaines étapes probables incluent la publication de résultats comparatifs et des partenariats avec des fabricants de robots humanoides pour valider le transfert de politique sur des plateformes tiers. La source originale (Waves/暗涌) reste un media chinois spécialisé, et les chiffres de levée ne sont pas précisément détaillés.

UELe basculement de l'industrie vers les données vidéo égocentristes comme signal d'entraînement de référence redéfinira les exigences de collecte de données et de gouvernance vidéo pour les intégrateurs et fabricants de robots européens, sans acteur français ou européen directement impliqué à ce stade.

Chine/AsieOpinion
1 source
Du chaos à l'ordre : révolution de la fourniture de données et structuration des compétences pour l'IA incarnée
236Kr 

Du chaos à l'ordre : révolution de la fourniture de données et structuration des compétences pour l'IA incarnée

Lors de la conférence AI+ Industry 2026 de Beijing Yizhuang, Xu Liangwei, CTO et cofondateur de Zhiyu Jishi (智域基石), a exposé un pipeline de compilation de données en cinq couches destiné à l'intelligence incarnée (embodied AI). Son argument central: la loi de mise à l'échelle (Scaling Law) qui sous-tend les grands modèles de langage ne se transfère pas aux robots. Un LLM peut absorber des textes hétérogènes en masse, mais un robot opérant dans le monde physique nécessite des données multimodales couplées dans le temps et dans l'espace, où qualité et traçabilité priment sur le volume brut. Le pipeline de Zhiyu Jishi comprend cinq étapes séquentielles: contrôle qualité des données brutes, alignement spatio-temporel, extraction sémantique et causale (séquence contexte-action-conséquence), traitement à grande échelle avec indexation multi-dimensionnelle, et livraison aux équipes de modèles. Xu Liangwei précise que ce pipeline s'applique indifféremment aux architectures VLA (Vision-Language-Action, apprentissage par imitation) et aux world models, les deux paradigmes convergeant vers le même besoin: des données physiques structurées et tracées. L'enjeu concret pour les intégrateurs et les équipes de modèles est la traçabilité des défaillances terrain. En 2026, certains robots commencent à passer de pilotes laboratoire à des déploiements industriels en petit lot, et les équipes peinent à relier un comportement anormal à un sample d'entraînement défaillant. Xu Liangwei précise que les modèles fixent le plafond de capacité d'un robot, mais que la qualité des données dans les cas d'échec, de reprise et de retry conditionne la fiabilité en environnement dégradé. Sans cette traçabilité bout en bout, la boucle fermée données-modèle-terrain-données ne peut pas converger à l'échelle industrielle, rendant impossible le passage du petit lot à la production réelle. Zhiyu Jishi se positionne dans une niche émergente, les "data foundry" pour l'embodied AI, distincte des services de labeling classiques par la dimension temporelle et multimodale des données robotiques. Le discours de Xu Liangwei s'oppose implicitement au modèle fragmenté actuel, où fabricants de plateformes matérielles, développeurs de modèles et intégrateurs industriels produisent chacun leurs données en silo. Sa proposition est de structurer un écosystème à trois acteurs avec une séparation claire des responsabilités, comparable à une couche d'infrastructure partagée. La présentation ne comporte aucun chiffre de déploiement vérifiable ni de client cité, ce qui la positionne davantage comme une communication de positionnement stratégique que comme un bilan d'exécution. La suite annoncée est l'ouverture de ce pipeline à l'ensemble de l'écosystème robotique chinois, sans calendrier précis communiqué.

Chine/AsieOpinion
1 source
DeepCybo : une startup pékinoise mise sur les données humaines en première personne pour développer une AGI incarnée
3Pandaily 

DeepCybo : une startup pékinoise mise sur les données humaines en première personne pour développer une AGI incarnée

DeepCybo, startup pékinoise fondée début 2025 par Chen Kai, parie sur la vidéo humaine à la première personne comme substrat d'entraînement pour l'intelligence incarnée (embodied AGI). L'approche consiste à collecter des flux vidéo authentiques captés du point de vue d'opérateurs humains, plutôt que de s'appuyer sur la simulation ou les démonstrations téléopérées. La société a levé plusieurs centaines de millions de RMB et accélère actuellement sa collecte de données pour valider l'approche à l'échelle. Pendant ce temps, le marché mondial a convergé vers une thèse similaire : en mai 2025, Tesla a annoncé réorienter l'entraînement d'Optimus vers des données vidéo humaines ; en juin 2025, GeneralistAI a présenté un système d'apprentissage imitatif validé par 270 000 heures de données collectées en conditions réelles. FigureAI a annoncé des partenariats avec des groupes immobiliers commerciaux pour instrumenter des opérateurs humains. En février 2026, NVIDIA a publié EgoScale, un modèle pré-entraîné sur 20 000 heures de vidéo egocentriques pour la manipulation dextère. La convergence de ces annonces en moins d'un an pointe vers une même conclusion : le sim-to-real gap reste difficile à combler via la simulation seule, et les données synthétiques ne généralisent pas suffisamment aux environnements non structurés. Pour les intégrateurs industriels et les équipes R&D, cela redéfinit l'actif stratégique central : la volumétrie et la qualité des données egocentriques comptent autant que l'architecture du modèle. La course à l'embodied AI ne se joue plus uniquement sur les paramètres du réseau, mais sur la capacité à instrumenter des humains à grande échelle, ce qui soulève des questions pratiques de coût de collecte, d'annotation et de diversité des scénarios. DeepCybo évolue dans un écosystème chinois de la robotique humanoïde très compétitif, face à des acteurs comme Unitree, Agibot ou Zhiyuan Robotics, mais avec un positionnement centré sur l'IA plutôt que sur le hardware. À noter que l'article source utilise indifféremment les noms "DeepCybo" et "DeepMotor" sans distinction claire, ce qui suggère soit un changement de nom récent, soit une imprécision éditoriale. La principale inconnue reste le transfert effectif entre données humaines et performance robotique réelle en production : ni GeneralistAI ni NVIDIA n'ont encore démontré ce gap comblé à l'échelle commerciale, et DeepCybo, malgré une levée conséquente, n'a pas publié de résultats quantitatifs indépendants à ce stade.

Chine/AsieOpinion
1 source
SenseTime ouvre un commerce de proximité en IA incarnée avec des robots humanoïdes à Shanghai
4Pandaily 

SenseTime ouvre un commerce de proximité en IA incarnée avec des robots humanoïdes à Shanghai

SenseTime, l'un des principaux groupes d'intelligence artificielle en Chine, a inauguré en mai 2026 à Shanghai un point de vente de détail entièrement opéré par des robots humanoïdes. La boutique, baptisée "Shaomai Gou" (烧卖购), est installée dans le site touristique Baoshan Riverside Scenic Area. Le protocole client est simple : scanner un QR code pour passer commande depuis son téléphone, puis recevoir le produit directement des mains du robot. Au-delà de la préparation des commandes, les robots seraient capables d'assurer la sélection des références, la tarification et l'analyse des données de réapprovisionnement des stocks. Le magasin a attiré des files d'attente spontanées lors du week-end du 1er mai. Aucun modèle de robot n'est identifié dans l'annonce officielle, et SenseTime ne publie pas de métriques opérationnelles (temps de cycle, taux de succès des saisies, volume de transactions). Ce déploiement est significatif parce qu'il sort les robots humanoïdes du contexte industriel contrôlé pour les placer face à des consommateurs non formés, dans un environnement ouvert et non structuré. La manipulation de produits variés, la gestion des interactions client et le réassort en rayon constituent des tâches difficiles pour un système robotique généraliste. Cela dit, l'absence de données techniques publiées invite à la prudence : l'initiative ressemble davantage à un déploiement pilote à forte valeur marketing qu'à une preuve de passage à l'échelle industrielle. Ce que cela valide en revanche, c'est l'existence d'une voie commerciale pour l'embodied AI dans les services de proximité à forte fréquentation, un segment jusqu'ici dominé par des kiosques automatisés passifs. SenseTime a bâti sa réputation initiale sur la vision par ordinateur et la reconnaissance faciale avant de pivoter vers l'IA incarnée, combinant vision robotique, compréhension du langage naturel et manipulation physique. En Chine, la société fait face à la concurrence de Unitree Robotics, Fourier Intelligence et UBTECH sur le segment humanoïde ; à l'international, les références du secteur restent Figure AI avec le robot 03, Physical Intelligence avec Pi-0 et Boston Dynamics. La prochaine étape logique pour SenseTime sera d'étendre "Shaomai Gou" à d'autres sites et de publier des données de performance qui permettraient de distinguer la démonstration du déploiement opérationnel réel.

Chine/AsieActu
1 source