Aller au contenu principal
Fortsense développe des caméras spatiales RGBD monocomposant pour la perception de l'IA physique
Chine/AsiePandaily2h

Fortsense développe des caméras spatiales RGBD monocomposant pour la perception de l'IA physique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Fortsense Technologies, startup chinoise spécialisée dans la conception de puces pour la vision 3D, développe des caméras spatiales RGBD mono-puce destinées à la perception des systèmes d'IA physique. La société affirme être la seule entreprise en Chine à maîtriser la chaîne complète SPAD (Single-Photon Avalanche Diode), de la conception du composant à la production en série au niveau automotive. Sa technologie de balayage optique omnidirectionnel atteint 80 % d'efficacité d'utilisation laser, permettant un LiDAR solid-state longue portée de 200 mètres à coût réduit. Depuis le démarrage en série au quatrième trimestre 2025, plusieurs dizaines de milliers de puces SPAD-SoC ont été livrées, avec Zeekr (modèle 9X) parmi les premiers clients identifiés. La feuille de route prévoit une transition d'une architecture bi-puce vers une intégration mono-puce d'ici 2027, fusionnant imagerie RGB et mesure dToF (direct Time-of-Flight) dans un seul composant. La résolution actuelle de 300 000 à 400 000 pixels pour les applications robotiques doit progresser vers des solutions 4 mégapixels automotive à la même échéance.

L'enjeu est fondamentalement architectural : les caméras 2D classiques infèrent la profondeur de façon probabiliste, méthode que le président Mo Lianghua juge insuffisante pour des applications où une erreur de perception unique peut avoir des conséquences critiques, qu'il s'agisse de conduite autonome ou de navigation robotique en environnement partagé. Une puce RGBD mono-puce fusionnerait nativement couleur et profondeur, réduisant latence, coût et empreinte matérielle par rapport aux configurations actuelles combinant une caméra RGB et un LiDAR séparés. Pour les intégrateurs de robots humanoïdes, de systèmes cobots ou d'ADAS, cela représenterait une simplification concrète des pipelines de fusion de capteurs. La production effective depuis fin 2025 distingue cette annonce d'un simple prototype de laboratoire, bien que les volumes restent contenus à l'échelle de l'industrie automobile.

Fortsense s'inscrit dans un marché de la perception 3D déjà dense, où Luminar, Hesai, Robosense et Innoviz dominent le segment LiDAR, tandis que STMicroelectronics, Sony et OmniVision tiennent le segment imagerie. La différenciation revendiquée repose sur l'intégration verticale de la puce SPAD et un brevet de scanning omnidirectionnel exclusif. En Chine, les politiques d'approvisionnement local et les restrictions à l'export sur les composants américains créent une fenêtre d'opportunité structurelle pour des fournisseurs nationaux comme Fortsense. Les prochaines étapes annoncées incluent les solutions 4MP automotive et l'intégration mono-puce complète, toutes deux visées pour 2027. Aucun acteur européen n'est impliqué dans cette annonce, mais la dynamique illustre l'accélération de l'écosystème chinois dans les composants de perception critiques, un segment qu'adressent également des acteurs comme Prophesee (France, vision événementielle) avec des approches technologiques distinctes.

Impact France/UE

L'accélération de l'écosystème chinois dans les composants de perception RGBD constitue une pression compétitive indirecte sur des acteurs européens du segment comme Prophesee (France, vision événementielle), sans impact direct immédiat.

Dans nos dossiers

À lire aussi

De la perception de l'environnement à la transformation du monde : opportunités, voies et pratiques de l'IA physique
136Kr 

De la perception de l'environnement à la transformation du monde : opportunités, voies et pratiques de l'IA physique

À la conférence AI+ de Beijing Yizhuang en mai 2026, Chen Long, directeur technique "foundation models" de Jiangxing Intelligence (江行智能), a présenté l'architecture d'IA physique industrielle JX-Phi, déjà déployée dans des centrales photovoltaïques et des réseaux électriques au Guizhou et en Mongolie intérieure. Le système couvre plus de 1 000 stations d'inspection avec une précision algorithmique annoncée à 99 %. L'architecture se décompose en trois couches : une infrastructure de données (JX-Phi World), un modèle central en cours d'évolution vers un World Action Model (JX-Phi Brain, intégrant des modèles Vision-Language-Action longue durée, dits LT-VLA), et une couche applicative (JX-Phi Agent) qui orchestre drones, chiens robotiques, robots à roues et bras mécaniques via un contrôleur global de 100 milliards de paramètres. Indicateur structurant : une simple tâche d'inspection d'équipement se décompose en 100 à 200 sous-tâches dans un contexte industriel, contre quelques dizaines en usage grand public. Ce chiffre illustre une bascule dans la compétition autour de l'IA : l'enjeu n'est plus le nombre de paramètres des modèles de base, mais la capacité à déployer des systèmes stables et contrôlés dans des environnements physiques contraignants. La densité des scénarios industriels chinois constitue un avantage structurel difficile à répliquer : le parc de robots industriels installés en Chine représente 8,6 fois celui des États-Unis et a crû d'un facteur 12 en dix ans, alimentant un volant de données continu sans équivalent mondial. L'approche sim-to-real de Jiangxing repose sur un moteur de simulation 3D génératif (AutoWorld) qui produit des scénarios rares, pannes atypiques ou conditions météo extrêmes, avant tout déploiement terrain, réduisant significativement les risques dans des secteurs où l'erreur en conditions réelles n'est pas tolérable, comme l'énergie ou la pétrochimie. Jiangxing capitalise sur cinq couches d'infrastructure que la Chine a constituées : densité de scénarios industriels, modèles open source compétitifs (DeepSeek, Qwen, Kimi) en rattrapage rapide sur les niveaux de performance mondiaux, 4,48 millions de stations 5G représentant plus de 60 % du parc mondial, capacité électrique environ deux fois supérieure à celle des États-Unis, et une co-optimisation logiciel-matériel stimulée en partie par les restrictions d'accès aux puces d'entraînement haut de gamme. Sur le plan concurrentiel, la société se positionne comme fournisseur de système complet face à des acteurs comme Unitree ou Boston Dynamics côté plateformes robotiques, et Physical Intelligence (Pi-0) côté modèles généralistes. Les prochaines étapes visent une extension aux secteurs minier et chimique, où la criticité des tâches et la rareté des données d'incidents justifient précisément l'approche simulation-to-real développée par la société.

UELes avantages structurels de la Chine en IA physique industrielle (parc robotique 8,6x supérieur aux États-Unis, 60 % des stations 5G mondiales, capacité électrique double) représentent un écart compétitif croissant que les industriels européens devront intégrer dans leur stratégie d'automatisation à horizon 5 ans.

Chine/AsieOpinion
1 source
SenseTime mise sur les caméras spatiales grand public pour collecter des données réelles destinées à l'IA incarnée
236Kr 

SenseTime mise sur les caméras spatiales grand public pour collecter des données réelles destinées à l'IA incarnée

Zhuma Innovation (竹马创新), startup chinoise fondée en novembre 2025, vient de boucler un tour Angel+ de plusieurs dizaines de millions de yuans mené par SenseTime Guoxiang Capital, le bras d'investissement de SenseTime, avec la participation de Dinghui VGC et Fengru Capital. Les fonds serviront au développement produit, à la préparation de la production en série et à l'expansion internationale. La société développe Pebble, une caméra autonome grand public intégrant le rendu 3D Gaussian Splatting (3DGS), la fusion multi-capteurs et une interface AI-native, conçue pour capturer une scène tridimensionnelle aussi simplement qu'une vidéo ordinaire. Le produit est encore en phase de R&D et n'a pas atteint la production industrielle. L'intérêt stratégique de Zhuma dépasse le marché de la caméra 3D : la société se positionne comme infrastructure de données pour l'IA incarnée (embodied AI). Les modèles VLA (Vision-Language-Action) pilotant la prochaine génération de robots humanoïdes sont aujourd'hui majoritairement entraînés sur des données de téléopération, une méthode coûteuse et difficile à scaler. Le consensus qui émerge dans la recherche est que des vidéos en première personne, des données de capteurs spatiaux et des séquences comportementales en environnement réel constitueront la prochaine source dominante d'entraînement. Zhuma propose des données photoréalistes dotées de structure 3D, de sémantique et d'échelle physique correcte, directement utilisables pour construire des world models ou affiner la perception spatiale en simulation, réduisant ainsi la dépendance aux environnements synthétiques dont le réalisme reste limité. La société est cofondée par Zhang Ji, ancien vice-président de Kujiale (plateforme de design d'intérieur à grande échelle en Chine), et dirigée scientifiquement par Guo Jie, maître de conférences permanent à l'Université de Nanjing et spécialiste reconnu du 3DGS. La technologie 3DGS, popularisée depuis 2023, reconstruit des scènes 3D photoréalistes à partir de vidéos ordinaires, avec des performances supérieures au NeRF sur les temps de rendu. L'entrée de SenseTime comme investisseur principal apporte des ressources algorithmiques complémentaires aux capacités matérielles de Zhuma. Le marché reste largement ouvert : les acteurs industriels du lidar et des scanners haute précision n'ont pas encore attaqué le segment consommateur. Les investisseurs positionnent explicitement Zhuma comme un potentiel Insta360 de la caméra spatiale, une marque capable de définir une catégorie hardware avant que le marché ne se structure.

Chine/AsieOpinion
1 source
Linkhou lève des dizaines de millions de dollars pour développer sa production de composants robotiques
3Pandaily 

Linkhou lève des dizaines de millions de dollars pour développer sa production de composants robotiques

Linkhou, fabricant chinois de composants pour la robotique avancée, a annoncé fin avril 2026 la clôture d'un tour de financement Series B+, d'un montant de plusieurs centaines de millions de yuans (soit plusieurs dizaines de millions de dollars), mené par le China Internet Investment Fund avec la participation de plusieurs investisseurs historiques. Fondée en 2015 à Suzhou par Dong Hao, ancien de Bozhon Precision, la société produit des briques matérielles critiques pour la robotique incarnée : modules de vision, châssis mobiles et bras robotiques humanoïdes. Linkhou revendique avoir soutenu des déploiements de robots incarnés à l'échelle de 10 000 unités, un seuil rarement atteint dans le secteur. Son outil industriel comprend deux bases de production à Suzhou et Jiaxing, dont un site principal ayant mobilisé 1 milliard de yuans (environ 140 millions de dollars) d'investissement total, dimensionné pour produire annuellement 850 000 modules de vision, 450 000 unités de contrôle du mouvement et 80 000 robots complets. Les fonds levés seront alloués à la R&D, à l'extension des capacités de production et au développement international. Ce financement illustre un pivot stratégique dans la course humanoïde chinoise : plutôt que de financer un nouveau constructeur de robots complets, le marché capitalise sur les équipementiers de niveau 2, ceux qui fournissent les sous-systèmes sensoriels et mécaniques à l'ensemble de l'écosystème. Pour un intégrateur ou un COO industriel, c'est un signal que la chaîne d'approvisionnement en composants robotiques à haute cadence commence à se structurer en Chine, réduisant la dépendance aux importations japonaises ou européennes pour les actionneurs et capteurs. L'affirmation d'un déploiement à 10 000 unités mérite toutefois d'être nuancée : le communiqué ne précise ni les clients, ni les environnements de déploiement, ni si ce chiffre correspond à des unités en opération réelle ou livrées sur stock. Linkhou s'inscrit dans une vague de spécialistes de composants embarqués qui émergent en Chine aux côtés des constructeurs humanoïdes comme Unitree, Agibot ou UBTECH. Son positionnement en fournisseur multi-client de modules de vision et de contrôle du mouvement le place en concurrence indirecte avec des acteurs comme Hikrobot pour la vision industrielle et Leaderdrive pour les actionneurs. Le soutien du China Internet Investment Fund, fonds d'État rattaché à la Cyberspace Administration of China, donne à ce tour une dimension stratégique au-delà du pur rendement financier, dans un contexte où Pékin pousse activement à l'industrialisation de la robotique incarnée comme axe de compétitivité nationale. Les prochaines étapes annoncées incluent une expansion sur les marchés internationaux, sans précision de calendrier ni de géographies cibles.

UELa structuration rapide de la chaîne d'approvisionnement chinoise en composants robotiques haute cadence (modules de vision, actionneurs) accroît la pression concurrentielle sur les équipementiers européens et japonais, potentiellement au détriment de leurs parts de marché dans l'écosystème robotique mondial.

Chine/AsieOpinion
1 source
Un cerveau unique pour tout gérer : la Chine développe un modèle d'IA unifié pour la robotique multi-tâches complexe
4Interesting Engineering 

Un cerveau unique pour tout gérer : la Chine développe un modèle d'IA unifié pour la robotique multi-tâches complexe

La société chinoise ShengShu Technology a présenté Motubrain, un modèle d'IA unifié conçu pour servir de cerveau généraliste aux robots, intégrant perception, raisonnement, prédiction et action dans un seul système. Le modèle affiche un score de 63,77 sur le benchmark WorldArena et une moyenne de 96,0 sur 50 tâches du benchmark RoboTwin 2.0, ce qui en ferait à ce jour le seul modèle à dépasser 95,0 dans des environnements aléatoires. Contrairement aux architectures modulaires classiques qui séparent la perception, la planification et l'exécution en composants distincts, Motubrain traite simultanément flux vidéo, instructions en langage naturel et séquences d'actions via une architecture Mixture-of-Transformers à trois flux. Le modèle est capable d'enchaîner jusqu'à 10 actions atomiques par séquence, contre 2 à 3 pour la plupart des systèmes actuels. L'entraînement repose sur un mélange de vidéos non annotées, de données de simulation et d'enregistrements multi-robots, avec un framework d'actions latentes qui extrait les schémas de mouvement directement depuis ces entrées, réduisant la dépendance aux jeux de données labellisés. ShengShu indique que le modèle est déjà utilisé dans des programmes d'entraînement actifs couvrant des environnements industriels, commerciaux et domestiques, avec des partenariats annoncés avec Astribot, SimpleAI et Anyverse Dynamics. L'annonce signale une tentative de rupture avec l'approche dominante en robotique, qui consiste à assembler des modules spécialisés (vision, planification, contrôle) développés séparément. Un modèle unifié capable de gérer en continu la boucle perception-action représente un avantage potentiel pour les intégrateurs industriels : moins de friction entre sous-systèmes, une mise à jour centralisée, et une meilleure capacité d'adaptation à des tâches non vues lors de l'entraînement. Le fait démontré en test interne, selon lequel un robot peut détecter l'échec d'une préhension et réessayer sans avoir été entraîné spécifiquement sur ce scénario, illustre une forme de robustesse comportementale qui reste un défi ouvert pour les systèmes modulaires. Les scores sur RoboTwin 2.0 sont notables, mais les conditions précises du benchmark (variété des tâches, comparabilité entre laboratoires) méritent un regard critique : les résultats en simulation ne se transfèrent pas toujours au déploiement terrain. La capacité à maintenir de meilleures performances que les systèmes concurrents à mesure que la complexité des tâches et le volume de données augmentent suggère un bon passage à l'échelle, point clé pour des déploiements industriels à grande variété. ShengShu Technology s'est d'abord fait connaître via Vidu, sa plateforme de génération vidéo, dont les données à grande échelle alimentent désormais Motubrain pour apprendre la physique du monde réel. Fondée par Jun Zhu, professeur à l'Université Tsinghua, la société a levé 293 millions de dollars en Série B menée par Alibaba Cloud. Sur le marché des modèles cérébraux pour robots polyvalents, elle se positionne face à des acteurs comme Physical Intelligence (Pi-0, San Francisco), NVIDIA avec GR00T N2, et côté chinois, Agibot et Unitree. Le lancement de Motubrain intervient dans un contexte de compétition accélérée autour des modèles VLA (Vision-Language-Action) capables de généralisation multimodale. Les prochaines étapes annoncées incluent l'extension des partenariats industriels et le déploiement sur davantage de plateformes robotiques, sans calendrier précis communiqué.

Chine/AsieActu
1 source