Chine/AsiePandaily6sem

GigaAI dévoile son système « Dual Pyramid » d'IA générale physique pour surmonter le mur du passage à l'échelle de l'IA incarnée

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Le 20 mai 2026, lors d'un événement de lancement dans l'Optical Valley de Wuhan, la startup chinoise GigaAI a dévoilé ce qu'elle appelle une architecture "Dual Pyramid" pour l'intelligence physique générale. Le système repose sur deux couches parallèles : une couche données qui fusionne dans un seul pipeline d'entraînement des données issues de robots réels (pour la physique de référence), de vidéos internet (pour la diversité situationnelle à grande échelle) et de simulation (pour la couverture synthétique illimitée) ; et une couche algorithmique qui empile des world models et des modèles VLA (Vision-Language-Action) comme piliers complémentaires. En parallèle, GigaAI a lancé SeeLight, une sous-marque dédiée aux environnements domestiques, ainsi que le SeeLight S1, son premier robot humanoïde polyvalent pour la maison. Une flotte de 100 unités est déjà déployée dans des foyers réels à Wuhan, avec un passage en opérations à grande échelle prévu pour le troisième trimestre 2026. La feuille de route sur 12 mois prévoit trois releases successives de modèles de base, GigaBrain-1, GigaBrain-2 et GigaBrain-3, que la société positionne comme l'équivalent du "moment GPT-3" pour la robotique physique généraliste.

L'enjeu stratégique de cette annonce dépasse la présentation d'un nouveau robot : GigaAI s'attaque frontalement au débat qui structure le champ depuis deux ans. Le camp des world models, représenté par NVIDIA Cosmos et Google Genie, défend l'idée que des modèles vidéo génératifs peuvent fournir de la donnée d'entraînement à l'échelle industrielle. Le camp des modèles d'action, incarné par Physical Intelligence avec sa série pi-0 et les chercheurs en Diffusion Policy, argue que seules les données collectées sur robots réels permettent de généraliser les compétences de manipulation. En proposant une architecture hybride qui refuse ce choix binaire, GigaAI parie que world models et VLA ne sont pas concurrents mais codépendants. Si le déploiement des 100 unités en conditions réelles se confirme au-delà des vidéos de démonstration sélectionnées, cela constituerait une preuve sérieuse du sim-to-real scaling sur des tâches domestiques non structurées. La revendication d'un "GPT-3 moment" reste un signal marketing à surveiller avec prudence, mais l'architecture elle-même est techniquement cohérente avec les travaux récents sur les données hybrides.

GigaAI s'inscrit dans une vague de startups chinoises en robotique humanoïde qui ont accéléré leurs sorties produit depuis 2024, en réponse directe aux annonces d'Agility Robotics (Digit), Figure (Figure 02), et Tesla (Optimus Gen 2). L'Optical Valley de Wuhan est devenu un pôle de référence pour la robotique en Chine, au même titre que Shenzhen pour le hardware grand public. La prochaine étape observable sera la publication de métriques de performance des unités SeeLight S1 dans des conditions d'utilisation domestique réelle, ainsi que le lancement de GigaBrain-1 selon le calendrier annoncé. Aucun acteur européen n'est directement impliqué dans cette annonce, mais les intégrateurs industriels et les décideurs robotique suivront de près la montée en échelle du Q3 2026 comme premier test de vérité.

Impact France/UE

La montée en échelle du SeeLight S1 prévue en Q3 2026 constituera un indicateur de compétitivité chinoise en robotique domestique que les acteurs industriels et décideurs européens devront intégrer dans leur veille stratégique.

Dans nos dossiers

Figure Tesla Optimus Agility Robotics — Digit IA physique & VLA

À lire aussi

1Pandaily

DeepMotor : une startup de Pékin mise sur les données en première personne pour une IA incarnée générale

DeepMotor, une startup pékinoise fondée par Chen Kai au début 2025, développe une approche d'intelligence artificielle incarnée (embodied AGI) basée sur l'entraînement à partir de vidéos en première personne capturées par des humains. Au lancement, la thèse de l'entreprise n'a convaincu ni les investisseurs domestiques ni la majorité du secteur : pourquoi parier sur une méthode que même les géants américains n'avaient pas encore validée ? La startup a levé plusieurs centaines de millions de RMB et poursuit aujourd'hui un déploiement accéléré. La chronologie des validations industrielles donne la mesure de son avance : en mai 2025, Tesla a annoncé réorienter l'entraînement d'Optimus vers des données vidéo humaines. En juin 2025, GeneralistAI a présenté une démo d'apprentissage imitatif robotique, puis a confirmé les lois de mise à l'échelle avec 270 000 heures de données humaines réelles collectées sur le terrain. FigureAI a de son côté annoncé des partenariats avec des opérateurs immobiliers commerciaux pour collecter des flux en première personne. En février 2026, NVIDIA a publié EgoScale, un modèle pré-entraîné sur 20 000 heures de vidéo première personne destiné à la manipulation dextre. L'importance de cette séquence dépasse le simple calendrier. Elle valide l'hypothèse centrale de DeepMotor : la vidéo en vue égocentrique est le signal d'apprentissage le plus dense pour combler le sim-to-real gap en robotique généraliste. Chaque acteur majeur converge vers cette approche non par choix idéologique, mais parce que les benchmarks internes le forcent. Pour les intégrateurs industriels et les décideurs B2B, cela signifie que la prochaine génération de robots manipulateurs ne sera pas entraînée dans des simulateurs mais sur des flux de travail humains réels, ce qui redéfinit les exigences en matière de collecte de données et de gouvernance des contenus vidéo. DeepMotor s'inscrit dans un écosystème robotique chinois en forte accélération, concurrent direct d'Unitree, d'Agibot et des branches robotique de Baidu et Tencent, mais avec une orientation plus fondamentale sur la couche de données brutes plutôt que sur le hardware. La startup a devancé d'environ un an le consensus industriel mondial sur l'approche egocentric data, ce qui lui confère une position de référence potentielle si elle parvient à publier ses propres scaling laws ou à ouvrir un dataset. Les prochaines étapes probables incluent la publication de résultats comparatifs et des partenariats avec des fabricants de robots humanoides pour valider le transfert de politique sur des plateformes tiers. La source originale (Waves/暗涌) reste un media chinois spécialisé, et les chiffres de levée ne sont pas précisément détaillés.

UELe basculement de l'industrie vers les données vidéo égocentristes comme signal d'entraînement de référence redéfinira les exigences de collecte de données et de gouvernance vidéo pour les intégrateurs et fabricants de robots européens, sans acteur français ou européen directement impliqué à ce stade.

Chine/AsieOpinion

1 source

236Kr

IA à l'échelle urbaine : du pilote à la généralisation, robots en conditions réelles et passage à l'échelle

Coowa Technology, fondée en 2015 à Shanghai et dont le siège social est à Pékin, a présenté lors de la conférence AI+ Industry de Yizhuang en mai 2026 un bilan opérationnel chiffré: 55 millions de kilomètres réels parcourus, déploiement dans plus de 50 villes chinoises, et 10 millions de clips vidéo-sémantique-action alignés collectés. La gamme commercialisée comprend des robots d'assainissement urbain de 1 et 3 tonnes, le minibus autonome Coobus (déployé dans une dizaine de villes à l'échelle mondiale, dont prochainement Yizhuang), le robot de gestion immobilière Wall-E R0, et des robots-chiens quadrupèdes pour la livraison du dernier kilomètre, capables d'assurer des livraisons en moins de 30 minutes dans un rayon de 3 km sans modification des ascenseurs ni de l'infrastructure existante. Li Kehong, COO et co-fondateur, a indiqué une rentabilité annuelle de "plusieurs centaines de millions de yuans". L'argument central de la présentation porte sur la donnée comme avantage concurrentiel structurel: dans l'IA incarnée (embodied AI), le goulot d'étranglement n'est pas algorithmique mais datalogique. Coowa y répond avec une stratégie où les revenus d'exploitation financent directement l'itération du modèle CooWAIM (World-Action Interactive Model), une architecture duale combinant inférence temps réel en bordure de réseau pour la sécurité immédiate et planification sémantique longue portée pour la navigation globale. L'approche "Drive+Work", qui fusionne mobilité et manipulation dans un espace d'action indissociable, s'écarte du paradigme modulaire dominant dans la robotique de service. Les chiffres d'exploitation donnent une mesure concrète: aux heures de pointe, les robots traitent en temps réel plus de 100 caractéristiques dynamiques par intersection (piétons, véhicules non motorisés); un gain de 20% sur le temps de traversée équivaut selon Coowa à une hausse de 20% de la marge brute, argument directement actionnable pour un décideur B2B ou un intégrateur. Fondée sur la base académique de l'Université Jiaotong de Shanghai, Coowa opère depuis dix ans dans les environnements urbains ouverts chinois, accumulant une antériorité opérationnelle que peu de concurrents peuvent revendiquer à cette échelle commerciale. Waymo, issu du laboratoire Google X après plus d'une décennie de développement, et Tesla, qui s'appuie sur sa flotte de plusieurs millions de véhicules pour constituer ses données d'entraînement, progressent en robotaxi sur un périmètre distinct; les acteurs de la robotique humanoïde comme Figure, Agility Robotics ou 1X Technologies demeurent majoritairement en phase de pilote industriel. Coowa anticipe l'ouverture réglementaire de marchés étrangers en positionnant en priorité ses produits dans les pays de l'initiative "Ceinture et Route". Les prochaines étapes concernent la montée en puissance de la livraison instantanée à court terme et, à horizon plus long, l'entrée dans les environnements domestiques fermés, segment le plus complexe techniquement mais potentiellement le plus générateur de données d'entraînement inédites.

Chine/AsieActu

1 source

336Kr

SenseTime mise sur les caméras spatiales grand public pour collecter des données réelles destinées à l'IA incarnée

Zhuma Innovation (竹马创新), startup chinoise fondée en novembre 2025, vient de boucler un tour Angel+ de plusieurs dizaines de millions de yuans mené par SenseTime Guoxiang Capital, le bras d'investissement de SenseTime, avec la participation de Dinghui VGC et Fengru Capital. Les fonds serviront au développement produit, à la préparation de la production en série et à l'expansion internationale. La société développe Pebble, une caméra autonome grand public intégrant le rendu 3D Gaussian Splatting (3DGS), la fusion multi-capteurs et une interface AI-native, conçue pour capturer une scène tridimensionnelle aussi simplement qu'une vidéo ordinaire. Le produit est encore en phase de R&D et n'a pas atteint la production industrielle. L'intérêt stratégique de Zhuma dépasse le marché de la caméra 3D : la société se positionne comme infrastructure de données pour l'IA incarnée (embodied AI). Les modèles VLA (Vision-Language-Action) pilotant la prochaine génération de robots humanoïdes sont aujourd'hui majoritairement entraînés sur des données de téléopération, une méthode coûteuse et difficile à scaler. Le consensus qui émerge dans la recherche est que des vidéos en première personne, des données de capteurs spatiaux et des séquences comportementales en environnement réel constitueront la prochaine source dominante d'entraînement. Zhuma propose des données photoréalistes dotées de structure 3D, de sémantique et d'échelle physique correcte, directement utilisables pour construire des world models ou affiner la perception spatiale en simulation, réduisant ainsi la dépendance aux environnements synthétiques dont le réalisme reste limité. La société est cofondée par Zhang Ji, ancien vice-président de Kujiale (plateforme de design d'intérieur à grande échelle en Chine), et dirigée scientifiquement par Guo Jie, maître de conférences permanent à l'Université de Nanjing et spécialiste reconnu du 3DGS. La technologie 3DGS, popularisée depuis 2023, reconstruit des scènes 3D photoréalistes à partir de vidéos ordinaires, avec des performances supérieures au NeRF sur les temps de rendu. L'entrée de SenseTime comme investisseur principal apporte des ressources algorithmiques complémentaires aux capacités matérielles de Zhuma. Le marché reste largement ouvert : les acteurs industriels du lidar et des scanners haute précision n'ont pas encore attaqué le segment consommateur. Les investisseurs positionnent explicitement Zhuma comme un potentiel Insta360 de la caméra spatiale, une marque capable de définir une catégorie hardware avant que le marché ne se structure.

Chine/AsieOpinion

1 source

4Pandaily

Zhongke Diwuji lève des centaines de millions en série A pour déployer ses modèles d'IA incarnée à grande échelle

Zhongke Diwuji, entreprise chinoise spécialisée dans l'intelligence incarnée (embodied AI), a bouclé une levée de fonds de Série A d'un montant de plusieurs centaines de millions de yuans, annoncée en 2026. Le tour a été mené par Futi Capital, avec la participation de Shanghai Semiconductor Industry Investment, CAS Investment, China Venture Capital et Hongruida Technology. L'investisseur historique Zoyuan Asia a choisi d'augmenter significativement sa participation. Il s'agit du troisième tour de financement réalisé par la société dans la seule année 2026. Les fonds seront alloués au développement de la série FAM (few-shot large model), au modèle monde incarné de prochaine génération BridgeV2W, à l'industrialisation des algorithmes d'apprentissage par renforcement, à l'extension des capacités de production robotique et au recrutement d'ingénieurs de haut niveau. La société affirme avoir sécurisé plusieurs centaines de millions de yuans de commandes auprès de clients entreprises internationaux, bien que leurs noms n'aient pas été communiqués. Trois levées en moins de douze mois pour une entreprise fondée en septembre 2024 constituent un signal d'intérêt institutionnel inhabituellement fort. Ce qui distingue Zhongke Diwuji de ses concurrents n'est pas la plateforme matérielle mais la couche d'apprentissage : son approche par few-shot learning permet à un système robotique d'acquérir de nouvelles capacités de manipulation à partir d'un nombre minimal d'exemples, sans les volumineuses campagnes de collecte de données qui alourdissent traditionnellement le coût d'adaptation à de nouvelles tâches industrielles. C'est précisément ce goulot d'étranglement économique qui freine les déploiements à grande échelle, et une solution crédible à ce problème justifie des valorisations élevées. L'obtention de commandes fermes de clients industriels internationaux, et non de simples lettres d'intention, indique que la technologie a franchi la frontière entre démonstration en laboratoire et valeur terrain vérifiable, même si l'absence de noms de clients invite à une certaine prudence. Fondée en septembre 2024, Zhongke Diwuji s'est positionnée dès l'origine comme un acteur de modèles fondationnels physiques universels, à mi-chemin entre startup robotique et laboratoire de recherche en IA. En 2026, le secteur chinois de la robotique incarnée est entré dans une phase de déploiement commercial à l'échelle, avec des concurrents directs comme Unitree Robotics, AgiBot et Fourier Intelligence en compétition sur les mêmes segments industriels. La présence remarquée de Zhongke Diwuji lors de salons professionnels européens et ses commandes internationales annoncées témoignent d'une ambition d'expansion explicite au-delà du marché domestique. Les prochaines étapes identifiées incluent la mise en production de BridgeV2W et l'intégration du reinforcement learning dans des déploiements clients réels, deux jalons qui permettront de vérifier si la promesse du few-shot tient effectivement à l'échelle industrielle.

UELa présence de Zhongke Diwuji lors de salons professionnels européens et ses commandes internationales annoncées signalent une ambition d'expansion vers l'UE qui pourrait accroître la pression concurrentielle sur les acteurs européens de la robotique industrielle et de l'IA physique.

Chine/AsieOpinion

1 source