Aller au contenu principal
Chine/AsiePandaily39min

GigaAI dévoile son système « Dual Pyramid » d'IA générale physique pour surmonter le mur du passage à l'échelle de l'IA incarnée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Le 20 mai 2026, lors d'un événement de lancement dans l'Optical Valley de Wuhan, la startup chinoise GigaAI a dévoilé ce qu'elle appelle une architecture "Dual Pyramid" pour l'intelligence physique générale. Le système repose sur deux couches parallèles : une couche données qui fusionne dans un seul pipeline d'entraînement des données issues de robots réels (pour la physique de référence), de vidéos internet (pour la diversité situationnelle à grande échelle) et de simulation (pour la couverture synthétique illimitée) ; et une couche algorithmique qui empile des world models et des modèles VLA (Vision-Language-Action) comme piliers complémentaires. En parallèle, GigaAI a lancé SeeLight, une sous-marque dédiée aux environnements domestiques, ainsi que le SeeLight S1, son premier robot humanoïde polyvalent pour la maison. Une flotte de 100 unités est déjà déployée dans des foyers réels à Wuhan, avec un passage en opérations à grande échelle prévu pour le troisième trimestre 2026. La feuille de route sur 12 mois prévoit trois releases successives de modèles de base, GigaBrain-1, GigaBrain-2 et GigaBrain-3, que la société positionne comme l'équivalent du "moment GPT-3" pour la robotique physique généraliste.

L'enjeu stratégique de cette annonce dépasse la présentation d'un nouveau robot : GigaAI s'attaque frontalement au débat qui structure le champ depuis deux ans. Le camp des world models, représenté par NVIDIA Cosmos et Google Genie, défend l'idée que des modèles vidéo génératifs peuvent fournir de la donnée d'entraînement à l'échelle industrielle. Le camp des modèles d'action, incarné par Physical Intelligence avec sa série pi-0 et les chercheurs en Diffusion Policy, argue que seules les données collectées sur robots réels permettent de généraliser les compétences de manipulation. En proposant une architecture hybride qui refuse ce choix binaire, GigaAI parie que world models et VLA ne sont pas concurrents mais codépendants. Si le déploiement des 100 unités en conditions réelles se confirme au-delà des vidéos de démonstration sélectionnées, cela constituerait une preuve sérieuse du sim-to-real scaling sur des tâches domestiques non structurées. La revendication d'un "GPT-3 moment" reste un signal marketing à surveiller avec prudence, mais l'architecture elle-même est techniquement cohérente avec les travaux récents sur les données hybrides.

GigaAI s'inscrit dans une vague de startups chinoises en robotique humanoïde qui ont accéléré leurs sorties produit depuis 2024, en réponse directe aux annonces d'Agility Robotics (Digit), Figure (Figure 02), et Tesla (Optimus Gen 2). L'Optical Valley de Wuhan est devenu un pôle de référence pour la robotique en Chine, au même titre que Shenzhen pour le hardware grand public. La prochaine étape observable sera la publication de métriques de performance des unités SeeLight S1 dans des conditions d'utilisation domestique réelle, ainsi que le lancement de GigaBrain-1 selon le calendrier annoncé. Aucun acteur européen n'est directement impliqué dans cette annonce, mais les intégrateurs industriels et les décideurs robotique suivront de près la montée en échelle du Q3 2026 comme premier test de vérité.

Impact France/UE

La montée en échelle du SeeLight S1 prévue en Q3 2026 constituera un indicateur de compétitivité chinoise en robotique domestique que les acteurs industriels et décideurs européens devront intégrer dans leur veille stratégique.

À lire aussi

DeepMotor : une startup de Pékin mise sur les données en première personne pour une IA incarnée générale
1Pandaily 

DeepMotor : une startup de Pékin mise sur les données en première personne pour une IA incarnée générale

DeepMotor, une startup pékinoise fondée par Chen Kai au début 2025, développe une approche d'intelligence artificielle incarnée (embodied AGI) basée sur l'entraînement à partir de vidéos en première personne capturées par des humains. Au lancement, la thèse de l'entreprise n'a convaincu ni les investisseurs domestiques ni la majorité du secteur : pourquoi parier sur une méthode que même les géants américains n'avaient pas encore validée ? La startup a levé plusieurs centaines de millions de RMB et poursuit aujourd'hui un déploiement accéléré. La chronologie des validations industrielles donne la mesure de son avance : en mai 2025, Tesla a annoncé réorienter l'entraînement d'Optimus vers des données vidéo humaines. En juin 2025, GeneralistAI a présenté une démo d'apprentissage imitatif robotique, puis a confirmé les lois de mise à l'échelle avec 270 000 heures de données humaines réelles collectées sur le terrain. FigureAI a de son côté annoncé des partenariats avec des opérateurs immobiliers commerciaux pour collecter des flux en première personne. En février 2026, NVIDIA a publié EgoScale, un modèle pré-entraîné sur 20 000 heures de vidéo première personne destiné à la manipulation dextre. L'importance de cette séquence dépasse le simple calendrier. Elle valide l'hypothèse centrale de DeepMotor : la vidéo en vue égocentrique est le signal d'apprentissage le plus dense pour combler le sim-to-real gap en robotique généraliste. Chaque acteur majeur converge vers cette approche non par choix idéologique, mais parce que les benchmarks internes le forcent. Pour les intégrateurs industriels et les décideurs B2B, cela signifie que la prochaine génération de robots manipulateurs ne sera pas entraînée dans des simulateurs mais sur des flux de travail humains réels, ce qui redéfinit les exigences en matière de collecte de données et de gouvernance des contenus vidéo. DeepMotor s'inscrit dans un écosystème robotique chinois en forte accélération, concurrent direct d'Unitree, d'Agibot et des branches robotique de Baidu et Tencent, mais avec une orientation plus fondamentale sur la couche de données brutes plutôt que sur le hardware. La startup a devancé d'environ un an le consensus industriel mondial sur l'approche egocentric data, ce qui lui confère une position de référence potentielle si elle parvient à publier ses propres scaling laws ou à ouvrir un dataset. Les prochaines étapes probables incluent la publication de résultats comparatifs et des partenariats avec des fabricants de robots humanoides pour valider le transfert de politique sur des plateformes tiers. La source originale (Waves/暗涌) reste un media chinois spécialisé, et les chiffres de levée ne sont pas précisément détaillés.

UELe basculement de l'industrie vers les données vidéo égocentristes comme signal d'entraînement de référence redéfinira les exigences de collecte de données et de gouvernance vidéo pour les intégrateurs et fabricants de robots européens, sans acteur français ou européen directement impliqué à ce stade.

Chine/AsieOpinion
1 source
IA à l'échelle urbaine : du pilote à la généralisation, robots en conditions réelles et passage à l'échelle
236Kr 

IA à l'échelle urbaine : du pilote à la généralisation, robots en conditions réelles et passage à l'échelle

Coowa Technology, fondée en 2015 à Shanghai et dont le siège social est à Pékin, a présenté lors de la conférence AI+ Industry de Yizhuang en mai 2026 un bilan opérationnel chiffré: 55 millions de kilomètres réels parcourus, déploiement dans plus de 50 villes chinoises, et 10 millions de clips vidéo-sémantique-action alignés collectés. La gamme commercialisée comprend des robots d'assainissement urbain de 1 et 3 tonnes, le minibus autonome Coobus (déployé dans une dizaine de villes à l'échelle mondiale, dont prochainement Yizhuang), le robot de gestion immobilière Wall-E R0, et des robots-chiens quadrupèdes pour la livraison du dernier kilomètre, capables d'assurer des livraisons en moins de 30 minutes dans un rayon de 3 km sans modification des ascenseurs ni de l'infrastructure existante. Li Kehong, COO et co-fondateur, a indiqué une rentabilité annuelle de "plusieurs centaines de millions de yuans". L'argument central de la présentation porte sur la donnée comme avantage concurrentiel structurel: dans l'IA incarnée (embodied AI), le goulot d'étranglement n'est pas algorithmique mais datalogique. Coowa y répond avec une stratégie où les revenus d'exploitation financent directement l'itération du modèle CooWAIM (World-Action Interactive Model), une architecture duale combinant inférence temps réel en bordure de réseau pour la sécurité immédiate et planification sémantique longue portée pour la navigation globale. L'approche "Drive+Work", qui fusionne mobilité et manipulation dans un espace d'action indissociable, s'écarte du paradigme modulaire dominant dans la robotique de service. Les chiffres d'exploitation donnent une mesure concrète: aux heures de pointe, les robots traitent en temps réel plus de 100 caractéristiques dynamiques par intersection (piétons, véhicules non motorisés); un gain de 20% sur le temps de traversée équivaut selon Coowa à une hausse de 20% de la marge brute, argument directement actionnable pour un décideur B2B ou un intégrateur. Fondée sur la base académique de l'Université Jiaotong de Shanghai, Coowa opère depuis dix ans dans les environnements urbains ouverts chinois, accumulant une antériorité opérationnelle que peu de concurrents peuvent revendiquer à cette échelle commerciale. Waymo, issu du laboratoire Google X après plus d'une décennie de développement, et Tesla, qui s'appuie sur sa flotte de plusieurs millions de véhicules pour constituer ses données d'entraînement, progressent en robotaxi sur un périmètre distinct; les acteurs de la robotique humanoïde comme Figure, Agility Robotics ou 1X Technologies demeurent majoritairement en phase de pilote industriel. Coowa anticipe l'ouverture réglementaire de marchés étrangers en positionnant en priorité ses produits dans les pays de l'initiative "Ceinture et Route". Les prochaines étapes concernent la montée en puissance de la livraison instantanée à court terme et, à horizon plus long, l'entrée dans les environnements domestiques fermés, segment le plus complexe techniquement mais potentiellement le plus générateur de données d'entraînement inédites.

Chine/AsieActu
1 source
336Kr 

SenseTime mise sur les caméras spatiales grand public pour collecter des données réelles destinées à l'IA incarnée

Zhuma Innovation (竹马创新), startup chinoise fondée en novembre 2025, vient de boucler un tour Angel+ de plusieurs dizaines de millions de yuans mené par SenseTime Guoxiang Capital, le bras d'investissement de SenseTime, avec la participation de Dinghui VGC et Fengru Capital. Les fonds serviront au développement produit, à la préparation de la production en série et à l'expansion internationale. La société développe Pebble, une caméra autonome grand public intégrant le rendu 3D Gaussian Splatting (3DGS), la fusion multi-capteurs et une interface AI-native, conçue pour capturer une scène tridimensionnelle aussi simplement qu'une vidéo ordinaire. Le produit est encore en phase de R&D et n'a pas atteint la production industrielle. L'intérêt stratégique de Zhuma dépasse le marché de la caméra 3D : la société se positionne comme infrastructure de données pour l'IA incarnée (embodied AI). Les modèles VLA (Vision-Language-Action) pilotant la prochaine génération de robots humanoïdes sont aujourd'hui majoritairement entraînés sur des données de téléopération, une méthode coûteuse et difficile à scaler. Le consensus qui émerge dans la recherche est que des vidéos en première personne, des données de capteurs spatiaux et des séquences comportementales en environnement réel constitueront la prochaine source dominante d'entraînement. Zhuma propose des données photoréalistes dotées de structure 3D, de sémantique et d'échelle physique correcte, directement utilisables pour construire des world models ou affiner la perception spatiale en simulation, réduisant ainsi la dépendance aux environnements synthétiques dont le réalisme reste limité. La société est cofondée par Zhang Ji, ancien vice-président de Kujiale (plateforme de design d'intérieur à grande échelle en Chine), et dirigée scientifiquement par Guo Jie, maître de conférences permanent à l'Université de Nanjing et spécialiste reconnu du 3DGS. La technologie 3DGS, popularisée depuis 2023, reconstruit des scènes 3D photoréalistes à partir de vidéos ordinaires, avec des performances supérieures au NeRF sur les temps de rendu. L'entrée de SenseTime comme investisseur principal apporte des ressources algorithmiques complémentaires aux capacités matérielles de Zhuma. Le marché reste largement ouvert : les acteurs industriels du lidar et des scanners haute précision n'ont pas encore attaqué le segment consommateur. Les investisseurs positionnent explicitement Zhuma comme un potentiel Insta360 de la caméra spatiale, une marque capable de définir une catégorie hardware avant que le marché ne se structure.

Chine/AsieOpinion
1 source
PL-Universe Robotics dévoile sa gamme de produits d'IA physique industrielle 2.0
4Pandaily 

PL-Universe Robotics dévoile sa gamme de produits d'IA physique industrielle 2.0

PL-Universe Robotics, start-up chinoise créée il y a seize mois, a présenté ce qu'elle nomme sa "Product Matrix 2.0", articulée autour de deux produits : AcCI, une solution de collecte de données multi-modale affichant une précision annoncée sub-millimétrique, et Dabai, un module robotique dédié au chargement et déchargement industriel intelligent. AcCI combine des interfaces de contrôle VR, maître-esclave et joystick, et capture simultanément des données de force, de couple, de pose, de retour tactile et de vision en boucle fermée. L'annonce s'accompagne d'une stratégie d'écosystème qualifiée d'"all-domain symbiotic" et d'un appel ouvert à des partenaires industriels mondiaux. L'enjeu déclaré est le goulot d'étranglement des données dans le déploiement à grande échelle de l'IA physique, un problème que le secteur reconnaît largement. Une plateforme de collecte end-to-end multi-modale, si elle tient ses promesses, répondrait à un besoin concret pour les intégrateurs cherchant à constituer des jeux de données de démonstration de qualité industrielle. Cependant, cette annonce reste au stade déclaratif : aucun client n'est nommé, aucun volume de déploiement n'est communiqué, et la précision sub-millimétrique est avancée sans conditions de test ni contexte de tâche précisés, ce qui rend toute évaluation indépendante impossible pour l'instant. PL-Universe s'inscrit dans un écosystème très concurrentiel : en Chine, Unitree Robotics et DEEP Robotics avancent sur le déploiement d'humanoïdes industriels, tandis qu'à l'international, Physical Intelligence avec Pi-0, Apptronik et 1X Technologies ont déjà des bases installées ou des contrats actifs sur des pipelines de données robotiques. La société cible un marché qu'elle évalue à "plusieurs milliers de milliards de yuans", une projection ambitieuse et invérifiable à ce stade. Aucune tarification ni date de disponibilité commerciale n'a été précisée ; la prochaine étape annoncée est le recrutement de partenaires d'écosystème à l'échelle mondiale, selon un modèle stratégique que l'entreprise décrit comme "1+N+infini".

Chine/AsieActu
1 source