Chine/AsieThe Robot Report 7 juin 2026

AGIBOT organise le World Challenge 2026 pour évaluer les modèles d'IA sur des tâches réelles

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

AGIBOT Innovation Technology, également connue sous le nom de Zhiyuan Robotics, a organisé la AGIBOT World Challenge 2026 en marge de l'ICRA 2026 à Vienne, réunissant 526 équipes de recherche et d'entreprises issues de 27 pays autour de deux pistes compétitives en IA incarnée : "Reasoning to Action" (R2A) et "World Model" (WM). La finale hors ligne s'est déroulée sur le robot humanoïde AGIBOT G2, avec des évaluations standardisées via les benchmarks EWMBench et Genie Sim 3.0. Dans la piste R2A, qui élargit l'évaluation de la simple exécution motrice à la compréhension d'environnement et à la planification de tâches, c'est l'équipe PrismBot de vivo qui a remporté le championnat avec 43,47 points, devant RP-VLA de Shanghai RoboParty (35,66 points) et GreenVLA de la Russie (33,19 points). Dans la piste WM, NeoVerse-ABot, équipe conjointe de l'Institut d'Automatisation de l'Académie des Sciences de Chine et du laboratoire Amap CV, a décroché la première place. Plus de 100 équipes ont dépassé le score de référence officiel, avec des participants issus de la Tsinghua University, de l'USTC, de l'UC San Diego, d'Alibaba et du Sber Robotics Center russe.

La signification industrielle de cet événement tient moins aux classements qu'au format d'évaluation lui-même : l'abandon progressif des scores de simulation au profit de tests en boucle fermée sur robots réels, avec des métriques reproductibles et standardisées. Pour les intégrateurs et les décideurs B2B, c'est un signal que le secteur commence à construire des référentiels comparables entre systèmes -- un prérequis pour toute contractualisation sérieuse. La piste "World Model", centrée sur la prédiction de changements physiques et la modélisation d'interactions à partir d'entrées sensorielles, teste directement la capacité des VLA (Vision-Language-Action models) à généraliser hors distribution, y compris le transfert zéro-shot et l'adaptation aux perturbations. Le benchmark supermarché co-développé avec Dexmal va plus loin en intégrant des interactions physiques non idéales -- chutes d'objets, échecs de préhension -- et impose la navigation autonome, le picking et le placement sous contraintes réelles (hauteurs de rayonnage variables, placement aléatoire des articles), contrôlés via API distante. C'est une démarche de validation orientée déploiement, pas de démonstration.

AGIBOT, fondée à Shanghai, s'est imposée comme l'un des acteurs centraux de l'écosystème robotique humanoïde chinois, aux côtés d'Unitree, de Fourier Intelligence et de l'initiative GR00T de NVIDIA. Son dataset open-source AGIBOT WORLD, utilisé pour entraîner les modèles de la piste WM, constitue un levier de standardisation communautaire similaire à ce qu'Open X-Embodiment représente côté américain. La compétition s'appuie sur Genie Sim 3.0 pour l'évaluation de capacités couvrant la compréhension du langage, le raisonnement spatial et les compétences atomiques de manipulation. Dans la course mondiale à la robotique humanoïde commerciale -- où Boston Dynamics, Figure AI, Agility Robotics et 1X Technologies avancent leurs propres plateformes -- AGIBOT positionne le G2 comme un banc d'essai de référence pour la communauté académique et industrielle, avec une stratégie d'écosystème ouverte qui rappelle davantage un hub de recherche qu'une pure offre produit.

Dans nos dossiers

Figure 1X Technologies Boston Dynamics Unitree

À lire aussi

1Interesting Engineering

Un cerveau unique pour tout gérer : la Chine développe un modèle d'IA unifié pour la robotique multi-tâches complexe

La société chinoise ShengShu Technology a présenté Motubrain, un modèle d'IA unifié conçu pour servir de cerveau généraliste aux robots, intégrant perception, raisonnement, prédiction et action dans un seul système. Le modèle affiche un score de 63,77 sur le benchmark WorldArena et une moyenne de 96,0 sur 50 tâches du benchmark RoboTwin 2.0, ce qui en ferait à ce jour le seul modèle à dépasser 95,0 dans des environnements aléatoires. Contrairement aux architectures modulaires classiques qui séparent la perception, la planification et l'exécution en composants distincts, Motubrain traite simultanément flux vidéo, instructions en langage naturel et séquences d'actions via une architecture Mixture-of-Transformers à trois flux. Le modèle est capable d'enchaîner jusqu'à 10 actions atomiques par séquence, contre 2 à 3 pour la plupart des systèmes actuels. L'entraînement repose sur un mélange de vidéos non annotées, de données de simulation et d'enregistrements multi-robots, avec un framework d'actions latentes qui extrait les schémas de mouvement directement depuis ces entrées, réduisant la dépendance aux jeux de données labellisés. ShengShu indique que le modèle est déjà utilisé dans des programmes d'entraînement actifs couvrant des environnements industriels, commerciaux et domestiques, avec des partenariats annoncés avec Astribot, SimpleAI et Anyverse Dynamics. L'annonce signale une tentative de rupture avec l'approche dominante en robotique, qui consiste à assembler des modules spécialisés (vision, planification, contrôle) développés séparément. Un modèle unifié capable de gérer en continu la boucle perception-action représente un avantage potentiel pour les intégrateurs industriels : moins de friction entre sous-systèmes, une mise à jour centralisée, et une meilleure capacité d'adaptation à des tâches non vues lors de l'entraînement. Le fait démontré en test interne, selon lequel un robot peut détecter l'échec d'une préhension et réessayer sans avoir été entraîné spécifiquement sur ce scénario, illustre une forme de robustesse comportementale qui reste un défi ouvert pour les systèmes modulaires. Les scores sur RoboTwin 2.0 sont notables, mais les conditions précises du benchmark (variété des tâches, comparabilité entre laboratoires) méritent un regard critique : les résultats en simulation ne se transfèrent pas toujours au déploiement terrain. La capacité à maintenir de meilleures performances que les systèmes concurrents à mesure que la complexité des tâches et le volume de données augmentent suggère un bon passage à l'échelle, point clé pour des déploiements industriels à grande variété. ShengShu Technology s'est d'abord fait connaître via Vidu, sa plateforme de génération vidéo, dont les données à grande échelle alimentent désormais Motubrain pour apprendre la physique du monde réel. Fondée par Jun Zhu, professeur à l'Université Tsinghua, la société a levé 293 millions de dollars en Série B menée par Alibaba Cloud. Sur le marché des modèles cérébraux pour robots polyvalents, elle se positionne face à des acteurs comme Physical Intelligence (Pi-0, San Francisco), NVIDIA avec GR00T N2, et côté chinois, Agibot et Unitree. Le lancement de Motubrain intervient dans un contexte de compétition accélérée autour des modèles VLA (Vision-Language-Action) capables de généralisation multimodale. Les prochaines étapes annoncées incluent l'extension des partenariats industriels et le déploiement sur davantage de plateformes robotiques, sans calendrier précis communiqué.

Chine/AsieActu

1 source

2Interesting Engineering

Le nouveau robot humanoïde chinois rejoint des agents pour gérer les tâches de voirie

La ville de Shanghai a lancé en mai 2026 le premier programme pilote chinois d'application du droit urbain associant agents municipaux et robot humanoïde dans un espace public. Le déploiement se déroule dans le quartier d'innovation en IA de Zhangjiang, dans l'arrondissement de Pudong, et met en scène le Lingxi X2, robot humanoïde développé par AgiBot, entreprise shanghaïenne fondée en 2023. Le dispositif repose sur une chaîne tripartite : des drones de surveillance identifient en temps réel les infractions commises par des commerçants de rue et transmettent l'information aux agents de patrouille et au Lingxi X2. Le robot se charge ensuite des interactions répétitives à faible valeur décisionnelle, à savoir expliquer les réglementations de voirie, les obligations des exploitants de commerces en façade, et répondre aux questions des marchands. Les agents humains conservent l'intégralité du pouvoir d'évaluation juridique et d'exécution des sanctions. AgiBot décrit la machine comme un "assistant intelligent" et non comme un remplaçant, une précision qui, dans ce contexte politique, est autant un positionnement commercial qu'une garantie opérationnelle. Ce que ce déploiement teste concrètement, c'est la capacité des systèmes d'IA incarnée à tenir un rôle de contact public structuré, avec un corpus de connaissances réglementaires consultable en temps réel, dans un environnement non contrôlé. Pour les intégrateurs et les décideurs en charge de services publics, le cas d'usage est délibérément choisi pour son haut volume de tâches répétitives et son faible risque décisionnel : le robot ne verbalise pas, ne sanctionne pas, n'interprète pas. Il informe. Pan Weijia, responsable de Pudong ayant supervisé l'opération, a explicitement indiqué que l'évaluation portera sur les performances pratiques plutôt que sur le simple volume de déploiement, ce qui signale une approche plus mesurée que le discours habituel sur la scalabilité. Pan Helin, membre du comité d'experts du ministère de l'Industrie et des Technologies de l'Information, a qualifié le pilote de "jalon majeur" dans la commercialisation de l'IA incarnée en administration publique, avec l'objectif affiché de passer des robots capables de "se déplacer" à des robots capables de "travailler efficacement". AgiBot a été fondé en 2023 et s'est positionné rapidement sur le segment des humanoïdes à usage professionnel, avec le Lingxi X2 comme produit phare pour les environnements semi-publics. L'entreprise s'inscrit dans un écosystème chinois d'humanoïdes très dense, qui inclut Unitree (G1, H1), Fourier Intelligence (GR-1), et dans une moindre mesure les ambitions de UBTECH et de Kepler. À l'international, les comparaisons les plus directes sont Figure (01, 02), 1X Technologies (NEO), et Boston Dynamics (Atlas), tous positionnés sur des environnements industriels ou logistiques plutôt que sur l'espace public. Le vrai enjeu du pilote de Pudong n'est pas la performance du robot dans une démonstration maîtrisée, mais sa robustesse sur la durée dans un contexte d'interactions non scénarisées avec des usagers non entraînés. Les prochaines étapes annoncées par Pan Helin visent une extension à d'autres scénarios de service public, sans échéance précisée.

UESignal stratégique indirect pour les décideurs européens de la robotique de service public : la Chine ouvre un précédent réglementaire et opérationnel pour le déploiement d'humanoïdes en espace civil non contrôlé, domaine où aucun acteur FR/EU n'est encore positionné.

Chine/AsieOpinion

1 source

3Interesting Engineering

IA chinoise dévoile de nouveaux modèles de perception spatiale pour robots

La société chinoise Robbyant a dévoilé LingBot-Depth 2.0, une nouvelle génération de modèles de perception spatiale pour robots, accompagnée d'un modèle de vision associé baptisé LingBot-Vision. LingBot-Depth 2.0 s'appuie sur la version précédente, qui avait introduit la technique de Masked Depth Modeling (MDM) pour améliorer la détection de profondeur sur les surfaces transparentes et réfléchissantes. Entraîné sur 150 millions d'échantillons, le nouveau modèle obtient les meilleurs résultats sur 12 des 16 benchmarks de complétion de profondeur testés. Dans les scénarios de perte de profondeur sévère, l'erreur est divisée par plus de deux par rapport au modèle précédent, le score RMSE passant de 0,132 à 0,062. Le modèle progresse aussi sur la détection des surfaces vitrées et des miroirs, un point faible classique des caméras de profondeur. LingBot-Vision, entraîné sur 160 millions d'images (un jeu de données plus restreint que ceux des modèles concurrents), utilise pour la première fois la "structure de bordure" comme objectif de pré-entraînement, permettant une localisation des contours au niveau sub-pixel et un suivi stable des arêtes d'objets sur des séquences vidéo. Pour l'industrie robotique, cette annonce illustre la poursuite de la course aux modèles de perception spatiale comme brique fondamentale des systèmes d'IA incarnée, aux côtés des modèles d'action type VLA (vision-langage-action) tels que Pi-0 ou GR00T N2. Une perception de profondeur fiable sur verre et surfaces réfléchissantes reste un obstacle concret pour la navigation en environnement intérieur (entrepôts, bureaux, hôpitaux), là où les caméras stéréo et LiDAR classiques échouent régulièrement. La certification obtenue auprès du Depth Vision Laboratory d'Orbbec, avec des tests sur les caméras stéréo 3D Gemini 330, apporte une validation industrielle plus tangible qu'une simple annonce marketing, même si les chiffres de benchmark restent ceux communiqués par Robbyant lui-même et mériteraient une vérification indépendante. Le partenariat avec Orbbec, fabricant reconnu de capteurs 3D, va au-delà de la validation logicielle : il s'étend au matériel, avec l'intégration d'une version personnalisée de LingBot-Depth dans le dispositif RGB-D EGO de la nouvelle plateforme de collecte de données "Robot-Free" d'Orbbec, conçue pour capturer des données d'entraînement sans mobiliser de robot physique. Robbyant annonce qu'une version commerciale avancée du modèle sera intégrée à cette plateforme dans de futures mises à jour, avec pour objectif de fournir une base de données plus précise et stable pour l'entraînement des systèmes d'IA incarnée. Le mouvement s'inscrit dans une dynamique plus large de fournisseurs chinois de modèles de fondation pour la robotique cherchant à s'imposer comme briques de perception standard, à un moment où la course humanoïde et logistique internationale accélère la demande de systèmes de perception robustes et bon marché.

Chine/AsieActu

1 source

436Kr

SenseTime mise sur les caméras spatiales grand public pour collecter des données réelles destinées à l'IA incarnée

Zhuma Innovation (竹马创新), startup chinoise fondée en novembre 2025, vient de boucler un tour Angel+ de plusieurs dizaines de millions de yuans mené par SenseTime Guoxiang Capital, le bras d'investissement de SenseTime, avec la participation de Dinghui VGC et Fengru Capital. Les fonds serviront au développement produit, à la préparation de la production en série et à l'expansion internationale. La société développe Pebble, une caméra autonome grand public intégrant le rendu 3D Gaussian Splatting (3DGS), la fusion multi-capteurs et une interface AI-native, conçue pour capturer une scène tridimensionnelle aussi simplement qu'une vidéo ordinaire. Le produit est encore en phase de R&D et n'a pas atteint la production industrielle. L'intérêt stratégique de Zhuma dépasse le marché de la caméra 3D : la société se positionne comme infrastructure de données pour l'IA incarnée (embodied AI). Les modèles VLA (Vision-Language-Action) pilotant la prochaine génération de robots humanoïdes sont aujourd'hui majoritairement entraînés sur des données de téléopération, une méthode coûteuse et difficile à scaler. Le consensus qui émerge dans la recherche est que des vidéos en première personne, des données de capteurs spatiaux et des séquences comportementales en environnement réel constitueront la prochaine source dominante d'entraînement. Zhuma propose des données photoréalistes dotées de structure 3D, de sémantique et d'échelle physique correcte, directement utilisables pour construire des world models ou affiner la perception spatiale en simulation, réduisant ainsi la dépendance aux environnements synthétiques dont le réalisme reste limité. La société est cofondée par Zhang Ji, ancien vice-président de Kujiale (plateforme de design d'intérieur à grande échelle en Chine), et dirigée scientifiquement par Guo Jie, maître de conférences permanent à l'Université de Nanjing et spécialiste reconnu du 3DGS. La technologie 3DGS, popularisée depuis 2023, reconstruit des scènes 3D photoréalistes à partir de vidéos ordinaires, avec des performances supérieures au NeRF sur les temps de rendu. L'entrée de SenseTime comme investisseur principal apporte des ressources algorithmiques complémentaires aux capacités matérielles de Zhuma. Le marché reste largement ouvert : les acteurs industriels du lidar et des scanners haute précision n'ont pas encore attaqué le segment consommateur. Les investisseurs positionnent explicitement Zhuma comme un potentiel Insta360 de la caméra spatiale, une marque capable de définir une catégorie hardware avant que le marché ne se structure.

Chine/AsieOpinion

1 source