Aller au contenu principal
AGIBOT organise le World Challenge 2026 pour évaluer les modèles d'IA sur des tâches réelles
Chine/AsieThe Robot Report2h

AGIBOT organise le World Challenge 2026 pour évaluer les modèles d'IA sur des tâches réelles

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

AGIBOT Innovation Technology, également connue sous le nom de Zhiyuan Robotics, a organisé la AGIBOT World Challenge 2026 en marge de l'ICRA 2026 à Vienne, réunissant 526 équipes de recherche et d'entreprises issues de 27 pays autour de deux pistes compétitives en IA incarnée : "Reasoning to Action" (R2A) et "World Model" (WM). La finale hors ligne s'est déroulée sur le robot humanoïde AGIBOT G2, avec des évaluations standardisées via les benchmarks EWMBench et Genie Sim 3.0. Dans la piste R2A, qui élargit l'évaluation de la simple exécution motrice à la compréhension d'environnement et à la planification de tâches, c'est l'équipe PrismBot de vivo qui a remporté le championnat avec 43,47 points, devant RP-VLA de Shanghai RoboParty (35,66 points) et GreenVLA de la Russie (33,19 points). Dans la piste WM, NeoVerse-ABot, équipe conjointe de l'Institut d'Automatisation de l'Académie des Sciences de Chine et du laboratoire Amap CV, a décroché la première place. Plus de 100 équipes ont dépassé le score de référence officiel, avec des participants issus de la Tsinghua University, de l'USTC, de l'UC San Diego, d'Alibaba et du Sber Robotics Center russe.

La signification industrielle de cet événement tient moins aux classements qu'au format d'évaluation lui-même : l'abandon progressif des scores de simulation au profit de tests en boucle fermée sur robots réels, avec des métriques reproductibles et standardisées. Pour les intégrateurs et les décideurs B2B, c'est un signal que le secteur commence à construire des référentiels comparables entre systèmes -- un prérequis pour toute contractualisation sérieuse. La piste "World Model", centrée sur la prédiction de changements physiques et la modélisation d'interactions à partir d'entrées sensorielles, teste directement la capacité des VLA (Vision-Language-Action models) à généraliser hors distribution, y compris le transfert zéro-shot et l'adaptation aux perturbations. Le benchmark supermarché co-développé avec Dexmal va plus loin en intégrant des interactions physiques non idéales -- chutes d'objets, échecs de préhension -- et impose la navigation autonome, le picking et le placement sous contraintes réelles (hauteurs de rayonnage variables, placement aléatoire des articles), contrôlés via API distante. C'est une démarche de validation orientée déploiement, pas de démonstration.

AGIBOT, fondée à Shanghai, s'est imposée comme l'un des acteurs centraux de l'écosystème robotique humanoïde chinois, aux côtés d'Unitree, de Fourier Intelligence et de l'initiative GR00T de NVIDIA. Son dataset open-source AGIBOT WORLD, utilisé pour entraîner les modèles de la piste WM, constitue un levier de standardisation communautaire similaire à ce qu'Open X-Embodiment représente côté américain. La compétition s'appuie sur Genie Sim 3.0 pour l'évaluation de capacités couvrant la compréhension du langage, le raisonnement spatial et les compétences atomiques de manipulation. Dans la course mondiale à la robotique humanoïde commerciale -- où Boston Dynamics, Figure AI, Agility Robotics et 1X Technologies avancent leurs propres plateformes -- AGIBOT positionne le G2 comme un banc d'essai de référence pour la communauté académique et industrielle, avec une stratégie d'écosystème ouverte qui rappelle davantage un hub de recherche qu'une pure offre produit.

À lire aussi

Un cerveau unique pour tout gérer : la Chine développe un modèle d'IA unifié pour la robotique multi-tâches complexe
1Interesting Engineering 

Un cerveau unique pour tout gérer : la Chine développe un modèle d'IA unifié pour la robotique multi-tâches complexe

La société chinoise ShengShu Technology a présenté Motubrain, un modèle d'IA unifié conçu pour servir de cerveau généraliste aux robots, intégrant perception, raisonnement, prédiction et action dans un seul système. Le modèle affiche un score de 63,77 sur le benchmark WorldArena et une moyenne de 96,0 sur 50 tâches du benchmark RoboTwin 2.0, ce qui en ferait à ce jour le seul modèle à dépasser 95,0 dans des environnements aléatoires. Contrairement aux architectures modulaires classiques qui séparent la perception, la planification et l'exécution en composants distincts, Motubrain traite simultanément flux vidéo, instructions en langage naturel et séquences d'actions via une architecture Mixture-of-Transformers à trois flux. Le modèle est capable d'enchaîner jusqu'à 10 actions atomiques par séquence, contre 2 à 3 pour la plupart des systèmes actuels. L'entraînement repose sur un mélange de vidéos non annotées, de données de simulation et d'enregistrements multi-robots, avec un framework d'actions latentes qui extrait les schémas de mouvement directement depuis ces entrées, réduisant la dépendance aux jeux de données labellisés. ShengShu indique que le modèle est déjà utilisé dans des programmes d'entraînement actifs couvrant des environnements industriels, commerciaux et domestiques, avec des partenariats annoncés avec Astribot, SimpleAI et Anyverse Dynamics. L'annonce signale une tentative de rupture avec l'approche dominante en robotique, qui consiste à assembler des modules spécialisés (vision, planification, contrôle) développés séparément. Un modèle unifié capable de gérer en continu la boucle perception-action représente un avantage potentiel pour les intégrateurs industriels : moins de friction entre sous-systèmes, une mise à jour centralisée, et une meilleure capacité d'adaptation à des tâches non vues lors de l'entraînement. Le fait démontré en test interne, selon lequel un robot peut détecter l'échec d'une préhension et réessayer sans avoir été entraîné spécifiquement sur ce scénario, illustre une forme de robustesse comportementale qui reste un défi ouvert pour les systèmes modulaires. Les scores sur RoboTwin 2.0 sont notables, mais les conditions précises du benchmark (variété des tâches, comparabilité entre laboratoires) méritent un regard critique : les résultats en simulation ne se transfèrent pas toujours au déploiement terrain. La capacité à maintenir de meilleures performances que les systèmes concurrents à mesure que la complexité des tâches et le volume de données augmentent suggère un bon passage à l'échelle, point clé pour des déploiements industriels à grande variété. ShengShu Technology s'est d'abord fait connaître via Vidu, sa plateforme de génération vidéo, dont les données à grande échelle alimentent désormais Motubrain pour apprendre la physique du monde réel. Fondée par Jun Zhu, professeur à l'Université Tsinghua, la société a levé 293 millions de dollars en Série B menée par Alibaba Cloud. Sur le marché des modèles cérébraux pour robots polyvalents, elle se positionne face à des acteurs comme Physical Intelligence (Pi-0, San Francisco), NVIDIA avec GR00T N2, et côté chinois, Agibot et Unitree. Le lancement de Motubrain intervient dans un contexte de compétition accélérée autour des modèles VLA (Vision-Language-Action) capables de généralisation multimodale. Les prochaines étapes annoncées incluent l'extension des partenariats industriels et le déploiement sur davantage de plateformes robotiques, sans calendrier précis communiqué.

Chine/AsieActu
1 source
Le nouveau robot humanoïde chinois rejoint des agents pour gérer les tâches de voirie
2Interesting Engineering 

Le nouveau robot humanoïde chinois rejoint des agents pour gérer les tâches de voirie

La ville de Shanghai a lancé en mai 2026 le premier programme pilote chinois d'application du droit urbain associant agents municipaux et robot humanoïde dans un espace public. Le déploiement se déroule dans le quartier d'innovation en IA de Zhangjiang, dans l'arrondissement de Pudong, et met en scène le Lingxi X2, robot humanoïde développé par AgiBot, entreprise shanghaïenne fondée en 2023. Le dispositif repose sur une chaîne tripartite : des drones de surveillance identifient en temps réel les infractions commises par des commerçants de rue et transmettent l'information aux agents de patrouille et au Lingxi X2. Le robot se charge ensuite des interactions répétitives à faible valeur décisionnelle, à savoir expliquer les réglementations de voirie, les obligations des exploitants de commerces en façade, et répondre aux questions des marchands. Les agents humains conservent l'intégralité du pouvoir d'évaluation juridique et d'exécution des sanctions. AgiBot décrit la machine comme un "assistant intelligent" et non comme un remplaçant, une précision qui, dans ce contexte politique, est autant un positionnement commercial qu'une garantie opérationnelle. Ce que ce déploiement teste concrètement, c'est la capacité des systèmes d'IA incarnée à tenir un rôle de contact public structuré, avec un corpus de connaissances réglementaires consultable en temps réel, dans un environnement non contrôlé. Pour les intégrateurs et les décideurs en charge de services publics, le cas d'usage est délibérément choisi pour son haut volume de tâches répétitives et son faible risque décisionnel : le robot ne verbalise pas, ne sanctionne pas, n'interprète pas. Il informe. Pan Weijia, responsable de Pudong ayant supervisé l'opération, a explicitement indiqué que l'évaluation portera sur les performances pratiques plutôt que sur le simple volume de déploiement, ce qui signale une approche plus mesurée que le discours habituel sur la scalabilité. Pan Helin, membre du comité d'experts du ministère de l'Industrie et des Technologies de l'Information, a qualifié le pilote de "jalon majeur" dans la commercialisation de l'IA incarnée en administration publique, avec l'objectif affiché de passer des robots capables de "se déplacer" à des robots capables de "travailler efficacement". AgiBot a été fondé en 2023 et s'est positionné rapidement sur le segment des humanoïdes à usage professionnel, avec le Lingxi X2 comme produit phare pour les environnements semi-publics. L'entreprise s'inscrit dans un écosystème chinois d'humanoïdes très dense, qui inclut Unitree (G1, H1), Fourier Intelligence (GR-1), et dans une moindre mesure les ambitions de UBTECH et de Kepler. À l'international, les comparaisons les plus directes sont Figure (01, 02), 1X Technologies (NEO), et Boston Dynamics (Atlas), tous positionnés sur des environnements industriels ou logistiques plutôt que sur l'espace public. Le vrai enjeu du pilote de Pudong n'est pas la performance du robot dans une démonstration maîtrisée, mais sa robustesse sur la durée dans un contexte d'interactions non scénarisées avec des usagers non entraînés. Les prochaines étapes annoncées par Pan Helin visent une extension à d'autres scénarios de service public, sans échéance précisée.

UESignal stratégique indirect pour les décideurs européens de la robotique de service public : la Chine ouvre un précédent réglementaire et opérationnel pour le déploiement d'humanoïdes en espace civil non contrôlé, domaine où aucun acteur FR/EU n'est encore positionné.

Chine/AsieOpinion
1 source
SenseTime mise sur les caméras spatiales grand public pour collecter des données réelles destinées à l'IA incarnée
336Kr 

SenseTime mise sur les caméras spatiales grand public pour collecter des données réelles destinées à l'IA incarnée

Zhuma Innovation (竹马创新), startup chinoise fondée en novembre 2025, vient de boucler un tour Angel+ de plusieurs dizaines de millions de yuans mené par SenseTime Guoxiang Capital, le bras d'investissement de SenseTime, avec la participation de Dinghui VGC et Fengru Capital. Les fonds serviront au développement produit, à la préparation de la production en série et à l'expansion internationale. La société développe Pebble, une caméra autonome grand public intégrant le rendu 3D Gaussian Splatting (3DGS), la fusion multi-capteurs et une interface AI-native, conçue pour capturer une scène tridimensionnelle aussi simplement qu'une vidéo ordinaire. Le produit est encore en phase de R&D et n'a pas atteint la production industrielle. L'intérêt stratégique de Zhuma dépasse le marché de la caméra 3D : la société se positionne comme infrastructure de données pour l'IA incarnée (embodied AI). Les modèles VLA (Vision-Language-Action) pilotant la prochaine génération de robots humanoïdes sont aujourd'hui majoritairement entraînés sur des données de téléopération, une méthode coûteuse et difficile à scaler. Le consensus qui émerge dans la recherche est que des vidéos en première personne, des données de capteurs spatiaux et des séquences comportementales en environnement réel constitueront la prochaine source dominante d'entraînement. Zhuma propose des données photoréalistes dotées de structure 3D, de sémantique et d'échelle physique correcte, directement utilisables pour construire des world models ou affiner la perception spatiale en simulation, réduisant ainsi la dépendance aux environnements synthétiques dont le réalisme reste limité. La société est cofondée par Zhang Ji, ancien vice-président de Kujiale (plateforme de design d'intérieur à grande échelle en Chine), et dirigée scientifiquement par Guo Jie, maître de conférences permanent à l'Université de Nanjing et spécialiste reconnu du 3DGS. La technologie 3DGS, popularisée depuis 2023, reconstruit des scènes 3D photoréalistes à partir de vidéos ordinaires, avec des performances supérieures au NeRF sur les temps de rendu. L'entrée de SenseTime comme investisseur principal apporte des ressources algorithmiques complémentaires aux capacités matérielles de Zhuma. Le marché reste largement ouvert : les acteurs industriels du lidar et des scanners haute précision n'ont pas encore attaqué le segment consommateur. Les investisseurs positionnent explicitement Zhuma comme un potentiel Insta360 de la caméra spatiale, une marque capable de définir une catégorie hardware avant que le marché ne se structure.

Chine/AsieOpinion
1 source
Zhongke Diwuji lève des centaines de millions en série A pour déployer ses modèles d'IA incarnée à grande échelle
4Pandaily 

Zhongke Diwuji lève des centaines de millions en série A pour déployer ses modèles d'IA incarnée à grande échelle

Zhongke Diwuji, entreprise chinoise spécialisée dans l'intelligence incarnée (embodied AI), a bouclé une levée de fonds de Série A d'un montant de plusieurs centaines de millions de yuans, annoncée en 2026. Le tour a été mené par Futi Capital, avec la participation de Shanghai Semiconductor Industry Investment, CAS Investment, China Venture Capital et Hongruida Technology. L'investisseur historique Zoyuan Asia a choisi d'augmenter significativement sa participation. Il s'agit du troisième tour de financement réalisé par la société dans la seule année 2026. Les fonds seront alloués au développement de la série FAM (few-shot large model), au modèle monde incarné de prochaine génération BridgeV2W, à l'industrialisation des algorithmes d'apprentissage par renforcement, à l'extension des capacités de production robotique et au recrutement d'ingénieurs de haut niveau. La société affirme avoir sécurisé plusieurs centaines de millions de yuans de commandes auprès de clients entreprises internationaux, bien que leurs noms n'aient pas été communiqués. Trois levées en moins de douze mois pour une entreprise fondée en septembre 2024 constituent un signal d'intérêt institutionnel inhabituellement fort. Ce qui distingue Zhongke Diwuji de ses concurrents n'est pas la plateforme matérielle mais la couche d'apprentissage : son approche par few-shot learning permet à un système robotique d'acquérir de nouvelles capacités de manipulation à partir d'un nombre minimal d'exemples, sans les volumineuses campagnes de collecte de données qui alourdissent traditionnellement le coût d'adaptation à de nouvelles tâches industrielles. C'est précisément ce goulot d'étranglement économique qui freine les déploiements à grande échelle, et une solution crédible à ce problème justifie des valorisations élevées. L'obtention de commandes fermes de clients industriels internationaux, et non de simples lettres d'intention, indique que la technologie a franchi la frontière entre démonstration en laboratoire et valeur terrain vérifiable, même si l'absence de noms de clients invite à une certaine prudence. Fondée en septembre 2024, Zhongke Diwuji s'est positionnée dès l'origine comme un acteur de modèles fondationnels physiques universels, à mi-chemin entre startup robotique et laboratoire de recherche en IA. En 2026, le secteur chinois de la robotique incarnée est entré dans une phase de déploiement commercial à l'échelle, avec des concurrents directs comme Unitree Robotics, AgiBot et Fourier Intelligence en compétition sur les mêmes segments industriels. La présence remarquée de Zhongke Diwuji lors de salons professionnels européens et ses commandes internationales annoncées témoignent d'une ambition d'expansion explicite au-delà du marché domestique. Les prochaines étapes identifiées incluent la mise en production de BridgeV2W et l'intégration du reinforcement learning dans des déploiements clients réels, deux jalons qui permettront de vérifier si la promesse du few-shot tient effectivement à l'échelle industrielle.

UELa présence de Zhongke Diwuji lors de salons professionnels européens et ses commandes internationales annoncées signalent une ambition d'expansion vers l'UE qui pourrait accroître la pression concurrentielle sur les acteurs européens de la robotique industrielle et de l'IA physique.

Chine/AsieOpinion
1 source