Aller au contenu principal
Maniformer lance une plateforme de données d'IA physique tout-en-un pour préparer l'ère de l'AGI
Chine/AsiePandaily6sem

Maniformer lance une plateforme de données d'IA physique tout-en-un pour préparer l'ère de l'AGI

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Maniformer, startup chinoise spécialisée dans l'infrastructure de données pour l'IA physique, a officiellement lancé sa plateforme de services de données en un seul guichet, accompagnée de la gamme matérielle MEgo et du système de gouvernance MEgo Engine. La gamme MEgo comprend trois composants : le MEgo Gripper pour la capture de données de manipulation robotique, le MEgo View, un dispositif de collecte portable à tête montée, et le MEgo Engine pour le traitement et la gouvernance des données. Ces outils affichent une précision millimétrique, une synchronisation sub-milliseconde et une perception panoramique supérieure à 300 degrés. Le système est nativement compatible avec le robot G2 Air, garantissant la cohérence entre environnements simulés et réels. Selon Yao Maoqing, président-directeur général, l'entreprise vise une capacité de production de dizaines de millions d'heures de données d'ici 2026, puis des dizaines de milliards d'heures d'ici 2030.

Le problème que Maniformer cherche à résoudre est structurel : les données d'interaction physique réelle disponibles pour l'IA incarnée représentent moins de 1/20 000 de ce qui existe pour les grands modèles de langage. Ce déficit, combiné à l'absence de standards, à des problèmes de qualité hétérogène et à des inadéquations entre offre et demande, freine concrètement la commercialisation des robots autonomes. En proposant une infrastructure full-stack couvrant la télé-opération réelle, la collecte sans robot dédié et la génération synthétique par simulation, Maniformer cherche à décorréler la production de données de la disponibilité des plateformes robotiques elles-mêmes, une approche qui, si elle tient ses promesses, pourrait accélérer significativement le cycle sim-to-real pour les intégrateurs et les équipes R&D. L'analogie revendiquée avec l'électricité ou l'eau comme utilities est ambitieuse ; elle reste à valider à l'échelle industrielle.

L'entreprise s'inscrit dans un contexte de course mondiale aux données d'entraînement pour robots humanoïdes et manipulateurs, où des acteurs comme Physical Intelligence (Pi-0), Boston Dynamics, Figure AI ou Unitree investissent massivement dans leurs propres pipelines de données propriétaires. La stratégie de Maniformer est différente : se positionner en fournisseur tiers d'infrastructure, à la manière d'un AWS pour la donnée physique. L'initiative "Hive" annoncée vise à fédérer des partenaires mondiaux pour co-construire des standards sectoriels, une démarche de standardisation qui, si elle aboutit, pourrait bénéficier à l'ensemble de l'écosystème, y compris aux acteurs européens comme Enchanted Tools ou Wandercraft qui peinent à constituer des datasets suffisants. La prochaine étape annoncée est le déploiement d'un réseau global de collecte de données, sans calendrier précis communiqué au-delà de l'horizon 2026.

Impact France/UE

Si l'initiative 'Hive' de standardisation aboutit, les acteurs européens comme Enchanted Tools ou Wandercraft pourraient bénéficier d'une infrastructure de données partagée pour accélérer leurs pipelines sim-to-real.

À lire aussi

DeepMotor : une startup de Pékin mise sur les données en première personne pour une IA incarnée générale
1Pandaily 

DeepMotor : une startup de Pékin mise sur les données en première personne pour une IA incarnée générale

DeepMotor, une startup pékinoise fondée par Chen Kai au début 2025, développe une approche d'intelligence artificielle incarnée (embodied AGI) basée sur l'entraînement à partir de vidéos en première personne capturées par des humains. Au lancement, la thèse de l'entreprise n'a convaincu ni les investisseurs domestiques ni la majorité du secteur : pourquoi parier sur une méthode que même les géants américains n'avaient pas encore validée ? La startup a levé plusieurs centaines de millions de RMB et poursuit aujourd'hui un déploiement accéléré. La chronologie des validations industrielles donne la mesure de son avance : en mai 2025, Tesla a annoncé réorienter l'entraînement d'Optimus vers des données vidéo humaines. En juin 2025, GeneralistAI a présenté une démo d'apprentissage imitatif robotique, puis a confirmé les lois de mise à l'échelle avec 270 000 heures de données humaines réelles collectées sur le terrain. FigureAI a de son côté annoncé des partenariats avec des opérateurs immobiliers commerciaux pour collecter des flux en première personne. En février 2026, NVIDIA a publié EgoScale, un modèle pré-entraîné sur 20 000 heures de vidéo première personne destiné à la manipulation dextre. L'importance de cette séquence dépasse le simple calendrier. Elle valide l'hypothèse centrale de DeepMotor : la vidéo en vue égocentrique est le signal d'apprentissage le plus dense pour combler le sim-to-real gap en robotique généraliste. Chaque acteur majeur converge vers cette approche non par choix idéologique, mais parce que les benchmarks internes le forcent. Pour les intégrateurs industriels et les décideurs B2B, cela signifie que la prochaine génération de robots manipulateurs ne sera pas entraînée dans des simulateurs mais sur des flux de travail humains réels, ce qui redéfinit les exigences en matière de collecte de données et de gouvernance des contenus vidéo. DeepMotor s'inscrit dans un écosystème robotique chinois en forte accélération, concurrent direct d'Unitree, d'Agibot et des branches robotique de Baidu et Tencent, mais avec une orientation plus fondamentale sur la couche de données brutes plutôt que sur le hardware. La startup a devancé d'environ un an le consensus industriel mondial sur l'approche egocentric data, ce qui lui confère une position de référence potentielle si elle parvient à publier ses propres scaling laws ou à ouvrir un dataset. Les prochaines étapes probables incluent la publication de résultats comparatifs et des partenariats avec des fabricants de robots humanoides pour valider le transfert de politique sur des plateformes tiers. La source originale (Waves/暗涌) reste un media chinois spécialisé, et les chiffres de levée ne sont pas précisément détaillés.

UELe basculement de l'industrie vers les données vidéo égocentristes comme signal d'entraînement de référence redéfinira les exigences de collecte de données et de gouvernance vidéo pour les intégrateurs et fabricants de robots européens, sans acteur français ou européen directement impliqué à ce stade.

Chine/AsieOpinion
1 source
DeepCybo : une startup pékinoise mise sur les données humaines en première personne pour développer une AGI incarnée
2Pandaily 

DeepCybo : une startup pékinoise mise sur les données humaines en première personne pour développer une AGI incarnée

DeepCybo, startup pékinoise fondée début 2025 par Chen Kai, parie sur la vidéo humaine à la première personne comme substrat d'entraînement pour l'intelligence incarnée (embodied AGI). L'approche consiste à collecter des flux vidéo authentiques captés du point de vue d'opérateurs humains, plutôt que de s'appuyer sur la simulation ou les démonstrations téléopérées. La société a levé plusieurs centaines de millions de RMB et accélère actuellement sa collecte de données pour valider l'approche à l'échelle. Pendant ce temps, le marché mondial a convergé vers une thèse similaire : en mai 2025, Tesla a annoncé réorienter l'entraînement d'Optimus vers des données vidéo humaines ; en juin 2025, GeneralistAI a présenté un système d'apprentissage imitatif validé par 270 000 heures de données collectées en conditions réelles. FigureAI a annoncé des partenariats avec des groupes immobiliers commerciaux pour instrumenter des opérateurs humains. En février 2026, NVIDIA a publié EgoScale, un modèle pré-entraîné sur 20 000 heures de vidéo egocentriques pour la manipulation dextère. La convergence de ces annonces en moins d'un an pointe vers une même conclusion : le sim-to-real gap reste difficile à combler via la simulation seule, et les données synthétiques ne généralisent pas suffisamment aux environnements non structurés. Pour les intégrateurs industriels et les équipes R&D, cela redéfinit l'actif stratégique central : la volumétrie et la qualité des données egocentriques comptent autant que l'architecture du modèle. La course à l'embodied AI ne se joue plus uniquement sur les paramètres du réseau, mais sur la capacité à instrumenter des humains à grande échelle, ce qui soulève des questions pratiques de coût de collecte, d'annotation et de diversité des scénarios. DeepCybo évolue dans un écosystème chinois de la robotique humanoïde très compétitif, face à des acteurs comme Unitree, Agibot ou Zhiyuan Robotics, mais avec un positionnement centré sur l'IA plutôt que sur le hardware. À noter que l'article source utilise indifféremment les noms "DeepCybo" et "DeepMotor" sans distinction claire, ce qui suggère soit un changement de nom récent, soit une imprécision éditoriale. La principale inconnue reste le transfert effectif entre données humaines et performance robotique réelle en production : ni GeneralistAI ni NVIDIA n'ont encore démontré ce gap comblé à l'échelle commerciale, et DeepCybo, malgré une levée conséquente, n'a pas publié de résultats quantitatifs indépendants à ce stade.

Chine/AsieOpinion
1 source
Les avancées de l'IA physique chinoise s'affichent sur les routes, dans les airs et en usine
3SCMP Tech 

Les avancées de l'IA physique chinoise s'affichent sur les routes, dans les airs et en usine

L'IA physique - la combinaison de machines avancées dotées de "cerveaux" capables d'interagir avec leur environnement - connaît une expansion accélérée en Chine. Des drones de livraison sillonnent désormais les airs au-dessus de Shenzhen, dans le sud du pays, tandis que des robots de livraison empruntent les réseaux de métro urbains. Les premiers véhicules autonomes circulent sur des axes publics, et des robots humanoïdes font leur apparition aussi bien sur les lignes de production industrielles que sur des scènes de spectacle. Cette convergence entre robotique, véhicules autonomes et drones représente un changement structurel dans la façon dont la Chine déploie l'IA au-delà des serveurs : il ne s'agit plus de démos en laboratoire, mais de systèmes en opération réelle dans des environnements non contrôlés. Pour les intégrateurs industriels et les décideurs B2B, cela signifie que le fossé entre prototype et déploiement se réduit concrètement sur plusieurs verticales simultanément, ce qui accroît la pression concurrentielle sur les acteurs occidentaux et japonais du secteur. Ce déploiement s'inscrit dans une stratégie industrielle nationale de long terme, soutenue par des financements publics et une chaîne d'approvisionnement en composants (actionneurs, capteurs, puces) largement localisée. Face à la Chine, les États-Unis misent sur des acteurs comme Figure AI, Agility Robotics ou Boston Dynamics, tandis qu'en Europe, des sociétés comme Enchanted Tools (France) ou Wandercraft restent à des stades de commercialisation plus précoces. Les prochaines étapes chinoises devraient inclure une densification des flottes de drones en zone urbaine et l'extension des corridors de test pour véhicules autonomes.

UELes entreprises françaises comme Enchanted Tools et Wandercraft, encore en phase de commercialisation précoce, subissent une pression concurrentielle croissante face aux déploiements à grande échelle opérés en Chine sur plusieurs verticales simultanément.

Chine/AsieOpinion
1 source
Un cerveau unique pour tout gérer : la Chine développe un modèle d'IA unifié pour la robotique multi-tâches complexe
4Interesting Engineering 

Un cerveau unique pour tout gérer : la Chine développe un modèle d'IA unifié pour la robotique multi-tâches complexe

La société chinoise ShengShu Technology a présenté Motubrain, un modèle d'IA unifié conçu pour servir de cerveau généraliste aux robots, intégrant perception, raisonnement, prédiction et action dans un seul système. Le modèle affiche un score de 63,77 sur le benchmark WorldArena et une moyenne de 96,0 sur 50 tâches du benchmark RoboTwin 2.0, ce qui en ferait à ce jour le seul modèle à dépasser 95,0 dans des environnements aléatoires. Contrairement aux architectures modulaires classiques qui séparent la perception, la planification et l'exécution en composants distincts, Motubrain traite simultanément flux vidéo, instructions en langage naturel et séquences d'actions via une architecture Mixture-of-Transformers à trois flux. Le modèle est capable d'enchaîner jusqu'à 10 actions atomiques par séquence, contre 2 à 3 pour la plupart des systèmes actuels. L'entraînement repose sur un mélange de vidéos non annotées, de données de simulation et d'enregistrements multi-robots, avec un framework d'actions latentes qui extrait les schémas de mouvement directement depuis ces entrées, réduisant la dépendance aux jeux de données labellisés. ShengShu indique que le modèle est déjà utilisé dans des programmes d'entraînement actifs couvrant des environnements industriels, commerciaux et domestiques, avec des partenariats annoncés avec Astribot, SimpleAI et Anyverse Dynamics. L'annonce signale une tentative de rupture avec l'approche dominante en robotique, qui consiste à assembler des modules spécialisés (vision, planification, contrôle) développés séparément. Un modèle unifié capable de gérer en continu la boucle perception-action représente un avantage potentiel pour les intégrateurs industriels : moins de friction entre sous-systèmes, une mise à jour centralisée, et une meilleure capacité d'adaptation à des tâches non vues lors de l'entraînement. Le fait démontré en test interne, selon lequel un robot peut détecter l'échec d'une préhension et réessayer sans avoir été entraîné spécifiquement sur ce scénario, illustre une forme de robustesse comportementale qui reste un défi ouvert pour les systèmes modulaires. Les scores sur RoboTwin 2.0 sont notables, mais les conditions précises du benchmark (variété des tâches, comparabilité entre laboratoires) méritent un regard critique : les résultats en simulation ne se transfèrent pas toujours au déploiement terrain. La capacité à maintenir de meilleures performances que les systèmes concurrents à mesure que la complexité des tâches et le volume de données augmentent suggère un bon passage à l'échelle, point clé pour des déploiements industriels à grande variété. ShengShu Technology s'est d'abord fait connaître via Vidu, sa plateforme de génération vidéo, dont les données à grande échelle alimentent désormais Motubrain pour apprendre la physique du monde réel. Fondée par Jun Zhu, professeur à l'Université Tsinghua, la société a levé 293 millions de dollars en Série B menée par Alibaba Cloud. Sur le marché des modèles cérébraux pour robots polyvalents, elle se positionne face à des acteurs comme Physical Intelligence (Pi-0, San Francisco), NVIDIA avec GR00T N2, et côté chinois, Agibot et Unitree. Le lancement de Motubrain intervient dans un contexte de compétition accélérée autour des modèles VLA (Vision-Language-Action) capables de généralisation multimodale. Les prochaines étapes annoncées incluent l'extension des partenariats industriels et le déploiement sur davantage de plateformes robotiques, sans calendrier précis communiqué.

Chine/AsieActu
1 source