
Shengshu Technology lance Motubrain, son modèle monde-action
La société chinoise Shengshu Technology a annoncé Motubrain, un modèle dit "monde-action" (world-action model) conçu comme cerveau unifié pour systèmes d'IA incarnée. L'architecture fusionne modélisation du monde et génération d'actions dans un cadre unique, avec pour ambition de couvrir l'adaptation cross-embodiment, la généralisation multi-tâches et l'exécution de séquences longues. Sur les benchmarks, Motubrain revendique la première place dans deux évaluations internationales : un score EWM de 63,77 sur WorldArena, et un score supérieur à 95 sur RoboTwin 2.0 en environnement aléatoire, ce qui en ferait le seul modèle à franchir ce seuil. En démonstration réelle, le système a été présenté sur des tâches comme la composition florale, le service de cocktails et la cuisine, en maintenant, selon l'entreprise, des performances cohérentes sur plusieurs plateformes robotiques distinctes. Shengshu annonce des partenariats avec plusieurs fabricants de robots pour accélérer le déploiement, sans préciser lesquels ni sur quels volumes.
L'annonce s'inscrit dans une dynamique de fond : la convergence entre modèles de monde et modèles d'action est devenue l'un des paris stratégiques majeurs de la robotique généraliste. Là où les approches VLA (Vision-Language-Action) classiques séparent compréhension et génération de mouvement, Motubrain prétend les unifier, ce qui, si les résultats benchmark sont confirmés en conditions industrielles, changerait le calcul pour les intégrateurs : moins de pipelines à orchestrer, meilleure robustesse aux variations d'environnement. Le score RoboTwin 2.0 est particulièrement scruté car ce benchmark cible spécifiquement la manipulation bimanuele en environnement non structuré, un goulot d'étranglement persistant pour le déploiement en atelier. Il convient néanmoins de noter que les démonstrations vidéo publiées restent des cas sélectionnés, sans données de taux de succès sur cycles répétés ni de latence end-to-end, ce qui rend difficile une comparaison rigoureuse avec des systèmes comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA.
Shengshu Technology est actif dans l'espace de la génération vidéo et des modèles génératifs chinois depuis plusieurs années, mais Motubrain marque un pivot explicite vers l'IA incarnée. Sur le plan concurrentiel, le modèle se positionne face à Pi-0 (Physical Intelligence), Helix (Figure), RDT-1B (Tsinghua) et les initiatives en cours chez 1X et Agility. La Chine accélère significativement dans ce segment, avec des acteurs comme Unitree, AGIBOT et désormais Shengshu qui visent une commercialisation de modèles fondationnels pour robots plutôt que des robots clés en main. Les prochaines étapes annoncées concernent le déploiement chez des partenaires industriels non nommés, sans calendrier précis ni confirmation d'un accès public au modèle.
La montée en puissance des modèles fondationnels chinois pour la robotique incarnée intensifie la pression concurrentielle sur les acteurs européens du VLA et de l'IA physique, sans impact direct identifiable à ce stade.
Dans nos dossiers




