
Un cerveau unique pour tout gérer : la Chine développe un modèle d'IA unifié pour la robotique multi-tâches complexe
La société chinoise ShengShu Technology a présenté Motubrain, un modèle d'IA unifié conçu pour servir de cerveau généraliste aux robots, intégrant perception, raisonnement, prédiction et action dans un seul système. Le modèle affiche un score de 63,77 sur le benchmark WorldArena et une moyenne de 96,0 sur 50 tâches du benchmark RoboTwin 2.0, ce qui en ferait à ce jour le seul modèle à dépasser 95,0 dans des environnements aléatoires. Contrairement aux architectures modulaires classiques qui séparent la perception, la planification et l'exécution en composants distincts, Motubrain traite simultanément flux vidéo, instructions en langage naturel et séquences d'actions via une architecture Mixture-of-Transformers à trois flux. Le modèle est capable d'enchaîner jusqu'à 10 actions atomiques par séquence, contre 2 à 3 pour la plupart des systèmes actuels. L'entraînement repose sur un mélange de vidéos non annotées, de données de simulation et d'enregistrements multi-robots, avec un framework d'actions latentes qui extrait les schémas de mouvement directement depuis ces entrées, réduisant la dépendance aux jeux de données labellisés. ShengShu indique que le modèle est déjà utilisé dans des programmes d'entraînement actifs couvrant des environnements industriels, commerciaux et domestiques, avec des partenariats annoncés avec Astribot, SimpleAI et Anyverse Dynamics. L'annonce signale une tentative de rupture avec l'approche dominante en robotique, qui consiste à assembler des modules spécialisés (vision, planification, contrôle) développés séparément. Un modèle unifié capable de gérer en continu la boucle perception-action représente un avantage potentiel pour les intégrateurs industriels : moins de friction entre sous-systèmes, une mise à jour centralisée, et une meilleure capacité d'adaptation à des tâches non vues lors de l'entraînement. Le fait démontré en test interne, selon lequel un robot peut détecter l'échec d'une préhension et réessayer sans avoir été entraîné spécifiquement sur ce scénario, illustre une forme de robustesse comportementale qui reste un défi ouvert pour les systèmes modulaires. Les scores sur RoboTwin 2.0 sont notables, mais les conditions précises du benchmark (variété des tâches, comparabilité entre laboratoires) méritent un regard critique : les résultats en simulation ne se transfèrent pas toujours au déploiement terrain. La capacité à maintenir de meilleures performances que les systèmes concurrents à mesure que la complexité des tâches et le volume de données augmentent suggère un bon passage à l'échelle, point clé pour des déploiements industriels à grande variété. ShengShu Technology s'est d'abord fait connaître via Vidu, sa plateforme de génération vidéo, dont les données à grande échelle alimentent désormais Motubrain pour apprendre la physique du monde réel. Fondée par Jun Zhu, professeur à l'Université Tsinghua, la société a levé 293 millions de dollars en Série B menée par Alibaba Cloud. Sur le marché des modèles cérébraux pour robots polyvalents, elle se positionne face à des acteurs comme Physical Intelligence (Pi-0, San Francisco), NVIDIA avec GR00T N2, et côté chinois, Agibot et Unitree. Le lancement de Motubrain intervient dans un contexte de compétition accélérée autour des modèles VLA (Vision-Language-Action) capables de généralisation multimodale. Les prochaines étapes annoncées incluent l'extension des partenariats industriels et le déploiement sur davantage de plateformes robotiques, sans calendrier précis communiqué.












