MIND : contrôle de robot humanoïde par diffusion d'intention multi-échelle guidée par le texte
Des chercheurs ont publié fin mai 2026 sur arXiv (2605.26006) MIND, un cadre de contrôle d'humanoïdes simulés piloté par commandes textuelles. Le système traduit une instruction en langage naturel en actions moteur de bas niveau via un mécanisme de diffusion multi-échelle. Deux composants cohabitent : un prédicteur d'intention globale, qui capture la dynamique générale du mouvement, et un prédicteur d'intention immédiate, qui raffine le geste à chaque itération du processus de diffusion. Clé du dispositif : les états internes de l'humanoïde sont encodés dans un espace latent et servent de pont sémantique entre le texte et les commandes moteur. Le code source sera mis en accès ouvert pour faciliter la reproductibilité.
L'apport de MIND est de contourner deux limitations structurelles bien documentées dans la littérature. Les pipelines en deux étapes, génération cinématique puis suivi physique, souffrent d'un décalage de domaine entre les deux modules, ce qui dégrade la qualité des comportements générés. Les approches bout-en-bout par imitation directe texte-vers-actions buttent sur l'écart sémantique entre langage naturel et signaux de bas niveau. En positionnant les états internes de l'humanoïde comme médiateur, sémantiquement plus proches du texte que les couples articulaires bruts, MIND réduit ce double handicap. Les benchmarks expérimentaux montrent des gains en cohérence physique et en alignement sémantique face aux méthodes de référence, bien que ces évaluations restent en environnement simulé, sans validation sur hardware réel.
Le contrôle d'humanoïdes par langage naturel se situe à l'intersection du reinforcement learning, de l'animation physique et des grands modèles de langage. Des travaux antérieurs comme PHC ou les modèles de diffusion de mouvement (MDM, MotionDiffuse) ont établi les bases cinématiques que MIND cherche à dépasser sur le plan de la plausibilité physique. Côté industriel, Figure AI, Boston Dynamics et Unitree Robotics explorent des pipelines texte-vers-mouvement pour leurs plateformes hardware, mais la majorité des démos publiées restent en simulation ou sur des tâches très contraintes. MIND s'inscrit dans la recherche fondamentale sans annoncer de déploiement concret ; son impact réel dépendra de sa capacité à franchir le sim-to-real gap, défi central non résolu pour le contrôle de corps entier.
Dans nos dossiers




