
MotionDisco : découverte de mouvements pour la loco-manipulation extrême des robots humanoïdes

Des chercheurs ont publié sur arXiv (réf. 2606.06139, juin 2026) MotionDisco, un cadre méthodologique capable de générer automatiquement des séquences de mouvements corps entier pour robots humanoïdes, sans recourir à la téleopération ni au retargeting de mouvements humains. Le système couple une recherche évolutionnaire guidée par un grand modèle de langage (LLM) sur des séquences d'interactions de contact, un optimiseur de trajectoire cinodynamique séquentiel et une stratégie d'élagage. Les trajectoires ainsi découvertes servent à entraîner des politiques de suivi par apprentissage par renforcement (RL), déployées ensuite sur un robot humanoïde physique dans des tâches de loco-manipulation longue durée. Des études d'ablation documentent que la recherche guidée par LLM produit des trajectoires corps entier cohérentes sur plusieurs tâches à long horizon impliquant des contacts riches avec l'environnement.
L'enjeu principal est de contourner la téleopération, aujourd'hui le principal mode d'acquisition de données pour les humanoïdes en manipulation, approche coûteuse et difficile à passer à l'échelle. La difficulté est fondamentalement combinatoire: le nombre d'interactions de contact possibles croît exponentiellement avec l'horizon temporel et le nombre d'objets en scène. En automatisant la découverte de compétences, MotionDisco ouvre une voie potentiellement scalable pour les intégrateurs industriels sans infrastructure de téleopération. Le transfert sim-to-real sur robot physique est démontré, ce qui distingue ce travail de nombreuses contributions demeurant en simulation. Les auteurs revendiquent une première mondiale: la découverte et le déploiement de compétences humanoïdes loco-manipulation longue durée par recherche évolutionnaire entièrement automatisée, une affirmation qui reste à valider indépendamment par la communauté.
Ce travail s'inscrit dans un paysage où les principaux acteurs humanoïdes, tels que Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), Unitree et NVIDIA (GR00T N2), misent massivement sur la téleopération et les démonstrations humaines pour entraîner leurs politiques de manipulation. L'utilisation d'un LLM comme moteur de recherche pour guider l'exploration de contacts s'apparente aux travaux récents sur les VLA (Vision-Language-Action models), mais positionnée en amont comme générateur de curriculum plutôt que comme politique de contrôle direct. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans l'article, qui demeure une contribution de recherche fondamentale sans affiliation ou plateforme matérielle spécifiée. Les extensions naturelles porteraient sur des scènes multi-objets plus complexes et la validation sur une gamme élargie de plateformes humanoïdes commerciales.
Dans nos dossiers




