
Accélérer et étendre l'apprentissage par renforcement guidé par MPC pour la locomotion et la manipulation humanoïdes
Une équipe de recherche publie sur arXiv (arXiv:2606.05687v1) une méthode hybride MPC-RL pour le contrôle moteur des robots humanoïdes, baptisée MPC-RL. Le principe : intégrer un contrôleur prédictif par modèle (MPC) directement dans la boucle d'entraînement par renforcement (RL), en utilisant les trajectoires générées par le MPC comme signal de récompense basé sur la dynamique centroïdale du robot. La contribution technique centrale est un solveur GPU appelé pi-n-MPC, parallélisé à la fois sur l'horizon temporel et sur les instances de simulation, sans nécessiter de précompilation ni de construction explicite du problème à chaque pas. Les auteurs reportent des validations sur hardware réel, sans préciser les plateformes matérielles ni les cycles de tests. Le code est disponible en open source sur GitHub.
L'enjeu industriel derrière ce travail est réel : le RL massif en simulation parallèle (Isaac Gym, Mujoco MJX) est devenu le standard pour entraîner des compétences de locomotion et de manipulation humanoïde, mais y injecter un MPC est historiquement coûteux en temps de construction et en mémoire GPU. Pi-n-MPC contourne ces deux goulots d'étranglement en opérant directement sur des dynamiques variables dans le temps, sans accumuler de mémoire excessive. Si les gains revendiqués se confirment à l'échelle, cela ouvre la voie à des politiques hybrides MPC/RL entraînables sur des clusters GPU standard, sans infrastructure spécialisée. Attention toutefois : le papier s'appuie sur des études comparatives internes et des validations hardware dont les conditions exactes (charges, cycles, environnements) ne sont pas détaillées dans le résumé disponible, ce qui limite l'évaluation externe des performances annoncées.
La combinaison MPC-RL n'est pas nouvelle dans la recherche en locomotion : des travaux comme ceux de DeepMind sur le contrôle de quadrupèdes ou les approches whole-body de CMU et ETH Zurich ont exploré des directions similaires. La spécificité ici réside dans l'accent mis sur la scalabilité GPU et l'absence de précompilation, deux verrous pratiques qui freinent l'adoption dans les pipelines d'entraînement industriels. Les acteurs qui déploient activement des humanoïdes en environnement réel, comme Figure AI, Apptronik ou Agility Robotics, travaillent tous à réduire le sim-to-real gap sur la manipulation dextre : une infrastructure d'entraînement MPC-RL plus légère pourrait accélérer leurs cycles d'itération. La prochaine étape naturelle serait une validation sur des plateformes nommées et des tâches de manipulation avec contraintes de contact.
Dans nos dossiers




