MPC-Injection : orienter le RL de locomotion hors-politique vers les bassins d'attraction du contrôleur
Des chercheurs ont publié en juin 2026 sur arXiv une méthode baptisée MPC-Injection, conçue pour résoudre un problème récurrent dans l'entraînement par renforcement appliqué à la locomotion robotique : la convergence vers des comportements localement optimaux mais inutilisables en production, comme des membres qui vibrent en place ou un robot qui progresse en se traînant sur son torse. La technique consiste à injecter dans le replay buffer, la mémoire d'expériences utilisée par les algorithmes off-policy, des transitions générées par un contrôleur MPC (Model Predictive Control) résolvant le même problème de décision séquentielle. Le comportement préféré du concepteur est ainsi transféré à la politique apprise, non par une modification de la récompense, mais uniquement par le biais de la distribution des états explorés. Les auteurs valident l'approche sur un marcheur 2D en simulation, puis en transfert sim-to-real sur le quadrupède Go2 de Unitree Robotics, un robot commercialement disponible.
L'intérêt principal est la simplicité du surcoût. Là où le reward shaping classique exige jusqu'à vingt et un termes de récompense soigneusement ajustés, MPC-Injection produit des allures qualitativement comparables avec une récompense à un ou deux termes seulement. Contrairement à l'adversarial motion prior (AMP) et aux méthodes d'imitation adversariale, la méthode ne nécessite ni discriminateur, ni retargeting cinématique, ni objectif auxiliaire. C'est un résultat notable : il suggère que la distribution des états du replay buffer est un levier de guidage aussi puissant que la forme de récompense ou l'imitation explicite, ce qui simplifie considérablement le pipeline d'ingénierie pour les équipes qui déploient des robots sur du matériel réel.
La méthode s'inscrit dans un effort plus large de la communauté pour réduire le sim-to-real gap sans multiplier les hypothèses sur la dynamique du robot. Le Go2 de Unitree est devenu un banc de test de référence pour ces travaux, utilisé notamment dans des recherches concurrentes sur les VLA (Vision-Language-Action models) et les politiques de locomotion neuronales. Les alternatives directes, reward shaping multi-termes, AMP de Berkeley, méthodes de retargeting par mocap, ont toutes un coût d'implémentation ou de collecte de données plus élevé. MPC-Injection se positionne comme un pont pragmatique entre contrôle classique et apprentissage, particulièrement pertinent pour les équipes disposant déjà d'un contrôleur MPC opérationnel et souhaitant affiner une politique RL sans repartir de zéro sur la définition de récompense.
Dans nos dossiers




