
Commande prédictive par modèle basée sur MuJoCo via dérivées d'espaces affines : robustesse et efficacité
Des chercheurs ont publié sur arXiv (2512.21109v2) une méthode d'optimisation du contrôle prédictif par modèle (MPC) dans MuJoCo, le simulateur physique open source de DeepMind, largement utilisé en robotique. Le coeur de la contribution est l'intégration de WASP (Web of Affine Spaces), une approche de calcul de dérivées, comme remplacement direct de la différentiation finie (FD) dans la bibliothèque MJPC (MuJoCo MPC). Les expériences montrent un gain de vitesse allant jusqu'à 2x par rapport au backend FD lorsque WASP est couplé à des planificateurs basés sur les dérivées, notamment iLQG (iterative Linear-Quadratic-Gaussian). Les tests couvrent plusieurs morphologies de robots avec des systèmes à grand nombre de degrés de liberté (DOF), contexte dans lequel FD devient particulièrement coûteux. L'implémentation est publiée en open source et s'intègre sans modification d'architecture dans MJPC existant.
L'enjeu est technique mais concret : la différentiation finie est historiquement le goulot d'étranglement du MPC en temps réel sur des systèmes complexes, car elle nécessite de nombreuses évaluations du simulateur pour estimer les gradients. WASP contourne ce problème en réutilisant les informations de calculs de dérivées précédents, ce qui est particulièrement adapté aux mises à jour itératives et incrémentales du MPC. En pratique, cela signifie qu'un contrôleur MPC peut fonctionner à des fréquences plus élevées ou sur des robots avec davantage de degrés de liberté sans augmenter le budget computationnel, un facteur déterminant pour le déploiement sur matériel réel. Les auteurs rapportent également que WASP surpasse les planificateurs stochastiques par échantillonnage de MJPC sur les tâches d'évaluation, en fiabilité et en efficacité, ce qui renforce l'argument en faveur des méthodes basées sur les gradients lorsque ceux-ci sont calculables de façon robuste.
MJPC est l'implémentation de référence du MPC sur MuJoCo, et MuJoCo lui-même est devenu le simulateur standard dans la recherche en locomotion et manipulation depuis son acquisition par DeepMind en 2021 et son passage en open source. La différentiation finie y était utilisée faute de meilleures alternatives efficaces pour des simulateurs de contact. WASP a été introduit récemment comme méthode générique de calcul de dérivées approximées en séquence, et ce papier constitue sa première intégration documentée dans un framework MPC robotique établi. Les concurrents directs sur le terrain du MPC différentiable incluent des approches comme Dojo ou MJX (version JAX de MuJoCo permettant la différentiation automatique), mais WASP se positionne comme solution sans réécriture du simulateur sous-jacent. Les prochaines étapes probables sont l'évaluation sur du matériel réel et l'extension à des scènes de contact plus complexes, qui restent le cas limite critique pour tout simulateur physique.
Dans nos dossiers




