RecherchearXiv cs.RO 18 juin 2026

Commande prédictive par modèle basée sur MuJoCo via dérivées d'espaces affines : robustesse et efficacité

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (2512.21109v2) une méthode d'optimisation du contrôle prédictif par modèle (MPC) dans MuJoCo, le simulateur physique open source de DeepMind, largement utilisé en robotique. Le coeur de la contribution est l'intégration de WASP (Web of Affine Spaces), une approche de calcul de dérivées, comme remplacement direct de la différentiation finie (FD) dans la bibliothèque MJPC (MuJoCo MPC). Les expériences montrent un gain de vitesse allant jusqu'à 2x par rapport au backend FD lorsque WASP est couplé à des planificateurs basés sur les dérivées, notamment iLQG (iterative Linear-Quadratic-Gaussian). Les tests couvrent plusieurs morphologies de robots avec des systèmes à grand nombre de degrés de liberté (DOF), contexte dans lequel FD devient particulièrement coûteux. L'implémentation est publiée en open source et s'intègre sans modification d'architecture dans MJPC existant.

L'enjeu est technique mais concret : la différentiation finie est historiquement le goulot d'étranglement du MPC en temps réel sur des systèmes complexes, car elle nécessite de nombreuses évaluations du simulateur pour estimer les gradients. WASP contourne ce problème en réutilisant les informations de calculs de dérivées précédents, ce qui est particulièrement adapté aux mises à jour itératives et incrémentales du MPC. En pratique, cela signifie qu'un contrôleur MPC peut fonctionner à des fréquences plus élevées ou sur des robots avec davantage de degrés de liberté sans augmenter le budget computationnel, un facteur déterminant pour le déploiement sur matériel réel. Les auteurs rapportent également que WASP surpasse les planificateurs stochastiques par échantillonnage de MJPC sur les tâches d'évaluation, en fiabilité et en efficacité, ce qui renforce l'argument en faveur des méthodes basées sur les gradients lorsque ceux-ci sont calculables de façon robuste.

MJPC est l'implémentation de référence du MPC sur MuJoCo, et MuJoCo lui-même est devenu le simulateur standard dans la recherche en locomotion et manipulation depuis son acquisition par DeepMind en 2021 et son passage en open source. La différentiation finie y était utilisée faute de meilleures alternatives efficaces pour des simulateurs de contact. WASP a été introduit récemment comme méthode générique de calcul de dérivées approximées en séquence, et ce papier constitue sa première intégration documentée dans un framework MPC robotique établi. Les concurrents directs sur le terrain du MPC différentiable incluent des approches comme Dojo ou MJX (version JAX de MuJoCo permettant la différentiation automatique), mais WASP se positionne comme solution sans réécriture du simulateur sous-jacent. Les prochaines étapes probables sont l'évaluation sur du matériel réel et l'extension à des scènes de contact plus complexes, qui restent le cas limite critique pour tout simulateur physique.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Approximation de la sécurité sans oracle de sécurité via la commande prédictive par modèle

Des chercheurs ont publié sur arXiv (référence 2510.20955v2) un algorithme permettant de vérifier la sécurité des décisions d'un robot mobile sans disposer d'un oracle de sécurité formel. Les approches classiques exigent soit des contraintes explicitement modélisées, soit des données annotées manuellement comme sûres ou dangereuses, deux méthodes coûteuses en ingénierie et sources d'erreurs. L'algorithme proposé contourne ce besoin via un simulateur : avant d'exécuter une action, le système la projette dans le simulateur vers un état futur, puis utilise l'algorithme Model-Predictive Path Integral (MPPI) pour vérifier l'existence d'un chemin de retour vers un état antérieur de la trajectoire. Sous une hypothèse d'invariance positive sur l'espace des états dangereux, si ce chemin de retour existe, l'état courant est mathématiquement garanti hors de la zone à risque. Les expériences montrent que la méthode approche les performances d'un oracle réel, en limitant notamment les faux négatifs, c'est-à-dire les cas où un état dangereux serait classifié à tort comme sûr. L'enjeu pratique est réel pour le déploiement des AMR (Autonomous Mobile Robots) en environnements industriels non structurés. La dépendance aux annotations manuelles de sécurité constitue un goulot d'étranglement majeur : chaque changement de site ou de configuration peut invalider les contraintes précédemment formulées. En exploitant les contraintes implicites déjà encodées dans les simulateurs physiques modernes, cette approche rend les systèmes de contrôle sûr plus généralisables, sans réécriture à chaque nouveau déploiement. Éliminer les faux négatifs est critique : c'est le scénario où un robot exécute une action jugée sûre à tort, avec des conséquences potentiellement irréversibles en conditions réelles. MPPI est un algorithme de planification par échantillonnage stochastique, initialement développé à Georgia Tech dans les travaux de Grady Williams et Evangelos Theodorou, et depuis repris dans de nombreux travaux sur la navigation autonome et les véhicules sans conducteur. Son utilisation ici comme outil de vérification de réversibilité plutôt que de planification directe constitue l'originalité méthodologique centrale de la contribution. Le travail s'inscrit dans un courant de recherche actif sur la sécurité sans supervision dense, aux côtés des Control Barrier Functions (CBF) appris par données et du safe reinforcement learning. L'article reste une contribution académique avec résultats en simulation uniquement, sans partenaire industriel ni déploiement annoncé. La prochaine étape naturelle serait une validation sur hardware réel dans des environnements aux contraintes implicites complexes et une comparaison quantitative avec des méthodes CBF classiques sur des benchmarks standardisés.

RecherchePaper

1 source

2arXiv cs.RO

TurboMPC : commande prédictive par modèle rapide, évolutive et différentiable sur GPU

Le Toyota Research Institute (TRI) a publié le 24 juin 2026 TurboMPC, un solveur MPC (commande prédictive par modèle) différentiable fonctionnant entièrement sur GPU. Implémenté en JAX-CUDA, il combine programmation quadratique séquentielle (SQP), solveur interne ADMM et différentiation implicite, tout en supportant contraintes d'inégalité sur états et contrôles, intégrateurs implicites, coûts couplés temporellement et variables de slack. Les gains de performance atteignent jusqu'à 15x par rapport aux solveurs CPU différentiables de référence et jusqu'à 58x face aux meilleurs solveurs GPU existants. Validé en simulation sur planification contrainte, imitation learning pour humanoïde et apprentissage par renforcement à fonction de coût neuronale, TurboMPC a également été testé sur un véhicule réel en conduite à temps minimal. L'optimisation bayésienne des paramètres MPC, rendue possible par le traitement par lots sur GPU, y produit des vitesses nettement supérieures au réglage manuel. Le solveur tient jusqu'à 8 000 points de trajectoire sans perdre le contrôle du véhicule. Le code est mis en open source sur GitHub (ToyotaResearchInstitute/turbompc). L'apport central est la réconciliation entre pipelines GPU d'apprentissage profond et solveurs MPC traditionnellement CPU-centric, une friction qui forçait des transferts mémoire coûteux et une hétérogénéité matérielle pénalisante en production. En restant entièrement sur GPU et en étant différentiable de bout en bout, TurboMPC s'intègre directement dans des boucles d'entraînement par gradient, ce qui valide à grande échelle l'hypothèse des "differentiable MPC" longtemps discutée dans la littérature. La démonstration sur imitation learning humanoïde est particulièrement significative: elle montre que des formulations MPC expressives peuvent rivaliser avec les approches purement apprises pour des robots à haute dimensionnalité, sans abandonner les garanties de planification. TRI, branche recherche de Toyota dédiée à la robotique et aux véhicules autonomes, publie face à des alternatives établies comme Crocoddyl du LAAS-CNRS (Toulouse, France), ALTRO (Stanford/CMU) et Theseus (Meta AI), tous majoritairement CPU-centric ou partiellement GPU. La présence de Crocoddyl dans ce paysage concurrentiel donne une visibilité directe au laboratoire toulousain, dont les travaux seront mis en compétition par ces nouveaux benchmarks. La mise en open source facilite l'intégration dans des simulateurs parallèles comme Isaac Lab ou Genesis. Les prochaines étapes probables incluent des évaluations sur plateformes humanoïdes réelles et une adoption dans des pipelines robotiques industriels.

UELe LAAS-CNRS (Toulouse) voit son solveur Crocoddyl directement mis en compétition par TurboMPC sur les benchmarks GPU, ce qui expose la recherche française en commande prédictive robotique à une comparaison défavorable sur les critères de performance.

RecherchePaper

1 source

3arXiv cs.RO

Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique

Une équipe de chercheurs a publié le framework IFM (Imitating and Finetuning Model Predictive Control), une approche hybride pour le contrôle de robots quadrupèdes sur des terrains difficiles. La méthode, disponible sur arXiv sous la référence 2311.02304v3, s'articule en trois phases séquentielles : d'abord, un contrôleur MPC classique est construit à partir de la Programmation Dynamique Différentielle (DDP) couplée à l'heuristique de Raibert pour définir une politique experte ; ensuite, ce contrôleur est cloné par apprentissage par imitation afin de le rendre adaptable par gradient ; enfin, un deep reinforcement learning (RL) à exploration volontairement limitée affine la politique sur des terrains exigeants, notamment surfaces rugueuses, revêtements glissants et tapis roulants. Des expériences menées en simulation puis sur matériel réel valident les performances du framework dans ces trois configurations. Le principal apport d'IFM est de combiner la robustesse formelle du contrôle model-based et la flexibilité de l'apprentissage profond, sans les défauts propres à chaque approche prise isolément. En pratique, IFM produit des allures (gaits) significativement plus symétriques, périodiques et économes en énergie que le RL classique dit "Vanilla RL", tout en réduisant considérablement le travail de reward shaping, c'est-à-dire la conception laborieuse de fonctions de récompense qui constitue l'un des principaux freins industriels au RL pour la locomotion. L'exploration limitée en phase RL est une décision architecturale notable : elle contraint le réseau à rester proche de la politique MPC apprise, ce qui stabilise l'apprentissage sur des terrains hors distribution sans divergence comportementale, un résultat difficile à obtenir avec du RL pur. Le contrôle de la locomotion quadrupède est un champ de recherche dense depuis les travaux fondateurs de Marc Raibert au MIT Leg Lab dans les années 1980, dont l'heuristique de placement de pied est encore employée ici comme référence. Les approches récentes se partagent entre contrôle model-based pur (ETH Zurich avec ANYmal et le groupe RSL), RL pur (UC Berkeley, Carnegie Mellon) et hybrides croissants. IFM s'inscrit dans cette troisième catégorie, en compétition directe avec des pipelines teacher-student d'ETH Zurich ou des frameworks comme DribbleBot. La publication ne mentionne aucun déploiement industriel ni partenariat commercial : il s'agit d'une contribution académique, dont la valeur pratique dépendra de sa transferabilité à des robots commerciaux comme l'Unitree Go2 ou le Boston Dynamics Spot, plateformes sur lesquelles plusieurs groupes appliquent déjà des méthodologies similaires.

RecherchePaper

1 source

4arXiv cs.RO

CacheMPC : commande prédictive par modèle certifiée avec cache pour la locomotion quadrupède

Une équipe de recherche propose CacheMPC, un mécanisme de mise en cache certifiée pour le Model Predictive Control (MPC) appliqué à la locomotion de robots quadrupèdes, publié sur arXiv (2606.28300). Le MPC constitue la couche prédictive standard dans les contrôleurs hiérarchiques de quadrupèdes, mais son solveur QP (programmation quadratique) recalculé à chaque cycle constitue un goulot d'étranglement sur processeur embarqué. Certified CacheMPC adresse ce problème via un cache indexé par Locality-Sensitive Hashing (LSH) de trajectoires de forces de contact, partitionné par mode de contact. Chaque entrée récupérée est acceptée uniquement si un certificat a posteriori confirme la faisabilité primale et une borne supérieure sur la sous-optimalité via le dual gap lagrangien. Le contrôleur combine récupération certifiée top-K, solveur QP à deadline bornée, et fallback sur la dernière solution certifiée. Validé sur un Unitree Go2, le système a été évalué sur 2 038 essais MuJoCo en froid contrôleur, dont une campagne de 600 essais à n=50 sur trois cellules à la frontière d'échec, puis déployé physiquement sur le NVIDIA Orin NX embarqué du robot. Le cache sans filtrage atteint un gain médian de 25x en temps de calcul en simulation, et 18,7x sur hardware réel. L'enjeu industriel est direct : MPC haute fréquence sur SoC embarqué standard (Orin NX, environ 10-15W) sans recourir à un ASIC dédié ou à une approximation neuronale. Un facteur 18,7x de réduction du temps de solve ouvre la porte à des boucles de contrôle plus rapides sur des plateformes commerciales comme le Go2, utilisé massivement dans la recherche académique et les pilotes industriels légers. La certification formelle distingue cette approche des méthodes d'apprentissage du MPC (neural MPC, learning-based warm-starting) qui offrent des speedups similaires mais sans garantie exploitable. Nuance importante : la contribution du certificat à la stabilité en boucle fermée n'est pas statistiquement résolvable à la taille d'échantillon actuelle (n=50). Aucune différence significative n'a été détectée entre les variantes avec et sans cache, ce qui est honnête scientifiquement mais laisse la question de sécurité formelle ouverte. Le MPC pour locomotion quadrupède s'est imposé depuis les travaux d'ETH Zurich (ANYmal) et du MIT (Cheetah), avec des implémentations ouvertes comme ACADOS ou OSQP qui restent les références en solve embarqué. CacheMPC s'inscrit dans un courant distinct : plutôt qu'accélérer le solveur ou substituer le MPC par un réseau de neurones, il exploite la répétabilité des gaits locomoteurs pour réutiliser des solutions passées. Les concurrents directs incluent les approches de warm-starting par apprentissage (DeepMPC, L4DC 2024) et les approximateurs explicites de MPC. Le Unitree Go2 est devenu le benchmark de facto à petit budget pour ce type de validation hardware. Les prochaines étapes naturelles seraient une campagne avec n significativement plus grand pour trancher sur la sécurité certifiée, et une extension aux bipèdes ou aux transitions de mode de contact plus complexes.

RecherchePaper

1 source