RecherchearXiv cs.RO1h

TurboMPC : commande prédictive par modèle rapide, évolutive et différentiable sur GPU

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Le Toyota Research Institute (TRI) a publié le 24 juin 2026 TurboMPC, un solveur MPC (commande prédictive par modèle) différentiable fonctionnant entièrement sur GPU. Implémenté en JAX-CUDA, il combine programmation quadratique séquentielle (SQP), solveur interne ADMM et différentiation implicite, tout en supportant contraintes d'inégalité sur états et contrôles, intégrateurs implicites, coûts couplés temporellement et variables de slack. Les gains de performance atteignent jusqu'à 15x par rapport aux solveurs CPU différentiables de référence et jusqu'à 58x face aux meilleurs solveurs GPU existants. Validé en simulation sur planification contrainte, imitation learning pour humanoïde et apprentissage par renforcement à fonction de coût neuronale, TurboMPC a également été testé sur un véhicule réel en conduite à temps minimal. L'optimisation bayésienne des paramètres MPC, rendue possible par le traitement par lots sur GPU, y produit des vitesses nettement supérieures au réglage manuel. Le solveur tient jusqu'à 8 000 points de trajectoire sans perdre le contrôle du véhicule. Le code est mis en open source sur GitHub (ToyotaResearchInstitute/turbompc).

L'apport central est la réconciliation entre pipelines GPU d'apprentissage profond et solveurs MPC traditionnellement CPU-centric, une friction qui forçait des transferts mémoire coûteux et une hétérogénéité matérielle pénalisante en production. En restant entièrement sur GPU et en étant différentiable de bout en bout, TurboMPC s'intègre directement dans des boucles d'entraînement par gradient, ce qui valide à grande échelle l'hypothèse des "differentiable MPC" longtemps discutée dans la littérature. La démonstration sur imitation learning humanoïde est particulièrement significative: elle montre que des formulations MPC expressives peuvent rivaliser avec les approches purement apprises pour des robots à haute dimensionnalité, sans abandonner les garanties de planification.

TRI, branche recherche de Toyota dédiée à la robotique et aux véhicules autonomes, publie face à des alternatives établies comme Crocoddyl du LAAS-CNRS (Toulouse, France), ALTRO (Stanford/CMU) et Theseus (Meta AI), tous majoritairement CPU-centric ou partiellement GPU. La présence de Crocoddyl dans ce paysage concurrentiel donne une visibilité directe au laboratoire toulousain, dont les travaux seront mis en compétition par ces nouveaux benchmarks. La mise en open source facilite l'intégration dans des simulateurs parallèles comme Isaac Lab ou Genesis. Les prochaines étapes probables incluent des évaluations sur plateformes humanoïdes réelles et une adoption dans des pipelines robotiques industriels.

Impact France/UE

Le LAAS-CNRS (Toulouse) voit son solveur Crocoddyl directement mis en compétition par TurboMPC sur les benchmarks GPU, ce qui expose la recherche française en commande prédictive robotique à une comparaison défavorable sur les critères de performance.

Dans nos dossiers

NVIDIA Isaac & Cosmos

À lire aussi

1arXiv cs.RO

GATO : optimisation de trajectoire accélérée par GPU et par lots pour la commande prédictive par modèle embarquée et évolutive

Une équipe de chercheurs a publié sur arXiv (identifiant 2510.07625v2) GATO, un solveur open source conçu pour accélérer massivement les calculs de trajectoire en temps réel dans les systèmes de contrôle prédictif par modèle (MPC). Concrètement, GATO cible le régime de lots modérés, soit des dizaines à quelques centaines de problèmes d'optimisation de trajectoires non linéaires résolus simultanément à chaque cycle de contrôle. Les benchmarks sur simulateur affichent des gains de 18 à 21 fois par rapport aux solveurs CPU de référence, et de 1,4 à 16 fois par rapport aux approches GPU existantes selon la taille des lots. Le solveur a été validé sur matériel réel via un bras manipulateur industriel, ce qui dépasse le stade de la démonstration purement simulée. Ce résultat comble un angle mort persistant dans l'écosystème MPC pour la robotique : les approches GPU actuelles parallélisent efficacement une seule résolution, ou traitent de très grands lots à des cadences sous temps réel, mais aucune ne couvre bien le régime intermédiaire où opèrent de nombreuses applications avancées, notamment la planification de mouvement pour bras industriels, la locomotion d'humanoïdes ou la navigation d'AMR en environnement dynamique. GATO co-conçoit l'algorithme, le logiciel et l'architecture matérielle en exploitant le parallélisme à trois niveaux : bloc, warp et thread CUDA. Les études de cas montrent une meilleure rejection des perturbations et une convergence accélérée, deux métriques directement pertinentes pour les intégrateurs industriels et les équipes de contrôle embarqué. Le MPC est un standard de facto en robotique et en contrôle de procédés, mais son coût computationnel a longtemps limité son usage aux systèmes à dynamique lente ou aux architectures avec CPU puissants dédiés. Les GPU embarqués, désormais présents sur les plateformes robotiques modernes (Jetson, Orin), rendent ce type de co-design pertinent pour le déploiement edge. Aucun acteur industriel nommé n'est associé à ce travail, qui reste pour l'instant une contribution académique ouverte, sans annonce de commercialisation ni partenariat industriel déclaré. La mise à disposition en open source vise à favoriser la reproductibilité et l'adoption par les équipes de recherche et développement, avec un potentiel d'intégration dans des frameworks MPC existants comme Crocoddyl ou ALTRO.

UECrocoddyl, l'un des frameworks MPC cibles d'intégration mentionnés, est développé au LAAS-CNRS (Toulouse, France), ce qui rend GATO directement pertinent pour les équipes de recherche françaises en contrôle de robots.

RecherchePaper

1 source

2arXiv cs.RO

Commande prédictive par modèle basée sur MuJoCo via dérivées d'espaces affines : robustesse et efficacité

Des chercheurs ont publié sur arXiv (2512.21109v2) une méthode d'optimisation du contrôle prédictif par modèle (MPC) dans MuJoCo, le simulateur physique open source de DeepMind, largement utilisé en robotique. Le coeur de la contribution est l'intégration de WASP (Web of Affine Spaces), une approche de calcul de dérivées, comme remplacement direct de la différentiation finie (FD) dans la bibliothèque MJPC (MuJoCo MPC). Les expériences montrent un gain de vitesse allant jusqu'à 2x par rapport au backend FD lorsque WASP est couplé à des planificateurs basés sur les dérivées, notamment iLQG (iterative Linear-Quadratic-Gaussian). Les tests couvrent plusieurs morphologies de robots avec des systèmes à grand nombre de degrés de liberté (DOF), contexte dans lequel FD devient particulièrement coûteux. L'implémentation est publiée en open source et s'intègre sans modification d'architecture dans MJPC existant. L'enjeu est technique mais concret : la différentiation finie est historiquement le goulot d'étranglement du MPC en temps réel sur des systèmes complexes, car elle nécessite de nombreuses évaluations du simulateur pour estimer les gradients. WASP contourne ce problème en réutilisant les informations de calculs de dérivées précédents, ce qui est particulièrement adapté aux mises à jour itératives et incrémentales du MPC. En pratique, cela signifie qu'un contrôleur MPC peut fonctionner à des fréquences plus élevées ou sur des robots avec davantage de degrés de liberté sans augmenter le budget computationnel, un facteur déterminant pour le déploiement sur matériel réel. Les auteurs rapportent également que WASP surpasse les planificateurs stochastiques par échantillonnage de MJPC sur les tâches d'évaluation, en fiabilité et en efficacité, ce qui renforce l'argument en faveur des méthodes basées sur les gradients lorsque ceux-ci sont calculables de façon robuste. MJPC est l'implémentation de référence du MPC sur MuJoCo, et MuJoCo lui-même est devenu le simulateur standard dans la recherche en locomotion et manipulation depuis son acquisition par DeepMind en 2021 et son passage en open source. La différentiation finie y était utilisée faute de meilleures alternatives efficaces pour des simulateurs de contact. WASP a été introduit récemment comme méthode générique de calcul de dérivées approximées en séquence, et ce papier constitue sa première intégration documentée dans un framework MPC robotique établi. Les concurrents directs sur le terrain du MPC différentiable incluent des approches comme Dojo ou MJX (version JAX de MuJoCo permettant la différentiation automatique), mais WASP se positionne comme solution sans réécriture du simulateur sous-jacent. Les prochaines étapes probables sont l'évaluation sur du matériel réel et l'extension à des scènes de contact plus complexes, qui restent le cas limite critique pour tout simulateur physique.

RecherchePaper

1 source

3arXiv cs.RO

Approximation de la sécurité sans oracle de sécurité via la commande prédictive par modèle

Des chercheurs ont publié sur arXiv (référence 2510.20955v2) un algorithme permettant de vérifier la sécurité des décisions d'un robot mobile sans disposer d'un oracle de sécurité formel. Les approches classiques exigent soit des contraintes explicitement modélisées, soit des données annotées manuellement comme sûres ou dangereuses, deux méthodes coûteuses en ingénierie et sources d'erreurs. L'algorithme proposé contourne ce besoin via un simulateur : avant d'exécuter une action, le système la projette dans le simulateur vers un état futur, puis utilise l'algorithme Model-Predictive Path Integral (MPPI) pour vérifier l'existence d'un chemin de retour vers un état antérieur de la trajectoire. Sous une hypothèse d'invariance positive sur l'espace des états dangereux, si ce chemin de retour existe, l'état courant est mathématiquement garanti hors de la zone à risque. Les expériences montrent que la méthode approche les performances d'un oracle réel, en limitant notamment les faux négatifs, c'est-à-dire les cas où un état dangereux serait classifié à tort comme sûr. L'enjeu pratique est réel pour le déploiement des AMR (Autonomous Mobile Robots) en environnements industriels non structurés. La dépendance aux annotations manuelles de sécurité constitue un goulot d'étranglement majeur : chaque changement de site ou de configuration peut invalider les contraintes précédemment formulées. En exploitant les contraintes implicites déjà encodées dans les simulateurs physiques modernes, cette approche rend les systèmes de contrôle sûr plus généralisables, sans réécriture à chaque nouveau déploiement. Éliminer les faux négatifs est critique : c'est le scénario où un robot exécute une action jugée sûre à tort, avec des conséquences potentiellement irréversibles en conditions réelles. MPPI est un algorithme de planification par échantillonnage stochastique, initialement développé à Georgia Tech dans les travaux de Grady Williams et Evangelos Theodorou, et depuis repris dans de nombreux travaux sur la navigation autonome et les véhicules sans conducteur. Son utilisation ici comme outil de vérification de réversibilité plutôt que de planification directe constitue l'originalité méthodologique centrale de la contribution. Le travail s'inscrit dans un courant de recherche actif sur la sécurité sans supervision dense, aux côtés des Control Barrier Functions (CBF) appris par données et du safe reinforcement learning. L'article reste une contribution académique avec résultats en simulation uniquement, sans partenaire industriel ni déploiement annoncé. La prochaine étape naturelle serait une validation sur hardware réel dans des environnements aux contraintes implicites complexes et une comparaison quantitative avec des méthodes CBF classiques sur des benchmarks standardisés.

RecherchePaper

1 source

4arXiv cs.RO

Génération de code et contraintes coniques pour la commande prédictive sur microcontrôleurs avec Conic-TinyMPC

Une équipe de chercheurs a publié Conic-TinyMPC, une extension du solveur embarqué TinyMPC qui ajoute le support des contraintes coniques du second ordre (SOCP) et la génération automatique de code C++ depuis Python, MATLAB et Julia. Sur microcontrôleurs à ressources limitées, le solveur atteint un gain de vitesse de 10,6x à 142,7x par rapport aux meilleurs solveurs embarqués existants sur des problèmes QP et SOCP, soit jusqu'à deux ordres de grandeur, tout en autorisant des problèmes un ordre de grandeur plus grands en mémoire. La validation matérielle a été conduite sur un quadrirotor Crazyflie de 27 grammes, en suivi de trajectoire avec des contraintes coniques actives sur le système réel, et le code est disponible en open source sur tinympc.org. Ces résultats changent concrètement l'équation du déploiement du MPC sur matériel embarqué. Le contrôle prédictif de modèle (MPC) est la méthode de référence pour les systèmes robotiques sous contraintes, mais son exécution en temps réel reste difficile sur des microcontrôleurs à faible coût et faible consommation. Les contraintes coniques, plus expressives que les alternatives linéaires, alourdissent encore le calcul, rendant leur usage sur matériel léger quasi impraticable avec les solveurs actuels. Conic-TinyMPC contourne ce problème en exploitant une structure ADMM (Alternating Direction Method of Multipliers) avec des matrices mises en cache, réduisant drastiquement le coût de calcul à l'exécution. La génération de code automatique depuis Python, MATLAB ou Julia réduit également la friction d'intégration, rendant l'outil accessible à des équipes industrielles sans expertise poussée en optimisation convexe. TinyMPC est né de travaux visant à porter des solveurs MPC rapides sur des plateformes embarquées contraintes, avec une première démonstration sur Crazyflie ayant établi la viabilité de l'approche sur des robots ultra-légers. Conic-TinyMPC en est l'évolution directe, intégrant les cônes du second ordre à un noyau déjà optimisé et se positionnant face à des solveurs comme OSQP, ECOS ou ACADOS, qui peinent à tenir dans les enveloppes mémoire et temporelles des microcontrôleurs bas de gamme. Les prochaines étapes naturelles consisteront à valider l'approche sur des systèmes plus complexes, bras manipulateurs ou robots bipèdes, où les contraintes coniques modélisent des cônes de friction ou des enveloppes de sécurité formelles.

RecherchePaper

1 source