RecherchearXiv cs.RO2h

CacheMPC : commande prédictive par modèle certifiée avec cache pour la locomotion quadrupède

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de recherche propose CacheMPC, un mécanisme de mise en cache certifiée pour le Model Predictive Control (MPC) appliqué à la locomotion de robots quadrupèdes, publié sur arXiv (2606.28300). Le MPC constitue la couche prédictive standard dans les contrôleurs hiérarchiques de quadrupèdes, mais son solveur QP (programmation quadratique) recalculé à chaque cycle constitue un goulot d'étranglement sur processeur embarqué. Certified CacheMPC adresse ce problème via un cache indexé par Locality-Sensitive Hashing (LSH) de trajectoires de forces de contact, partitionné par mode de contact. Chaque entrée récupérée est acceptée uniquement si un certificat a posteriori confirme la faisabilité primale et une borne supérieure sur la sous-optimalité via le dual gap lagrangien. Le contrôleur combine récupération certifiée top-K, solveur QP à deadline bornée, et fallback sur la dernière solution certifiée. Validé sur un Unitree Go2, le système a été évalué sur 2 038 essais MuJoCo en froid contrôleur, dont une campagne de 600 essais à n=50 sur trois cellules à la frontière d'échec, puis déployé physiquement sur le NVIDIA Orin NX embarqué du robot. Le cache sans filtrage atteint un gain médian de 25x en temps de calcul en simulation, et 18,7x sur hardware réel.

L'enjeu industriel est direct : MPC haute fréquence sur SoC embarqué standard (Orin NX, environ 10-15W) sans recourir à un ASIC dédié ou à une approximation neuronale. Un facteur 18,7x de réduction du temps de solve ouvre la porte à des boucles de contrôle plus rapides sur des plateformes commerciales comme le Go2, utilisé massivement dans la recherche académique et les pilotes industriels légers. La certification formelle distingue cette approche des méthodes d'apprentissage du MPC (neural MPC, learning-based warm-starting) qui offrent des speedups similaires mais sans garantie exploitable. Nuance importante : la contribution du certificat à la stabilité en boucle fermée n'est pas statistiquement résolvable à la taille d'échantillon actuelle (n=50). Aucune différence significative n'a été détectée entre les variantes avec et sans cache, ce qui est honnête scientifiquement mais laisse la question de sécurité formelle ouverte.

Le MPC pour locomotion quadrupède s'est imposé depuis les travaux d'ETH Zurich (ANYmal) et du MIT (Cheetah), avec des implémentations ouvertes comme ACADOS ou OSQP qui restent les références en solve embarqué. CacheMPC s'inscrit dans un courant distinct : plutôt qu'accélérer le solveur ou substituer le MPC par un réseau de neurones, il exploite la répétabilité des gaits locomoteurs pour réutiliser des solutions passées. Les concurrents directs incluent les approches de warm-starting par apprentissage (DeepMPC, L4DC 2024) et les approximateurs explicites de MPC. Le Unitree Go2 est devenu le benchmark de facto à petit budget pour ce type de validation hardware. Les prochaines étapes naturelles seraient une campagne avec n significativement plus grand pour trancher sur la sécurité certifiée, et une extension aux bipèdes ou aux transitions de mode de contact plus complexes.

Dans nos dossiers

Unitree arXiv cs.RO

À lire aussi

1arXiv cs.RO

Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique

Une équipe de chercheurs a publié le framework IFM (Imitating and Finetuning Model Predictive Control), une approche hybride pour le contrôle de robots quadrupèdes sur des terrains difficiles. La méthode, disponible sur arXiv sous la référence 2311.02304v3, s'articule en trois phases séquentielles : d'abord, un contrôleur MPC classique est construit à partir de la Programmation Dynamique Différentielle (DDP) couplée à l'heuristique de Raibert pour définir une politique experte ; ensuite, ce contrôleur est cloné par apprentissage par imitation afin de le rendre adaptable par gradient ; enfin, un deep reinforcement learning (RL) à exploration volontairement limitée affine la politique sur des terrains exigeants, notamment surfaces rugueuses, revêtements glissants et tapis roulants. Des expériences menées en simulation puis sur matériel réel valident les performances du framework dans ces trois configurations. Le principal apport d'IFM est de combiner la robustesse formelle du contrôle model-based et la flexibilité de l'apprentissage profond, sans les défauts propres à chaque approche prise isolément. En pratique, IFM produit des allures (gaits) significativement plus symétriques, périodiques et économes en énergie que le RL classique dit "Vanilla RL", tout en réduisant considérablement le travail de reward shaping, c'est-à-dire la conception laborieuse de fonctions de récompense qui constitue l'un des principaux freins industriels au RL pour la locomotion. L'exploration limitée en phase RL est une décision architecturale notable : elle contraint le réseau à rester proche de la politique MPC apprise, ce qui stabilise l'apprentissage sur des terrains hors distribution sans divergence comportementale, un résultat difficile à obtenir avec du RL pur. Le contrôle de la locomotion quadrupède est un champ de recherche dense depuis les travaux fondateurs de Marc Raibert au MIT Leg Lab dans les années 1980, dont l'heuristique de placement de pied est encore employée ici comme référence. Les approches récentes se partagent entre contrôle model-based pur (ETH Zurich avec ANYmal et le groupe RSL), RL pur (UC Berkeley, Carnegie Mellon) et hybrides croissants. IFM s'inscrit dans cette troisième catégorie, en compétition directe avec des pipelines teacher-student d'ETH Zurich ou des frameworks comme DribbleBot. La publication ne mentionne aucun déploiement industriel ni partenariat commercial : il s'agit d'une contribution académique, dont la valeur pratique dépendra de sa transferabilité à des robots commerciaux comme l'Unitree Go2 ou le Boston Dynamics Spot, plateformes sur lesquelles plusieurs groupes appliquent déjà des méthodologies similaires.

RecherchePaper

1 source

2arXiv cs.RO

Bon modèle au bon moment : commande prédictive en cascade de fidélité pour la marche bipède en temps réel

Des chercheurs ont soumis sur arXiv le 6 mai 2026 (arXiv:2605.04607) une méthode de contrôle prédictif multi-phase pour la marche bipède, validée en simulation MuJoCo sur HyPer-2, un robot bipède à 18 degrés de liberté. L'approche, dite "cascaded-fidelity MPC", divise l'horizon de prédiction en deux zones : les pas de temps proches s'appuient sur un modèle complet du corps entier (whole-body model), tandis que l'horizon lointain utilise un modèle simplifié à corps rigide unique (SRB). Le problème de commande optimale non linéaire résultant est résolu par programmation quadratique séquentielle (SQP) via le framework acados. Le contrôleur calcule directement des couples articulaires à partir d'un calendrier de contacts et d'une vitesse cible, sans exiger d'emplacements de pas prédéfinis. Il s'agit d'un preprint de recherche ; aucun transfert sur matériel physique n'est encore rapporté. L'enjeu est d'ordre computationnel : un MPC whole-body complet offre une haute précision dynamique mais reste prohibitif pour un contrôle embarqué temps réel, tandis que les méthodes simplifiées (LIPM, SRBD seul) dégradent la qualité de prédiction. Concentrer la fidélité du modèle sur l'horizon proche, là où elle impacte réellement la commande, est un compromis prometteur. L'absence de dépendance aux pas présélectionnés renforce également la robustesse potentielle en environnement non structuré. Ce travail s'inscrit dans une compétition académique dense autour du MPC pour la locomotion humanoïde. Des équipes comme ETH Zurich avec le framework OCS2, Carnegie Mellon ou des laboratoires européens explorent des hiérarchisations de modèles analogues. HyPer-2 semble être une plateforme de recherche universitaire non commercialisée. Les prochaines étapes attendues sont le transfert sim-to-real sur matériel physique et la validation sur terrain irrégulier.

RecherchePaper

1 source

3arXiv cs.RO

Approximation de la sécurité sans oracle de sécurité via la commande prédictive par modèle

Des chercheurs ont publié sur arXiv (référence 2510.20955v2) un algorithme permettant de vérifier la sécurité des décisions d'un robot mobile sans disposer d'un oracle de sécurité formel. Les approches classiques exigent soit des contraintes explicitement modélisées, soit des données annotées manuellement comme sûres ou dangereuses, deux méthodes coûteuses en ingénierie et sources d'erreurs. L'algorithme proposé contourne ce besoin via un simulateur : avant d'exécuter une action, le système la projette dans le simulateur vers un état futur, puis utilise l'algorithme Model-Predictive Path Integral (MPPI) pour vérifier l'existence d'un chemin de retour vers un état antérieur de la trajectoire. Sous une hypothèse d'invariance positive sur l'espace des états dangereux, si ce chemin de retour existe, l'état courant est mathématiquement garanti hors de la zone à risque. Les expériences montrent que la méthode approche les performances d'un oracle réel, en limitant notamment les faux négatifs, c'est-à-dire les cas où un état dangereux serait classifié à tort comme sûr. L'enjeu pratique est réel pour le déploiement des AMR (Autonomous Mobile Robots) en environnements industriels non structurés. La dépendance aux annotations manuelles de sécurité constitue un goulot d'étranglement majeur : chaque changement de site ou de configuration peut invalider les contraintes précédemment formulées. En exploitant les contraintes implicites déjà encodées dans les simulateurs physiques modernes, cette approche rend les systèmes de contrôle sûr plus généralisables, sans réécriture à chaque nouveau déploiement. Éliminer les faux négatifs est critique : c'est le scénario où un robot exécute une action jugée sûre à tort, avec des conséquences potentiellement irréversibles en conditions réelles. MPPI est un algorithme de planification par échantillonnage stochastique, initialement développé à Georgia Tech dans les travaux de Grady Williams et Evangelos Theodorou, et depuis repris dans de nombreux travaux sur la navigation autonome et les véhicules sans conducteur. Son utilisation ici comme outil de vérification de réversibilité plutôt que de planification directe constitue l'originalité méthodologique centrale de la contribution. Le travail s'inscrit dans un courant de recherche actif sur la sécurité sans supervision dense, aux côtés des Control Barrier Functions (CBF) appris par données et du safe reinforcement learning. L'article reste une contribution académique avec résultats en simulation uniquement, sans partenaire industriel ni déploiement annoncé. La prochaine étape naturelle serait une validation sur hardware réel dans des environnements aux contraintes implicites complexes et une comparaison quantitative avec des méthodes CBF classiques sur des benchmarks standardisés.

RecherchePaper

1 source

4arXiv cs.RO

Course d'un quadrupède à roues : atténuation active du transfert de charge par commande prédictive

Des chercheurs de l'UC Berkeley ont publié fin juin 2026 (arXiv:2606.26313) un cadre de contrôle hiérarchique combinant commande prédictive par modèle (MPC) et apprentissage par renforcement (RL) pour piloter en autonome le Unitree Go2-W, un quadrupède à roues équipé de 16 actionneurs. L'objectif : gérer activement le transfert de charge latéral pendant une course sur circuit physique, un régime d'accélération où les robots à pattes perdent typiquement de la stabilité. Le système repose sur trois couches : une génération hors ligne de trajectoire temps-optimal, un planificateur MPC en ligne qui minimise le Lateral Load Transfer Ratio (LTR) en temps réel, et une politique RL bas niveau déployée directement sur les 16 actionneurs du robot. Résultats mesurés sur piste réelle : réduction du LTR moyen de 44 %, amélioration du meilleur tour de 8,7 %, et accélération latérale maximale portée à 1,98 m/s², soit +21,3 % par rapport au contrôleur de référence sans inclinaison active. Ce qui est techniquement notable, c'est l'utilisation des genoux du robot comme suspension active : les actionneurs de jambes génèrent un couple anti-roulis pour que le châssis s'incline dans les virages, à la manière d'une moto. C'est un usage détourné de la morphologie quadrupède qui n'est pas possible sur un AMR classique à roues fixes. La politique RL, entraînée en simulation et déployée directement sur le matériel sans couche intermédiaire, tient le transfert réel, ce qui constitue un exemple concret de sim-to-real fonctionnel sur un système dynamique rapide. Pour les intégrateurs ou chercheurs qui travaillent sur la navigation haute vitesse en environnement non structuré, cette architecture montre qu'on peut extraire des performances supplémentaires d'un châssis existant par du contrôle, sans modifier le hardware. Le Unitree Go2-W est la variante à roues du Go2, le quadrupède à 2 700 USD lancé par Unitree Robotics (Hangzhou) en 2023, devenu plateforme de recherche très répandue dans les labos nord-américains et européens grâce à son prix. Sur le segment wheeled quadruped, il fait face au Spot de Boston Dynamics et au Jueying X20 de Deep Robotics, mais reste la référence académique en termes de volume de publications. L'équipe de Berkeley publie le code et la vidéo sur GitHub ; il n'y a pas d'annonce de commercialisation ni de partenariat industriel associé à ce travail, qui reste pour l'instant de la recherche fondamentale orientée course autonome. Les prochaines étapes naturelles seraient l'extension à des surfaces variables et des vitesses plus élevées, ou l'adaptation du framework MPC+RL à des plateformes à charge utile plus importante.

UELes laboratoires européens équipés du Unitree Go2-W (plateforme académique très répandue en Europe) pourront directement tester et adapter ce framework MPC+RL open-source pour leurs propres recherches en navigation haute vitesse.

RecherchePaper

1 source