Aller au contenu principal
Commande prédictive par modèle basée sur MuJoCo via dérivées d'espaces affines : robustesse et efficacité
RecherchearXiv cs.RO1h

Commande prédictive par modèle basée sur MuJoCo via dérivées d'espaces affines : robustesse et efficacité

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (2512.21109v2) une méthode d'optimisation du contrôle prédictif par modèle (MPC) dans MuJoCo, le simulateur physique open source de DeepMind, largement utilisé en robotique. Le coeur de la contribution est l'intégration de WASP (Web of Affine Spaces), une approche de calcul de dérivées, comme remplacement direct de la différentiation finie (FD) dans la bibliothèque MJPC (MuJoCo MPC). Les expériences montrent un gain de vitesse allant jusqu'à 2x par rapport au backend FD lorsque WASP est couplé à des planificateurs basés sur les dérivées, notamment iLQG (iterative Linear-Quadratic-Gaussian). Les tests couvrent plusieurs morphologies de robots avec des systèmes à grand nombre de degrés de liberté (DOF), contexte dans lequel FD devient particulièrement coûteux. L'implémentation est publiée en open source et s'intègre sans modification d'architecture dans MJPC existant.

L'enjeu est technique mais concret : la différentiation finie est historiquement le goulot d'étranglement du MPC en temps réel sur des systèmes complexes, car elle nécessite de nombreuses évaluations du simulateur pour estimer les gradients. WASP contourne ce problème en réutilisant les informations de calculs de dérivées précédents, ce qui est particulièrement adapté aux mises à jour itératives et incrémentales du MPC. En pratique, cela signifie qu'un contrôleur MPC peut fonctionner à des fréquences plus élevées ou sur des robots avec davantage de degrés de liberté sans augmenter le budget computationnel, un facteur déterminant pour le déploiement sur matériel réel. Les auteurs rapportent également que WASP surpasse les planificateurs stochastiques par échantillonnage de MJPC sur les tâches d'évaluation, en fiabilité et en efficacité, ce qui renforce l'argument en faveur des méthodes basées sur les gradients lorsque ceux-ci sont calculables de façon robuste.

MJPC est l'implémentation de référence du MPC sur MuJoCo, et MuJoCo lui-même est devenu le simulateur standard dans la recherche en locomotion et manipulation depuis son acquisition par DeepMind en 2021 et son passage en open source. La différentiation finie y était utilisée faute de meilleures alternatives efficaces pour des simulateurs de contact. WASP a été introduit récemment comme méthode générique de calcul de dérivées approximées en séquence, et ce papier constitue sa première intégration documentée dans un framework MPC robotique établi. Les concurrents directs sur le terrain du MPC différentiable incluent des approches comme Dojo ou MJX (version JAX de MuJoCo permettant la différentiation automatique), mais WASP se positionne comme solution sans réécriture du simulateur sous-jacent. Les prochaines étapes probables sont l'évaluation sur du matériel réel et l'extension à des scènes de contact plus complexes, qui restent le cas limite critique pour tout simulateur physique.

Dans nos dossiers

À lire aussi

Approximation de la sécurité sans oracle de sécurité via la commande prédictive par modèle
1arXiv cs.RO 

Approximation de la sécurité sans oracle de sécurité via la commande prédictive par modèle

Des chercheurs ont publié sur arXiv (référence 2510.20955v2) un algorithme permettant de vérifier la sécurité des décisions d'un robot mobile sans disposer d'un oracle de sécurité formel. Les approches classiques exigent soit des contraintes explicitement modélisées, soit des données annotées manuellement comme sûres ou dangereuses, deux méthodes coûteuses en ingénierie et sources d'erreurs. L'algorithme proposé contourne ce besoin via un simulateur : avant d'exécuter une action, le système la projette dans le simulateur vers un état futur, puis utilise l'algorithme Model-Predictive Path Integral (MPPI) pour vérifier l'existence d'un chemin de retour vers un état antérieur de la trajectoire. Sous une hypothèse d'invariance positive sur l'espace des états dangereux, si ce chemin de retour existe, l'état courant est mathématiquement garanti hors de la zone à risque. Les expériences montrent que la méthode approche les performances d'un oracle réel, en limitant notamment les faux négatifs, c'est-à-dire les cas où un état dangereux serait classifié à tort comme sûr. L'enjeu pratique est réel pour le déploiement des AMR (Autonomous Mobile Robots) en environnements industriels non structurés. La dépendance aux annotations manuelles de sécurité constitue un goulot d'étranglement majeur : chaque changement de site ou de configuration peut invalider les contraintes précédemment formulées. En exploitant les contraintes implicites déjà encodées dans les simulateurs physiques modernes, cette approche rend les systèmes de contrôle sûr plus généralisables, sans réécriture à chaque nouveau déploiement. Éliminer les faux négatifs est critique : c'est le scénario où un robot exécute une action jugée sûre à tort, avec des conséquences potentiellement irréversibles en conditions réelles. MPPI est un algorithme de planification par échantillonnage stochastique, initialement développé à Georgia Tech dans les travaux de Grady Williams et Evangelos Theodorou, et depuis repris dans de nombreux travaux sur la navigation autonome et les véhicules sans conducteur. Son utilisation ici comme outil de vérification de réversibilité plutôt que de planification directe constitue l'originalité méthodologique centrale de la contribution. Le travail s'inscrit dans un courant de recherche actif sur la sécurité sans supervision dense, aux côtés des Control Barrier Functions (CBF) appris par données et du safe reinforcement learning. L'article reste une contribution académique avec résultats en simulation uniquement, sans partenaire industriel ni déploiement annoncé. La prochaine étape naturelle serait une validation sur hardware réel dans des environnements aux contraintes implicites complexes et une comparaison quantitative avec des méthodes CBF classiques sur des benchmarks standardisés.

RecherchePaper
1 source
Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique
2arXiv cs.RO 

Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique

Une équipe de chercheurs a publié le framework IFM (Imitating and Finetuning Model Predictive Control), une approche hybride pour le contrôle de robots quadrupèdes sur des terrains difficiles. La méthode, disponible sur arXiv sous la référence 2311.02304v3, s'articule en trois phases séquentielles : d'abord, un contrôleur MPC classique est construit à partir de la Programmation Dynamique Différentielle (DDP) couplée à l'heuristique de Raibert pour définir une politique experte ; ensuite, ce contrôleur est cloné par apprentissage par imitation afin de le rendre adaptable par gradient ; enfin, un deep reinforcement learning (RL) à exploration volontairement limitée affine la politique sur des terrains exigeants, notamment surfaces rugueuses, revêtements glissants et tapis roulants. Des expériences menées en simulation puis sur matériel réel valident les performances du framework dans ces trois configurations. Le principal apport d'IFM est de combiner la robustesse formelle du contrôle model-based et la flexibilité de l'apprentissage profond, sans les défauts propres à chaque approche prise isolément. En pratique, IFM produit des allures (gaits) significativement plus symétriques, périodiques et économes en énergie que le RL classique dit "Vanilla RL", tout en réduisant considérablement le travail de reward shaping, c'est-à-dire la conception laborieuse de fonctions de récompense qui constitue l'un des principaux freins industriels au RL pour la locomotion. L'exploration limitée en phase RL est une décision architecturale notable : elle contraint le réseau à rester proche de la politique MPC apprise, ce qui stabilise l'apprentissage sur des terrains hors distribution sans divergence comportementale, un résultat difficile à obtenir avec du RL pur. Le contrôle de la locomotion quadrupède est un champ de recherche dense depuis les travaux fondateurs de Marc Raibert au MIT Leg Lab dans les années 1980, dont l'heuristique de placement de pied est encore employée ici comme référence. Les approches récentes se partagent entre contrôle model-based pur (ETH Zurich avec ANYmal et le groupe RSL), RL pur (UC Berkeley, Carnegie Mellon) et hybrides croissants. IFM s'inscrit dans cette troisième catégorie, en compétition directe avec des pipelines teacher-student d'ETH Zurich ou des frameworks comme DribbleBot. La publication ne mentionne aucun déploiement industriel ni partenariat commercial : il s'agit d'une contribution académique, dont la valeur pratique dépendra de sa transferabilité à des robots commerciaux comme l'Unitree Go2 ou le Boston Dynamics Spot, plateformes sur lesquelles plusieurs groupes appliquent déjà des méthodologies similaires.

RecherchePaper
1 source
Commande prédictive par modèle à impédance corps entier pour l'interaction physique humain-robot sûre sur base flottante
3arXiv cs.RO 

Commande prédictive par modèle à impédance corps entier pour l'interaction physique humain-robot sûre sur base flottante

Des chercheurs ont publié sur arXiv (réf. 2606.14617, juin 2026) une architecture de contrôle à trois niveaux pour robots à base flottante - bipèdes et humanoïdes - conçue pour maintenir l'équilibre tout en tolérant l'interaction physique soutenue avec des opérateurs humains (pHRI, physical human-robot interaction). Le premier niveau est un MPC centroïdal qui planifie les forces de contact sur un horizon de 500 millisecondes. Le deuxième est un contrôleur corps entier (WBC) qui traduit l'équilibre en couples articulaires par projection dans l'espace nul cohérente avec les contraintes de contact. Le troisième est un programme quadratique (QP) à horizon fuyant qui prédit et rejette les perturbations de contact à l'aide d'un état augmenté par filtre de Kalman. Une linéarisation par retour d'état réduit la dynamique de l'effecteur à un double intégrateur à matrice constante dans chaque mode de contact, permettant une précalculation hors-ligne des matrices de coût et une exécution à plus de 1 kHz. Les validations ont été conduites en simulation sur un biped à 17 degrés de liberté et sur l'humanoïde Unitree G1. L'apport central est une garantie formelle d'erreur nulle en régime permanent sous des forces de contact humain soutenues et bornées - une limite connue des contrôleurs WBC à gain fixe, qui accumulent une dérive statique lorsqu'un opérateur guide ou pousse le robot en continu. La cadence à 1 kHz, rendue possible par la précalculation hors-ligne, s'inscrit dans les contraintes temps réel de la robotique industrielle. Un théorème d'équivalence d'impédance établit que la limite horizon infini du contrôleur retrouve une loi d'impédance classique en espace tâche, avec masse, amortissement et raideur effectifs qui s'adaptent automatiquement à la posture et à la configuration de contact - ce qui facilite le réglage intuitif pour des ingénieurs familiers des contrôleurs d'impédance conventionnels. Ce travail étend une architecture Impedance MPC à deux couches pour base fixe publiée antérieurement par les mêmes auteurs. Le passage à la base flottante est non trivial : le robot doit simultanément gérer sa propre stabilité dynamique et absorber les perturbations externes. L'Unitree G1, humanoïde commercialisé autour de 16 000 dollars par Unitree Robotics, sert de banc de validation en simulation. Il faut souligner que l'ensemble des résultats est simulé - aucun essai physique sur robot réel n'est rapporté, ce qui constitue l'étape attendue. Dans un paysage où Boston Dynamics (Atlas), Agility Robotics (Digit) et Figure (03) développent leurs propres solutions WBC pour la coopération humain-robot, cette approche apporte une contribution méthodologique formellement fondée, mais dont la robustesse en conditions réelles reste à démontrer.

RecherchePaper
1 source
VBT-MPC : commande prédictive tactile à base de vision pour le suivi de contour
4arXiv cs.RO 

VBT-MPC : commande prédictive tactile à base de vision pour le suivi de contour

Des chercheurs ont publié sur arXiv (2605.20392) un framework de contrôle prédictif baptisé VBT-MPC (Vision-Based Tactile Model Predictive Control), conçu pour le suivi de contours en manipulation robotique. Le système repose sur un capteur tactile à vision embarquée (VBTS, Vision-Based Tactile Sensor) monté en configuration eye-in-hand, c'est-à-dire fixé au poignet du robot de façon à co-localiser la perception et l'action. La contribution centrale est que le contrôleur MPC opère directement dans l'espace des descripteurs de contour extraits du capteur, sans passer par un module intermédiaire d'estimation de pose ni par une architecture de contrôle en effort dédiée. Les expériences couvrent des objets aux géométries et matériaux variés, évalués à la fois en simulation et en conditions réelles, avec comparaison systématique contre des stratégies de visual servoing adaptées aux features tactiles. Ce travail s'attaque à un verrou concret du suivi de surface industriel : maintenir un contact calibré tout en longeant un contour exige traditionnellement soit un estimateur de pose précis (coûteux en calcul et sensible aux erreurs de modèle), soit un contrôleur en force complexe. En faisant du MPC un contrôleur natif dans l'espace tactile, les auteurs réduisent la chaîne de traitement et potentiellement la latence de réaction. Pour un intégrateur ou un COO industriel, cela pointe vers des applications d'inspection de surface, de meulage ou d'assemblage de précision où la robustesse au glissement et aux irrégularités géométriques est critique. La comparaison avec le visual servoing tactile permet de quantifier le gain du MPC sur l'horizon de prédiction face à une loi de commande réactive pure, ce qui est une donnée utile pour le choix d'architecture. Les capteurs tactiles à vision (GelSight du MIT, DIGIT de Meta/CMU, Allsight, Soft-bubble) ont connu une forte montée en maturité depuis 2019, permettant d'extraire des champs de déformation et des features géométriques à haute résolution sans marqueurs. L'intégration du MPC à ce type de sensing prolonge des travaux antérieurs sur le contrôle en force/contact, mais substitue la mesure de force par une information visuelle riche et moins coûteuse en capteurs. Côté concurrence académique, des équipes comme CMU Robotics, Berkeley AUTOLAB et ETH Zurich RSL explorent des approches comparables (apprentissage par imitation tactile, diffusion policies avec retour haptique). La prochaine étape naturelle pour ce type de framework serait l'intégration dans des pipelines de manipulation généralistes ou des bancs d'inspection automatisée, potentiellement combinée avec des VLA (Vision-Language-Action models) pour la planification de haut niveau.

RecherchePaper
1 source