RecherchearXiv cs.RO6sem

Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié le framework IFM (Imitating and Finetuning Model Predictive Control), une approche hybride pour le contrôle de robots quadrupèdes sur des terrains difficiles. La méthode, disponible sur arXiv sous la référence 2311.02304v3, s'articule en trois phases séquentielles : d'abord, un contrôleur MPC classique est construit à partir de la Programmation Dynamique Différentielle (DDP) couplée à l'heuristique de Raibert pour définir une politique experte ; ensuite, ce contrôleur est cloné par apprentissage par imitation afin de le rendre adaptable par gradient ; enfin, un deep reinforcement learning (RL) à exploration volontairement limitée affine la politique sur des terrains exigeants, notamment surfaces rugueuses, revêtements glissants et tapis roulants. Des expériences menées en simulation puis sur matériel réel valident les performances du framework dans ces trois configurations.

Le principal apport d'IFM est de combiner la robustesse formelle du contrôle model-based et la flexibilité de l'apprentissage profond, sans les défauts propres à chaque approche prise isolément. En pratique, IFM produit des allures (gaits) significativement plus symétriques, périodiques et économes en énergie que le RL classique dit "Vanilla RL", tout en réduisant considérablement le travail de reward shaping, c'est-à-dire la conception laborieuse de fonctions de récompense qui constitue l'un des principaux freins industriels au RL pour la locomotion. L'exploration limitée en phase RL est une décision architecturale notable : elle contraint le réseau à rester proche de la politique MPC apprise, ce qui stabilise l'apprentissage sur des terrains hors distribution sans divergence comportementale, un résultat difficile à obtenir avec du RL pur.

Le contrôle de la locomotion quadrupède est un champ de recherche dense depuis les travaux fondateurs de Marc Raibert au MIT Leg Lab dans les années 1980, dont l'heuristique de placement de pied est encore employée ici comme référence. Les approches récentes se partagent entre contrôle model-based pur (ETH Zurich avec ANYmal et le groupe RSL), RL pur (UC Berkeley, Carnegie Mellon) et hybrides croissants. IFM s'inscrit dans cette troisième catégorie, en compétition directe avec des pipelines teacher-student d'ETH Zurich ou des frameworks comme DribbleBot. La publication ne mentionne aucun déploiement industriel ni partenariat commercial : il s'agit d'une contribution académique, dont la valeur pratique dépendra de sa transferabilité à des robots commerciaux comme l'Unitree Go2 ou le Boston Dynamics Spot, plateformes sur lesquelles plusieurs groupes appliquent déjà des méthodologies similaires.

Dans nos dossiers

Boston Dynamics Unitree arXiv cs.RO

À lire aussi

1arXiv cs.RO

CacheMPC : commande prédictive par modèle certifiée avec cache pour la locomotion quadrupède

Une équipe de recherche propose CacheMPC, un mécanisme de mise en cache certifiée pour le Model Predictive Control (MPC) appliqué à la locomotion de robots quadrupèdes, publié sur arXiv (2606.28300). Le MPC constitue la couche prédictive standard dans les contrôleurs hiérarchiques de quadrupèdes, mais son solveur QP (programmation quadratique) recalculé à chaque cycle constitue un goulot d'étranglement sur processeur embarqué. Certified CacheMPC adresse ce problème via un cache indexé par Locality-Sensitive Hashing (LSH) de trajectoires de forces de contact, partitionné par mode de contact. Chaque entrée récupérée est acceptée uniquement si un certificat a posteriori confirme la faisabilité primale et une borne supérieure sur la sous-optimalité via le dual gap lagrangien. Le contrôleur combine récupération certifiée top-K, solveur QP à deadline bornée, et fallback sur la dernière solution certifiée. Validé sur un Unitree Go2, le système a été évalué sur 2 038 essais MuJoCo en froid contrôleur, dont une campagne de 600 essais à n=50 sur trois cellules à la frontière d'échec, puis déployé physiquement sur le NVIDIA Orin NX embarqué du robot. Le cache sans filtrage atteint un gain médian de 25x en temps de calcul en simulation, et 18,7x sur hardware réel. L'enjeu industriel est direct : MPC haute fréquence sur SoC embarqué standard (Orin NX, environ 10-15W) sans recourir à un ASIC dédié ou à une approximation neuronale. Un facteur 18,7x de réduction du temps de solve ouvre la porte à des boucles de contrôle plus rapides sur des plateformes commerciales comme le Go2, utilisé massivement dans la recherche académique et les pilotes industriels légers. La certification formelle distingue cette approche des méthodes d'apprentissage du MPC (neural MPC, learning-based warm-starting) qui offrent des speedups similaires mais sans garantie exploitable. Nuance importante : la contribution du certificat à la stabilité en boucle fermée n'est pas statistiquement résolvable à la taille d'échantillon actuelle (n=50). Aucune différence significative n'a été détectée entre les variantes avec et sans cache, ce qui est honnête scientifiquement mais laisse la question de sécurité formelle ouverte. Le MPC pour locomotion quadrupède s'est imposé depuis les travaux d'ETH Zurich (ANYmal) et du MIT (Cheetah), avec des implémentations ouvertes comme ACADOS ou OSQP qui restent les références en solve embarqué. CacheMPC s'inscrit dans un courant distinct : plutôt qu'accélérer le solveur ou substituer le MPC par un réseau de neurones, il exploite la répétabilité des gaits locomoteurs pour réutiliser des solutions passées. Les concurrents directs incluent les approches de warm-starting par apprentissage (DeepMPC, L4DC 2024) et les approximateurs explicites de MPC. Le Unitree Go2 est devenu le benchmark de facto à petit budget pour ce type de validation hardware. Les prochaines étapes naturelles seraient une campagne avec n significativement plus grand pour trancher sur la sécurité certifiée, et une extension aux bipèdes ou aux transitions de mode de contact plus complexes.

RecherchePaper

1 source

2arXiv cs.RO

Vers une prédictibilité fiable du transfert simulation-réel pour la locomotion quadrupède robuste à base de MoE

Des chercheurs ont présenté dans un preprint arXiv (2602.00678, version 4) un cadre unifié combinant une politique de locomotion Mixture-of-Experts (MoE) et RoboGauge, une suite d'évaluation prédictive du transfert simulation-réel, appliquée à la locomotion quadrupède. L'architecture MoE déploie un ensemble d'experts spécialisés activés par un mécanisme de gating, chacun modélisant un sous-espace distinct de représentation du terrain et des commandes moteur, en s'appuyant uniquement sur la proprioception (encodeurs articulaires, centrale inertielle), sans caméra ni LiDAR. Les expériences sur un Unitree Go2 ont validé une locomotion robuste sur des terrains non vus à l'entraînement: neige, sable, escaliers, pentes et obstacles de 30 cm. En tests haute vitesse, le robot a atteint 4 m/s, avec apparition spontanée d'une allure à faible écartement latéral que les auteurs associent à une meilleure stabilité dynamique à grande vitesse. L'apport central est RoboGauge, qui génère des métriques proprioceptives multi-dimensionnelles via des tests sim-to-sim couvrant plusieurs terrains, niveaux de difficulté et randomisations de domaine, permettant de sélectionner le meilleur checkpoint de politique MoE sans validation physique répétée. Pour les équipes de R&D et les intégrateurs industriels, cela adresse directement le principal goulot d'étranglement du déploiement de robots marcheurs: le coût et le risque des essais terrain. La robustesse obtenue avec proprioception seule est également significative, car elle conteste l'hypothèse fréquente selon laquelle la vision ou le LiDAR seraient indispensables hors d'environnements contrôlés, élargissant l'espace d'application en milieux non structurés (entrepôts, chantiers, extérieurs). Il convient cependant de noter que les métriques de vitesse et d'obstacle sont issues de tests en conditions choisies, sans données de taux d'échec agrégées sur des déploiements prolongés. Ce travail s'inscrit dans une filière de recherche initiée par ETH Zurich avec ANYmal (commercialisé par ANYbotics) et les équipes de Berkeley sur l'apprentissage agile en locomotion. Le Unitree Go2, vendu autour de 1 600 dollars, est devenu la plateforme de référence académique en raison de son accessibilité. Les concurrents industriels comme Boston Dynamics (Spot) ou les acteurs AMR européens comme Exotec développent des approches similaires de robustesse multi-terrain, bien que leurs validations restent largement propriétaires. Les suites naturelles de ce travail incluent la publication de RoboGauge comme outil de benchmark open-source inter-plateformes et son extension potentielle à d'autres morphologies, notamment les humanoïdes dont le transfert sim-to-real reste un défi ouvert.

UESi RoboGauge est publié en open source, les équipes européennes (ANYbotics, intégrateurs industriels UE) bénéficieraient d'un outil de benchmark standardisé réduisant les coûts de validation physique pour la locomotion quadrupède.

RecherchePaper

1 source

3arXiv cs.RO

Contrôle Prédictif Non Linéaire Multi-Fréquences pour la Locomotion Bipède Appuyée au Mur de Robots Quadrupèdes

Cette étude, publiée sur arXiv le 1er juillet 2607 (arXiv:2607.01574), présente un nouveau cadre de contrôle baptisé MR-NMPC (commande prédictive non linéaire multi-cadence) permettant à un robot quadrupède d'adopter une locomotion bipède partiellement assistée par un mur, dans des environnements confinés. Le système repose sur deux niveaux : en haut, le MR-NMPC planifie simultanément les points de contact discrets et les trajectoires continues du centre de masse et de l'orientation du robot, à partir d'un modèle dynamique de corps rigide unique (SRB) ; en bas, un contrôleur de corps complet (WBC) non linéaire, basé sur des contraintes virtuelles et un programme quadratique, traduit ces références en commandes moteur tout en respectant la dynamique complète du système. Les auteurs ont validé leur approche exclusivement par simulation numérique, sur un robot quadrupède Unitree A1, en terrain accidenté et soumis à des perturbations externes. Résultat chiffré : le MR-NMPC atteint un taux de réussite 2,9 fois supérieur à celui d'un MPC classique combiné à un placement de pied heuristique, notamment à haute vitesse sur terrain irrégulier. L'intérêt pratique dépasse la prouesse académique : faire tenir un quadrupède en appui partiel sur un mur pour libérer ou stabiliser ses pattes ouvre la voie à des manœuvres dans des couloirs étroits, des échafaudages ou des zones sinistrées, là où la locomotion quadrupède classique manque de portée verticale. Cela confirme aussi qu'une planification conjointe des contacts et de la trajectoire, plutôt qu'une heuristique de pose de pied, réduit nettement les échecs dynamiques en conditions difficiles, un argument technique plus qu'une démonstration marketing. Le travail s'inscrit dans la lignée des recherches sur le contrôle prédictif des robots à pattes, où Unitree A1 sert de plateforme de référence académique peu coûteuse. Contrairement aux annonces produits d'acteurs comme Boston Dynamics ou ANYbotics, il s'agit ici d'une contribution de recherche en simulation, sans validation matérielle réelle annoncée : la prochaine étape logique serait un déploiement physique sur robot pour confirmer la robustesse observée in silico.

RecherchePaper

1 source

4arXiv cs.RO

Apprentissage de contrôleurs de locomotion perceptifs et adaptatifs pour robots quadrupèdes

Une équipe de chercheurs a publié le 25 juin 2026 sur arXiv (2606.25179) une étude portant sur la conception de contrôleurs de locomotion universels pour robots quadrupèdes, capables de s'adapter à plusieurs morphologies de robots différents tout en intégrant de la perception en temps réel. Les auteurs s'appuient sur le cadre MorAL (Morphology-Aware Locomotion), qu'ils étendent en comparant trois architectures : un contrôleur aveugle (baseline sans perception), MorAL+ (perception intégrée uniquement dans le critique du réseau, pas dans l'acteur), et PPAL (acteur-critique entièrement perceptif). Les politiques ont été évaluées en simulation sur terrains plats et accidentés, puis déployées sur du matériel réel via le robot ANYmal d'ANYbotics. Résultat principal : MorAL+ surpasse les deux autres configurations en robustesse et en cohérence de suivi de trajectoire, notamment parce qu'un acteur entièrement perceptif se révèle sensible au bruit de capteur, tandis qu'un acteur aveugle manque de conscience du terrain. Ce résultat va à contre-courant d'une intuition répandue dans la communauté robotique : intégrer plus de perception n'est pas toujours meilleur. Le fait que la perception placée uniquement dans le critique (et non dans l'acteur) améliore la robustesse sans fragiliser la politique face au bruit de capteur est une contribution architecturale concrète. Pour les intégrateurs industriels qui déploient des quadrupèdes en environnements non structurés (entrepôts, sites industriels, inspection d'infrastructures), cette distinction a des implications directes sur la conception des pipelines de contrôle. Elle indique aussi que le problème du sim-to-real pour la locomotion quadrupède n'est pas uniquement une question de quantité de données perceptives, mais de leur positionnement dans l'architecture d'apprentissage par renforcement. ANYmal, développé par ANYbotics (spin-off de l'ETH Zurich), est l'un des robots quadrupèdes les plus utilisés en recherche académique et en déploiements industriels pilotes, aux côtés de Spot de Boston Dynamics et des modèles Unitree (Go2, B2) qui dominent le segment prix bas. Le cadre MorAL, sur lequel s'appuie ce travail, visait déjà à entraîner des politiques transférables entre morphologies de robots différents, un problème ouvert dans la course à la généralisation inter-robots (cross-embodiment). Ce papier reste pour l'instant un preprint académique sans déploiement industriel annoncé ; les suites naturelles seraient une validation sur un ensemble plus large de morphologies quadrupèdes et des tests en conditions réelles prolongées, en dehors du cadre contrôlé d'un labo.

UEANYbotics étant un spin-off suisse de l'ETH Zurich, les conclusions architecturales sur MorAL+ intéressent directement les intégrateurs européens qui déploient des quadrupèdes en inspection industrielle ou en environnements non structurés.

RecherchePaper

1 source