Aller au contenu principal
Vers une prédictibilité fiable du transfert simulation-réel pour la locomotion quadrupède robuste à base de MoE
RecherchearXiv cs.RO6sem

Vers une prédictibilité fiable du transfert simulation-réel pour la locomotion quadrupède robuste à base de MoE

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont présenté dans un preprint arXiv (2602.00678, version 4) un cadre unifié combinant une politique de locomotion Mixture-of-Experts (MoE) et RoboGauge, une suite d'évaluation prédictive du transfert simulation-réel, appliquée à la locomotion quadrupède. L'architecture MoE déploie un ensemble d'experts spécialisés activés par un mécanisme de gating, chacun modélisant un sous-espace distinct de représentation du terrain et des commandes moteur, en s'appuyant uniquement sur la proprioception (encodeurs articulaires, centrale inertielle), sans caméra ni LiDAR. Les expériences sur un Unitree Go2 ont validé une locomotion robuste sur des terrains non vus à l'entraînement: neige, sable, escaliers, pentes et obstacles de 30 cm. En tests haute vitesse, le robot a atteint 4 m/s, avec apparition spontanée d'une allure à faible écartement latéral que les auteurs associent à une meilleure stabilité dynamique à grande vitesse.

L'apport central est RoboGauge, qui génère des métriques proprioceptives multi-dimensionnelles via des tests sim-to-sim couvrant plusieurs terrains, niveaux de difficulté et randomisations de domaine, permettant de sélectionner le meilleur checkpoint de politique MoE sans validation physique répétée. Pour les équipes de R&D et les intégrateurs industriels, cela adresse directement le principal goulot d'étranglement du déploiement de robots marcheurs: le coût et le risque des essais terrain. La robustesse obtenue avec proprioception seule est également significative, car elle conteste l'hypothèse fréquente selon laquelle la vision ou le LiDAR seraient indispensables hors d'environnements contrôlés, élargissant l'espace d'application en milieux non structurés (entrepôts, chantiers, extérieurs). Il convient cependant de noter que les métriques de vitesse et d'obstacle sont issues de tests en conditions choisies, sans données de taux d'échec agrégées sur des déploiements prolongés.

Ce travail s'inscrit dans une filière de recherche initiée par ETH Zurich avec ANYmal (commercialisé par ANYbotics) et les équipes de Berkeley sur l'apprentissage agile en locomotion. Le Unitree Go2, vendu autour de 1 600 dollars, est devenu la plateforme de référence académique en raison de son accessibilité. Les concurrents industriels comme Boston Dynamics (Spot) ou les acteurs AMR européens comme Exotec développent des approches similaires de robustesse multi-terrain, bien que leurs validations restent largement propriétaires. Les suites naturelles de ce travail incluent la publication de RoboGauge comme outil de benchmark open-source inter-plateformes et son extension potentielle à d'autres morphologies, notamment les humanoïdes dont le transfert sim-to-real reste un défi ouvert.

Impact France/UE

Si RoboGauge est publié en open source, les équipes européennes (ANYbotics, intégrateurs industriels UE) bénéficieraient d'un outil de benchmark standardisé réduisant les coûts de validation physique pour la locomotion quadrupède.

À lire aussi

HyperSim : un cadre complet de transfert simulation-réel pour la manipulation robotique robuste
1arXiv cs.RO 

HyperSim : un cadre complet de transfert simulation-réel pour la manipulation robotique robuste

Des chercheurs ont publié sur arXiv (arXiv:2605.26638) HyperSim, un framework bout-en-bout conçu pour transférer des politiques de manipulation robotique de la simulation vers le monde réel. La méthode repose sur trois piliers : la synthèse d'environnements haute fidélité visuelle, la génération de trajectoires adversariales, et un co-entraînement mixte simulation/réel. Validée sur 400 exécutions de tâches en conditions réelles, HyperSim atteint des taux de succès sim-to-real de 80 % avec le modèle ACT et 95 % avec π₀ (le modèle VLA de Physical Intelligence). Les politiques entraînées avec des trajectoires adversariales affichent par ailleurs un taux de complétion supérieur de 35 % sous perturbations physiques dynamiques, par rapport aux baselines sans ce module. Ces résultats adressent directement l'un des verrous les plus cités dans le déploiement de robots manipulateurs industriels : le sim-to-real gap, c'est-à-dire la dégradation de performance entre une politique entraînée en simulation et son comportement réel. Un taux de 95 % avec π₀ sur des tâches de manipulation représente un niveau de robustesse rarement publié à cette échelle d'évaluation (400 runs, trois métriques granulaires). Pour les intégrateurs et les équipes R&D, cela valide concrètement l'hypothèse que la donnée synthétique, lorsqu'elle est correctement augmentée et diversifiée, peut substituer en grande partie la collecte physique coûteuse. À noter cependant : l'article ne détaille pas les types de tâches ni les objets testés, ce qui limite l'interprétation de la généralité des résultats. La problématique sim-to-real est au cœur des efforts de plusieurs équipes concurrentes : Google DeepMind (avec RoboVerse et ses pipelines de données synthétiques), Physical Intelligence (dont le modèle π₀ est justement l'un des deux benchmarks utilisés ici), et des laboratoires académiques comme Stanford et CMU. HyperSim se distingue par son approche intégrée plutôt que modulaire, cherchant à traiter simultanément le gap visuel et le gap dynamique. La prochaine étape naturelle, non précisée dans le preprint, serait de tester la généralisation à des plateformes humanoïdes ou des scénarios multi-objet en environnement non structuré.

UELes laboratoires européens en manipulation robotique (CEA-List, INRIA) pourraient intégrer ce framework pour réduire leur dépendance aux démonstrations physiques coûteuses, sans implication institutionnelle directe.

RecherchePaper
1 source
Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique
2arXiv cs.RO 

Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique

Une équipe de chercheurs a publié le framework IFM (Imitating and Finetuning Model Predictive Control), une approche hybride pour le contrôle de robots quadrupèdes sur des terrains difficiles. La méthode, disponible sur arXiv sous la référence 2311.02304v3, s'articule en trois phases séquentielles : d'abord, un contrôleur MPC classique est construit à partir de la Programmation Dynamique Différentielle (DDP) couplée à l'heuristique de Raibert pour définir une politique experte ; ensuite, ce contrôleur est cloné par apprentissage par imitation afin de le rendre adaptable par gradient ; enfin, un deep reinforcement learning (RL) à exploration volontairement limitée affine la politique sur des terrains exigeants, notamment surfaces rugueuses, revêtements glissants et tapis roulants. Des expériences menées en simulation puis sur matériel réel valident les performances du framework dans ces trois configurations. Le principal apport d'IFM est de combiner la robustesse formelle du contrôle model-based et la flexibilité de l'apprentissage profond, sans les défauts propres à chaque approche prise isolément. En pratique, IFM produit des allures (gaits) significativement plus symétriques, périodiques et économes en énergie que le RL classique dit "Vanilla RL", tout en réduisant considérablement le travail de reward shaping, c'est-à-dire la conception laborieuse de fonctions de récompense qui constitue l'un des principaux freins industriels au RL pour la locomotion. L'exploration limitée en phase RL est une décision architecturale notable : elle contraint le réseau à rester proche de la politique MPC apprise, ce qui stabilise l'apprentissage sur des terrains hors distribution sans divergence comportementale, un résultat difficile à obtenir avec du RL pur. Le contrôle de la locomotion quadrupède est un champ de recherche dense depuis les travaux fondateurs de Marc Raibert au MIT Leg Lab dans les années 1980, dont l'heuristique de placement de pied est encore employée ici comme référence. Les approches récentes se partagent entre contrôle model-based pur (ETH Zurich avec ANYmal et le groupe RSL), RL pur (UC Berkeley, Carnegie Mellon) et hybrides croissants. IFM s'inscrit dans cette troisième catégorie, en compétition directe avec des pipelines teacher-student d'ETH Zurich ou des frameworks comme DribbleBot. La publication ne mentionne aucun déploiement industriel ni partenariat commercial : il s'agit d'une contribution académique, dont la valeur pratique dépendra de sa transferabilité à des robots commerciaux comme l'Unitree Go2 ou le Boston Dynamics Spot, plateformes sur lesquelles plusieurs groupes appliquent déjà des méthodologies similaires.

RecherchePaper
1 source
Course d'un quadrupède à roues : atténuation active du transfert de charge par commande prédictive
3arXiv cs.RO 

Course d'un quadrupède à roues : atténuation active du transfert de charge par commande prédictive

Des chercheurs de l'UC Berkeley ont publié fin juin 2026 (arXiv:2606.26313) un cadre de contrôle hiérarchique combinant commande prédictive par modèle (MPC) et apprentissage par renforcement (RL) pour piloter en autonome le Unitree Go2-W, un quadrupède à roues équipé de 16 actionneurs. L'objectif : gérer activement le transfert de charge latéral pendant une course sur circuit physique, un régime d'accélération où les robots à pattes perdent typiquement de la stabilité. Le système repose sur trois couches : une génération hors ligne de trajectoire temps-optimal, un planificateur MPC en ligne qui minimise le Lateral Load Transfer Ratio (LTR) en temps réel, et une politique RL bas niveau déployée directement sur les 16 actionneurs du robot. Résultats mesurés sur piste réelle : réduction du LTR moyen de 44 %, amélioration du meilleur tour de 8,7 %, et accélération latérale maximale portée à 1,98 m/s², soit +21,3 % par rapport au contrôleur de référence sans inclinaison active. Ce qui est techniquement notable, c'est l'utilisation des genoux du robot comme suspension active : les actionneurs de jambes génèrent un couple anti-roulis pour que le châssis s'incline dans les virages, à la manière d'une moto. C'est un usage détourné de la morphologie quadrupède qui n'est pas possible sur un AMR classique à roues fixes. La politique RL, entraînée en simulation et déployée directement sur le matériel sans couche intermédiaire, tient le transfert réel, ce qui constitue un exemple concret de sim-to-real fonctionnel sur un système dynamique rapide. Pour les intégrateurs ou chercheurs qui travaillent sur la navigation haute vitesse en environnement non structuré, cette architecture montre qu'on peut extraire des performances supplémentaires d'un châssis existant par du contrôle, sans modifier le hardware. Le Unitree Go2-W est la variante à roues du Go2, le quadrupède à 2 700 USD lancé par Unitree Robotics (Hangzhou) en 2023, devenu plateforme de recherche très répandue dans les labos nord-américains et européens grâce à son prix. Sur le segment wheeled quadruped, il fait face au Spot de Boston Dynamics et au Jueying X20 de Deep Robotics, mais reste la référence académique en termes de volume de publications. L'équipe de Berkeley publie le code et la vidéo sur GitHub ; il n'y a pas d'annonce de commercialisation ni de partenariat industriel associé à ce travail, qui reste pour l'instant de la recherche fondamentale orientée course autonome. Les prochaines étapes naturelles seraient l'extension à des surfaces variables et des vitesses plus élevées, ou l'adaptation du framework MPC+RL à des plateformes à charge utile plus importante.

UELes laboratoires européens équipés du Unitree Go2-W (plateforme académique très répandue en Europe) pourront directement tester et adapter ce framework MPC+RL open-source pour leurs propres recherches en navigation haute vitesse.

RecherchePaper
1 source
Évaluation d'une colonne vertébrale actionnée pour la locomotion agile de quadrupèdes
4arXiv cs.RO 

Évaluation d'une colonne vertébrale actionnée pour la locomotion agile de quadrupèdes

Une équipe de chercheurs a publié sur arXiv (preprint 2605.07988) une étude empirique évaluant les bénéfices d'une colonne vertébrale motorisée pour la locomotion agile de robots quadrupèdes. Les expériences ont été conduites en simulation MuJoCo sur le Silver Badger de MAB Robotics, startup polonaise spécialisée dans les robots à pattes. La colonne vertébrale testée dispose d'un seul degré de liberté (1-DOF) dans le plan sagittal, permettant flexion et extension verticale du tronc. Cinq scénarios ont été évalués : course à haute vitesse, montée de marches, franchissement de pentes à fort angle, saut d'obstacles et progression dans des passages étroits. Les résultats indiquent que le robot équipé du spine motorisé franchit des marches plus hautes, des pentes plus raides, des obstacles plus élevés et des passages plus étroits que sa version à tronc rigide, sans que des métriques précises (angles, hauteurs, vitesses) soient communiquées dans le résumé. Ces résultats confirment empiriquement un principe observé chez les animaux mais peu exploré en robotique commerciale : la mobilité du tronc étend les capacités locomotrices sans nécessiter une refonte architecturale majeure. Pour les intégrateurs et développeurs de plateformes mobiles, l'ajout d'un seul actionneur sur le tronc pourrait élargir le domaine d'opérabilité dans des environnements complexes, entrepôts, chantiers ou milieux semi-naturels. La limite majeure reste le cadre purement simulé de l'étude : les gains rapportés n'ont pas été validés sur matériel réel, et le sim-to-real gap constitue un obstacle classique pour ce type de modification mécanique, notamment en ce qui concerne les dynamiques de contact sol/pattes. La question du spine flexible en quadrupédie robotique n'est pas nouvelle, les études sur les félins et guépards ayant démontré que la flexion du tronc allonge l'enjambée et améliore l'efficacité énergétique. En pratique, des plateformes comme ANYmal d'ANYbotics (Suisse) ou Spot de Boston Dynamics ont opté pour des troncs rigides, privilégiant la simplicité de contrôle et la robustesse mécanique. MAB Robotics, entreprise polonaise de l'écosystème UE, positionne le Silver Badger comme plateforme de recherche ouverte à ce type d'expérimentation. Les suites logiques incluent une validation sur robot physique, un spine multi-DOF, et une mesure de l'impact sur la consommation énergétique, paramètre absent de l'étude actuelle.

UEMAB Robotics (Pologne, UE) fournit la plateforme Silver Badger pour cette étude, confirmant son rôle de vecteur de recherche ouverte dans l'écosystème robotique européen des quadrupèdes, aux côtés d'ANYbotics (Suisse).

RecherchePaper
1 source