
Stratégies d'échantillonnage pour des politiques de locomotion quadrupède robustes et universelles
Des chercheurs ont publié sur arXiv (2510.07094) une étude comparant trois stratégies d'échantillonnage de paramètres pour entraîner une politique de locomotion universelle applicable à plusieurs robots quadrupèdes sans re-entraînement. L'enjeu : former un seul agent par apprentissage par renforcement capable de s'adapter à des configurations physiques variées, masses différentes, géométries de pattes, gains de contrôleur articulaire PD (proportionnel-dérivateur) distincts. Les trois approches comparées sont des mappings linéaires et polynomiaux reliant masse aux gains PD, un filtrage adaptatif basé sur les performances, et un échantillonnage aléatoire uniforme. L'entraînement s'est déroulé dans le simulateur RaiSim, avec validation sur une gamme de quadrupèdes virtuels, puis déploiement zéro-shot sur le robot physique ANYmal d'ANYbotics. Résultat central : l'échantillonnage uniforme des gains articulaires, combiné à des priors nominaux pour biaiser les configurations, offre la meilleure robustesse au passage simulation-réalité.
La démonstration qu'une randomisation forte des gains PD est nécessaire, et non optionnelle, pour fermer le sim-to-real gap est un résultat directement actionnable. Calibrer précisément les gains dans le simulateur ne suffit pas ; il faut au contraire introduire volontairement de la variance pour couvrir les incertitudes du monde réel : usure, imprécisions mécaniques, variations de charge utile. Le déploiement zéro-shot validé sur ANYmal, sans fine-tuning hardware, réduit concrètement les cycles d'adaptation pour les intégrateurs qui déploient des quadrupèdes sur terrains variés. Pour un COO industriel, cela se traduit par moins de recalibrations coûteuses entre sites ou lors de changements de configuration.
ANYmal est le quadrupède phare d'ANYbotics, spin-off de l'ETH Zurich déployé dans l'inspection industrielle sur centrales électriques et sites pétroliers. Ces travaux s'inscrivent dans la compétition entre approches de sim-to-real : domain randomization classique dont relève cet article, modèles du monde appris comme DreamerV3 ou TD-MPC2, et adaptation en ligne telle que RMA (Rapid Motor Adaptation, Berkeley). Les publications concurrentes en politique universelle quadrupède émanent principalement de DeepMind, CMU et Google DeepMind. La suite naturelle serait d'étendre l'approche à des morphologies plus diverses ou à la loco-manipulation, robots à bras embarqué pour l'inspection et la manipulation industrielle autonome, un segment en forte croissance.
ANYbotics (spin-off de l'ETH Zurich, ANYmal déployé dans l'inspection industrielle européenne) peut réduire ses cycles de recalibration sur sites EU variés grâce au déploiement zéro-shot validé par cette étude.
Dans nos dossiers




