
asRoBallet : réduire l'écart sim-réel grâce au renforcement intégrant la friction pour sphères sous-actionnées
Des chercheurs ont présenté asRoBallet, décrit comme le premier robot humanoïde ballbot à être piloté avec succès par apprentissage par renforcement (RL) sur un vrai matériel. Un ballbot est un robot qui s'équilibre sur une sphère, à l'instar d'un jongleur sur un ballon. L'article, déposé sur arXiv sous la référence 2604.24916, décrit comment l'équipe a développé une simulation haute fidélité sous MuJoCo pour modéliser avec précision la mécanique des roues omnidirectionnelles de type ETH, capturant notamment les vibrations parasites et les discontinuités de contact habituellement ignorées. Cette simulation alimenter un cadre nommé Friction-Aware Reinforcement Learning, qui maîtrise simultanément les frictions de roulement, latérale et torsionnelle aux interfaces roue-sphère et sphère-sol. Le robot a également été conçu à faible coût en réutilisant des composants d'un quadrupède existant, et un écosystème iOS a été développé pour permettre à un seul opérateur de le piloter via des mouvements naturels sur smartphone.
L'enjeu central de ce travail est le fossé sim2real, ce gouffre notoire entre les comportements appris en simulation et les résultats obtenus sur le vrai matériel. Ici, le transfert est qualifié de zero-shot : le robot n'a besoin d'aucun recalibrage entre la simulation et le déploiement physique. C'est un résultat significatif, car les modèles de friction complexes ont historiquement rendu ce type de transfert très difficile pour les systèmes sous-actionnés. Pour l'industrie de la robotique humanoïde, cette démonstration ouvre la voie à des plateformes d'équilibrage dynamique plus agiles et plus économiques, sans passer par des méthodes de contrôle classiques lourdes à paramétrer.
Les ballbots sont depuis longtemps un banc d'essai de référence pour le contrôle non-holonome et sous-actionné. Jusqu'ici, les approches dominantes restaient le LQR et le MPC, efficaces pour l'équilibrage 3D mais peu adaptés à des comportements expressifs ou à une généralisation robuste. La latence des actionneurs et les risques d'exploration non sécurisée sur le matériel réel avaient freiné l'adoption du RL dans ce domaine. En levant ces obstacles via une modélisation fine du contact et une interface de contrôle intuitive, asRoBallet pose les bases d'une nouvelle génération de robots humanoïdes capables de mouvements complexes appris entièrement en simulation.



