Robot humanoïde à patins en ligne piloté par apprentissage par renforcement

Des chercheurs ont entraîné un policy de contrôle par apprentissage par renforcement (RL) pour piloter un robot humanoïde équipé de patins à roues alignées (rollers) grand public à la place des pieds classiques. Le système commande les patins avec 6 degrés de liberté (DoF) et exécute des stratégies de propulsion dynamiques basées sur les carres, comme le font les patineurs humains. Contrairement aux travaux antérieurs limités aux robots quadrupèdes ou aux roues motorisées activement, cette approche fonctionne avec des roues passives, sans moteur dans les roues elles-mêmes. Les comportements de patinage émergent uniquement de la structure de récompense, sans données de mouvement humain, sans apprentissage par imitation ni a priori cinématiques. Pour gérer l'instabilité des roues passives et les artefacts de contact en simulation, les auteurs ont utilisé des modèles géométriques de roues différents à l'entraînement et à la validation (sphériques et ellipsoïdaux), un curriculum de commandes basé sur le taux de succès, et une récompense spécifique au roulement. Résultat: une réduction allant jusqu'à 50% du coût de transport (Cost of Transport) par rapport à une démarche marchée classique. Le policy a été transféré zéro-shot sur le robot Booster T1 réel, avec équilibre dynamique démontré, capacité à encaisser des perturbations physiques actives, et virages agiles à vitesse.
L'intérêt dépasse l'anecdote technique: c'est une nouvelle preuve que le RL pur, sans données de démonstration humaine, peut produire des comportements locomoteurs complexes et efficaces énergétiquement, transférables directement du simulateur au réel sans réentraînement. Pour les équipes qui travaillent sur la locomotion humanoïde, cela ouvre une piste alternative aux pieds ou aux roues motorisées: des accessoires passifs à faible coût combinés à un contrôleur suffisamment sophistiqué pour compenser la sous-actionnement mécanique.
Le travail s'inscrit dans la lignée des recherches sur la locomotion RL pour robots à pattes, qui a déjà permis des transferts sim-to-real robustes pour la marche et la course. Ici l'équipe étend le paradigme à un mode de locomotion inhabituel et instable par nature. Le choix du Booster T1, plateforme humanoïde chinoise à bas coût plus accessible que les Unitree G1 ou Figure 03, suggère aussi une recherche pensée pour la reproductibilité académique plutôt que pour la démonstration commerciale.




