
Apprentissage par renforcement guidé par référence pour la navigation autonome de robots humanoïdes en terrain variable
Une équipe de recherche publie sur arXiv (référence 2605.15517) une méthode d'entraînement de politiques de locomotion par apprentissage par renforcement (RL) pour robots humanoïdes, dans laquelle les trajectoires de référence sont adaptées dynamiquement à la géométrie du terrain pendant l'entraînement. Concrètement, le système génère en boucle des trajectoires de référence contrôlables en SE(2), l'espace de déplacement planaire, en projetant les appuis de pied sur des zones d'appui valides et en ajustant les trajectoires du pied oscillant et du centre de masse selon le relief. L'interface exposée est un vecteur de vitesse SE(2) standard, directement compatible avec les planificateurs de navigation autonome existants. Côté hardware, les chercheurs ont intégré cette politique avec un planificateur MPC (Model Predictive Control) couplé à des fonctions de barrière de contrôle (CBF), et démontré une navigation autonome en boucle fermée sur plus de 70 mètres en extérieur sur le robot Unitree G1, incluant des terrains accidentés et des escaliers consécutifs, avec l'ensemble du calcul et de la perception embarqués.
Ce résultat est notable parce qu'il attaque directement le problème du "reality gap" dans la locomotion humanoïde sur terrain non structuré : en conditionnant les trajectoires de référence au terrain dès la phase de simulation, la politique apprend des comportements footholds-aware plutôt que des mouvements génériques dégradés au contact du sol réel. L'exposition d'une interface SE(2) propre signifie que cette politique s'insère sans friction dans un stack de navigation autonome standard, celui qu'utilisent déjà les AMR (autonomous mobile robots) industriels, sans couche d'adaptation supplémentaire. Pour un intégrateur ou un équipementier, c'est une architecture qui réduit la dette de middlewares entre planification de chemin et exécution de locomotion.
Le Unitree G1 est un humanoïde à faible coût (environ 16 000 dollars) dont Unitree, fabricant chinois, a multiplié les variantes depuis 2024. Le domaine de la locomotion humanoïde guidée par trajectoires de référence est aussi exploré par des laboratoires comme CMU, ETH Zurich (ANYbotics, Legged Gym), et des équipes comme celles de Boston Dynamics ou Agility Robotics, qui privilégient des approches similaires sim-to-real. Ce travail reste une démonstration académique, parcours sélectionnés, conditions contrôlées, et n'est pas associé à une annonce de déploiement commercial. Les prochaines étapes logiques incluent des tests à plus grande échelle de variabilité de terrain et l'intégration avec des planificateurs 3D.




