
Apprentissage de compétences d'attaquant agile pour robots humanoïdes footballeurs à partir de capteurs bruités
Des chercheurs ont publié sur arXiv (réf. 2512.06571, troisième révision) un système d'apprentissage par renforcement permettant à des robots humanoïdes d'exécuter des frappes de balle précises et répétées, même face à des capteurs bruités et des perturbations extérieures simulant des adversaires. L'entraînement se structure en quatre étapes : une phase de poursuite longue distance, puis de frappe directionnelle, conduites par une politique dite "enseignant" alimentée en données d'état parfaites ; ensuite une distillation de cette politique vers un agent "étudiant" fonctionnant avec des capteurs imparfaits ; enfin une adaptation par RL contraint. Les expériences ont été conduites en simulation et sur un vrai robot humanoïde, avec des résultats solides en précision de frappe et en taux de buts sur des configurations balle-but variées.
Ce qui distingue ces travaux, c'est la rigueur avec laquelle le fossé sim-to-real est traité. Le bruit de perception est modélisé explicitement pendant l'entraînement, et l'étape de RL contraint permet de raffiner le comportement de l'agent sans dégrader ses acquis antérieurs. Maintenir l'équilibre sur un seul appui pendant une frappe rapide constitue un défi de contrôle entier-corps que les approches classiques peinent souvent à transférer du simulateur au hardware. Le fait que le système fonctionne sur robot réel, et pas uniquement en simulation sélectionnée, est un indicateur de maturité non négligeable pour les équipes R&D travaillant sur des plateformes comme l'Unitree H1 ou le Fourier GR-1.
Ce travail s'inscrit dans l'essor des compétitions de football humanoïde, notamment le RoboCup Humanoid League, où le passage de démonstrations contrôlées à des comportements robustes face à l'adversité reste le principal verrou. Le cadre enseignant-étudiant est une approche bien établie dans la littérature du contrôle locomoteur, portée par de nombreux travaux sur la locomotion quadrupède et humanoïde ces cinq dernières années. Ce qui singularise cette contribution est l'ajout d'une étape d'adaptation par RL contraint et la modélisation réaliste du bruit de perception dans la boucle d'entraînement, deux éléments que les études d'ablation de l'article identifient comme critiques pour la performance finale. Les auteurs proposent ce système comme benchmark de référence pour les compétences visuomotrices en contrôle entier-corps humanoïde, un angle encore peu formalisé dans un domaine dominé par la locomotion et la manipulation statique.
Dans nos dossiers




