Aller au contenu principal
RoboNaldo : tirs précis, stables et puissants pour humanoïdes via apprentissage par renforcement à programme progressif guidé par le mouvement
RecherchearXiv cs.RO3h

RoboNaldo : tirs précis, stables et puissants pour humanoïdes via apprentissage par renforcement à programme progressif guidé par le mouvement

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs d'OpenDriveLab ont publié le 13 juin 2026 RoboNaldo (arXiv:2606.11092), un framework d'apprentissage par renforcement en curriculum à trois étapes conçu pour entraîner un humanoïde à tirer au football avec précision et puissance. Déployé sur un Unitree G1 avec perception embarquée, le système atteint une erreur de tir moyenne de 0,73 m depuis 3 m en situation de coup franc (balle stationnaire), et 0,86 m sur balle en mouvement. La vitesse post-contact de la balle atteint 13,10 m/s, soit 59 à 71 % de la vitesse mesurée chez des joueurs professionnels en match ouvert. En simulation, RoboNaldo réduit l'erreur de tir de 48,6 % et multiplie la vélocité de frappe par 2,96 par rapport aux baselines de référence antérieures.

L'intérêt technique réside dans la combinaison de deux approches qui s'avèrent complémentaires plutôt qu'opposées : le motion tracking-driven RL (stable mais rigide face à des positions de balle variables) et le task reward-driven RL (flexible mais inefficace à explorer des kicks valides de zéro). RoboNaldo hybride les deux via un curriculum progressif : le robot apprend d'abord un prior de coup de pied corps entier stable à partir d'une seule référence humaine, puis l'adapte à des positions de balle aléatoires, puis à une balle en mouvement via une interface locomotion-commande/kick-trigger. Un planificateur heuristique haut niveau pilote l'entraînement, mais le même policy bas niveau peut être conduit par n'importe quel contrôleur alternatif à l'inférence, ce qui est une propriété utile pour l'intégration dans des systèmes plus larges. Il reste que les résultats présentés s'appuient sur des vidéos et métriques de laboratoire contrôlé, sans terrain irrégulier ni adversaires dynamiques.

OpenDriveLab, lab de recherche en autonomie embodied associé à Shanghai AI Lab, se positionne ici dans un espace de plus en plus disputé. Boston Dynamics, Agility Robotics (Figure, Tesla Optimus) concentrent leurs démonstrations sur la manipulation industrielle et la locomotion bipède en entrepôt, tandis que des travaux comme DribbleBot (CMU, 2023) ou les robots footballeurs de l'équipe NimbRo avaient déjà exploré le jeu avec ballon, mais sur des plateformes quadrupèdes ou plus légères. RoboNaldo est présenté comme une démonstration de recherche (preprint non peer-reviewed à ce stade) : aucun pilote industriel ni timeline de commercialisation n'est annoncé. La prochaine étape logique serait l'évaluation en conditions non structurées et l'intégration d'un contrôleur haut niveau appris plutôt qu'heuristique.

À lire aussi

MARCH : apprentissage par renforcement assisté par modèle pour le contrôle perceptif de robots humanoïdes sur appuis rares
1arXiv cs.RO 

MARCH : apprentissage par renforcement assisté par modèle pour le contrôle perceptif de robots humanoïdes sur appuis rares

Des chercheurs ont publié sur arXiv (2606.10288) MARCH, un cadre d'apprentissage par renforcement assisté par modèles pour la locomotion bipedale sur appuis épars. La méthode repose sur trois étapes : générer une trajectoire de référence sûre à partir de modèles dynamiques simplifiés, entraîner une politique "enseignante" guidée par un reward basé sur une Control Lyapunov Function (CLF), puis distiller cette politique dans une politique "étudiante" visuelle déployable sur robot réel. L'ensemble a été validé en simulation et déployé sur un Unitree G1, humanoïde commercialisé autour de 16 000 dollars, naviguant sur des appuis épars avec contraintes latérales. L'enjeu est de réconcilier deux familles de méthodes historiquement opposées : les approches basées modèle (MPC, optimisation de contact) sont précises mais fragiles face à l'incertitude de terrain, tandis que le RL pur est robuste mais peine à découvrir les mouvements finement contraints nécessaires à la locomotion safety-critical, où une erreur de quelques centimètres peut provoquer une chute. Le reward CLF injecte une connaissance physique dans la boucle d'apprentissage sans curriculum d'entraînement complexe, améliorant l'efficacité d'échantillonnage et produisant une locomotion plus fluide. Les performances sur stepping stones sont déclarées comparables aux baselines RL purs, ce qui suggère que l'hybridation modèle/apprentissage est viable à coût computationnel comparable. Ce travail s'inscrit dans l'axe locomotion perceptive porté par ETH Zurich (parkour RL, 2023), Carnegie Mellon et Berkeley. La distillation teacher-student, popularisée par Agility Robotics et ANYbotics dans leurs pipelines de développement, est ici enrichie d'une contrainte CLF théoriquement fondée. Le Unitree G1 est devenu une plateforme quasi-standard dans les labos de locomotion pour sa documentation et son prix accessible. Il s'agit d'un preprint arXiv non évalué par les pairs, sans déploiement industriel ni timeline commerciale annoncés. Les prochaines étapes naturelles seraient une validation sur terrain extérieur non structuré et une comparaison directe avec les approches MPC de nouvelle génération.

UEImpact marginal : ETH Zurich (Suisse, hors UE) est cité en travaux connexes, mais aucun labo ou industriel européen n'est directement impliqué dans ce preprint.

RecherchePaper
1 source
Accélérer et étendre l'apprentissage par renforcement guidé par MPC pour la locomotion et la manipulation humanoïdes
2arXiv cs.RO 

Accélérer et étendre l'apprentissage par renforcement guidé par MPC pour la locomotion et la manipulation humanoïdes

Une équipe de recherche publie sur arXiv (arXiv:2606.05687v1) une méthode hybride MPC-RL pour le contrôle moteur des robots humanoïdes, baptisée MPC-RL. Le principe : intégrer un contrôleur prédictif par modèle (MPC) directement dans la boucle d'entraînement par renforcement (RL), en utilisant les trajectoires générées par le MPC comme signal de récompense basé sur la dynamique centroïdale du robot. La contribution technique centrale est un solveur GPU appelé pi-n-MPC, parallélisé à la fois sur l'horizon temporel et sur les instances de simulation, sans nécessiter de précompilation ni de construction explicite du problème à chaque pas. Les auteurs reportent des validations sur hardware réel, sans préciser les plateformes matérielles ni les cycles de tests. Le code est disponible en open source sur GitHub. L'enjeu industriel derrière ce travail est réel : le RL massif en simulation parallèle (Isaac Gym, Mujoco MJX) est devenu le standard pour entraîner des compétences de locomotion et de manipulation humanoïde, mais y injecter un MPC est historiquement coûteux en temps de construction et en mémoire GPU. Pi-n-MPC contourne ces deux goulots d'étranglement en opérant directement sur des dynamiques variables dans le temps, sans accumuler de mémoire excessive. Si les gains revendiqués se confirment à l'échelle, cela ouvre la voie à des politiques hybrides MPC/RL entraînables sur des clusters GPU standard, sans infrastructure spécialisée. Attention toutefois : le papier s'appuie sur des études comparatives internes et des validations hardware dont les conditions exactes (charges, cycles, environnements) ne sont pas détaillées dans le résumé disponible, ce qui limite l'évaluation externe des performances annoncées. La combinaison MPC-RL n'est pas nouvelle dans la recherche en locomotion : des travaux comme ceux de DeepMind sur le contrôle de quadrupèdes ou les approches whole-body de CMU et ETH Zurich ont exploré des directions similaires. La spécificité ici réside dans l'accent mis sur la scalabilité GPU et l'absence de précompilation, deux verrous pratiques qui freinent l'adoption dans les pipelines d'entraînement industriels. Les acteurs qui déploient activement des humanoïdes en environnement réel, comme Figure AI, Apptronik ou Agility Robotics, travaillent tous à réduire le sim-to-real gap sur la manipulation dextre : une infrastructure d'entraînement MPC-RL plus légère pourrait accélérer leurs cycles d'itération. La prochaine étape naturelle serait une validation sur des plateformes nommées et des tâches de manipulation avec contraintes de contact.

RecherchePaper
1 source
LineRides : apprentissage par renforcement guidé par trajectoire pour les cascades d'un robot vélo
3arXiv cs.RO 

LineRides : apprentissage par renforcement guidé par trajectoire pour les cascades d'un robot vélo

Des chercheurs ont publié le 7 mai 2026 sur arXiv (identifiant 2605.05110) un cadre d'apprentissage par renforcement baptisé LineRides, conçu pour permettre à un robot-vélo custom baptisé Ultra Mobility Vehicle (UMV) d'exécuter des cascades acrobatiques commandables sans recours à des démonstrations humaines ni à des séquences de référence prédéfinies. LineRides s'appuie sur une ligne spatiale fournie par l'utilisateur, complétée par de rares orientations-clés positionnelles ou séquentielles : le système apprend seul à réaliser cinq manœuvres distinctes sur commande, à savoir le MiniHop (petit saut), le LargeHop (grand saut), le ThreePointTurn (demi-tour en trois points), le Backflip (saut arrière complet) et le DriftTurn (virage en dérapage). Pour gérer les guides spatialement infaisables, c'est-à-dire les lignes que le robot ne peut pas suivre à la lettre, le cadre introduit un "tracking margin", une tolérance de déviation contrôlée qui évite l'échec de la politique sans relâcher l'objectif global. La progression le long de la ligne est mesurée en distance parcourue plutôt qu'en temps, ce qui résout l'ambiguïté temporelle inhérente aux trajectoires acrobatiques complexes. L'apport principal est méthodologique : LineRides supprime la dépendance aux motion captures et aux trajectoires de référence, deux obstacles majeurs pour les plateformes non-standard ou pour les manœuvres extrêmes pour lesquelles aucune démonstration préalable n'existe. Pour les laboratoires travaillant sur la robotique agile et les concepteurs de véhicules à équilibre dynamique (monoroues, bicycles, exosquelettes), cette approche ouvre la voie à l'apprentissage de comportements complexes sur des engins dont la dynamique est difficile à capturer en MoCap. La transition fluide démontrée entre conduite normale et exécution de cascade sur l'UMV suggère une politique suffisamment robuste pour une intégration dans un système de contrôle réel. Il convient toutefois de noter que les performances en conditions non contrôlées, hors environnement de laboratoire, restent à valider de manière indépendante. LineRides s'inscrit dans un courant de travaux sur l'apprentissage par renforcement pour la locomotion agile, aux côtés de méthodes comme AMP (Adversarial Motion Priors) ou CALM, qui s'appuient sur des données de référence pour guider l'exploration. L'abandon explicite de ces références au profit de contraintes géométriques légères constitue le marqueur distinctif de l'approche. L'UMV reste une plateforme custom dont les caractéristiques exactes (masse, empattement, actionneurs) ne sont pas détaillées dans l'article, ce qui limite la comparaison directe avec d'autres travaux sur les robots à deux roues. Dans l'écosystème de la robotique agile, ETH Zurich, Stanford et le MIT progressent sur des plateformes quadrupèdes et aériennes, mais le champ des robots bicycles dynamiquement équilibrés reste peu peuplé, ce qui place LineRides en position de précurseur. Les étapes suivantes naturelles incluent une validation sur terrain non structuré, une extension à d'autres plateformes sous-actionnées, et une comparaison quantitative avec les méthodes de l'état de l'art.

RecherchePaper
1 source
Apprentissage par renforcement guidé pour les sauts omnidirectionnels en 3D dans les robots quadrupèdes
4arXiv cs.RO 

Apprentissage par renforcement guidé pour les sauts omnidirectionnels en 3D dans les robots quadrupèdes

Une équipe de chercheurs a publié sur arXiv (référence 2507.16481, troisième version) une méthode d'apprentissage par renforcement guidé destinée à permettre aux robots quadrupèdes d'effectuer des sauts omnidirectionnels en trois dimensions. L'approche combine des courbes de Bézier, classiquement utilisées pour la planification de trajectoires lissées, avec un modèle de mouvement rectiligne uniformément accéléré (UARM), qui encode une intuition physique du saut directement dans la boucle d'entraînement. Les résultats sont validés en simulation et sur robot réel, mais le résumé ne précise ni la plateforme matérielle utilisée ni les métriques chiffrées de performance, ce qui limite l'évaluation indépendante de la contribution. L'intérêt principal de ce travail réside dans l'adresse simultanée de deux limitations majeures des approches existantes. Les méthodes d'optimisation classiques (MPC, trajectory optimization) produisent des sauts contrôlables mais exigent une connaissance fine des paramètres du robot et du terrain, ce qui fragilise leur robustesse en conditions réelles. À l'inverse, l'apprentissage par renforcement bout-en-bout souffre d'une complexité d'échantillonnage élevée, de millions de simulations nécessaires, et d'une imprévisibilité des trajectoires qui complique la certification de sécurité, un prérequis non négociable pour les déploiements industriels. En injectant une structure physique dans la boucle d'entraînement, les auteurs visent à réduire le coût d'apprentissage tout en produisant des mouvements explicables, dont la logique peut être auditée et certifiée. Le saut dynamique pour robots quadrupèdes est un problème ouvert depuis plusieurs années, car il concentre les défis du transfert sim-to-réel : contacts impulsionnels, rigidité des actionneurs, imprécision des estimations d'état. Le Robotics Systems Lab d'ETH Zurich (ANYmal) et les équipes de l'UC Berkeley ont déjà démontré des sauts via RL pur, tandis que Boston Dynamics et Unitree intègrent ces capacités dans leurs plateformes commerciales. Ce papier s'inscrit dans la tendance des approches hybrides modèle-apprentissage, qui cherchent à concilier la robustesse du RL avec la prévisibilité des méthodes analytiques, une direction que poursuivent également des équipes européennes comme le LAAS-CNRS ou l'INRIA.

UEDes équipes européennes comme le LAAS-CNRS et l'INRIA travaillent sur des approches hybrides modèle-apprentissage similaires pour la locomotion quadrupède, ce travail s'inscrit dans un domaine de recherche où l'Europe est présente mais sans impact direct immédiat.

RecherchePaper
1 source