RecherchearXiv cs.RO 10 juin 2026

RoboNaldo : tirs précis, stables et puissants pour humanoïdes via apprentissage par renforcement à programme progressif guidé par le mouvement

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs d'OpenDriveLab ont publié le 13 juin 2026 RoboNaldo (arXiv:2606.11092), un framework d'apprentissage par renforcement en curriculum à trois étapes conçu pour entraîner un humanoïde à tirer au football avec précision et puissance. Déployé sur un Unitree G1 avec perception embarquée, le système atteint une erreur de tir moyenne de 0,73 m depuis 3 m en situation de coup franc (balle stationnaire), et 0,86 m sur balle en mouvement. La vitesse post-contact de la balle atteint 13,10 m/s, soit 59 à 71 % de la vitesse mesurée chez des joueurs professionnels en match ouvert. En simulation, RoboNaldo réduit l'erreur de tir de 48,6 % et multiplie la vélocité de frappe par 2,96 par rapport aux baselines de référence antérieures.

L'intérêt technique réside dans la combinaison de deux approches qui s'avèrent complémentaires plutôt qu'opposées : le motion tracking-driven RL (stable mais rigide face à des positions de balle variables) et le task reward-driven RL (flexible mais inefficace à explorer des kicks valides de zéro). RoboNaldo hybride les deux via un curriculum progressif : le robot apprend d'abord un prior de coup de pied corps entier stable à partir d'une seule référence humaine, puis l'adapte à des positions de balle aléatoires, puis à une balle en mouvement via une interface locomotion-commande/kick-trigger. Un planificateur heuristique haut niveau pilote l'entraînement, mais le même policy bas niveau peut être conduit par n'importe quel contrôleur alternatif à l'inférence, ce qui est une propriété utile pour l'intégration dans des systèmes plus larges. Il reste que les résultats présentés s'appuient sur des vidéos et métriques de laboratoire contrôlé, sans terrain irrégulier ni adversaires dynamiques.

OpenDriveLab, lab de recherche en autonomie embodied associé à Shanghai AI Lab, se positionne ici dans un espace de plus en plus disputé. Boston Dynamics, Agility Robotics (Figure, Tesla Optimus) concentrent leurs démonstrations sur la manipulation industrielle et la locomotion bipède en entrepôt, tandis que des travaux comme DribbleBot (CMU, 2023) ou les robots footballeurs de l'équipe NimbRo avaient déjà exploré le jeu avec ballon, mais sur des plateformes quadrupèdes ou plus légères. RoboNaldo est présenté comme une démonstration de recherche (preprint non peer-reviewed à ce stade) : aucun pilote industriel ni timeline de commercialisation n'est annoncé. La prochaine étape logique serait l'évaluation en conditions non structurées et l'intégration d'un contrôleur haut niveau appris plutôt qu'heuristique.

Dans nos dossiers

Tesla Optimus Boston Dynamics Unitree Agility Robotics — Digit

À lire aussi

1arXiv cs.RO

RGB : MPPI corps entier pour humanoïdes guidé par apprentissage par renforcement

Une équipe de recherche a publié sur arXiv (référence 2606.25123) une architecture de contrôle hybride baptisée RGB, pour "RL Guided whole-body MPPI", destinée aux robots humanoïdes évoluant dans des environnements à contacts complexes. Le framework a été évalué en simulation MuJoCo sur un Unitree G1 à 29 degrés de liberté, avec une fréquence de contrôle moyenne de 280 Hz. Le principe : au lieu d'utiliser une politique d'apprentissage par renforcement (RL) comme contrôleur final, RGB l'emploie comme prior d'échantillonnage pour guider les rollouts d'un algorithme MPPI (Model Predictive Path Integral). Les objectifs de tâche sont définis via des termes de coût modulaires MPPI, qui corrigent en ligne la politique RL pour satisfaire ces objectifs sans nécessiter de réentraînement. Les tests montrent une réduction de la dérive systématique en marche rectiligne et une meilleure capacité à suivre des signaux de référence corps entier supplémentaires, comparé à une politique RL pure sous la même interface de commande. L'intérêt industriel de cette approche réside dans la rigidité structurelle des politiques RL actuelles : une fois entraînée, une politique couple fortement son comportement à l'objectif d'entraînement et à l'interface de commande. Ajouter un nouvel objectif de feedback (correction de trajectoire, contrainte de contact, suivi d'un membre spécifique) exige généralement un réentraînement complet, coûteux et long. RGB court-circuite cette contrainte en déléguant la précision et la modularité au MPPI, qui opère en boucle fermée à haute fréquence. Pour un intégrateur industriel ou un COO qui doit adapter un humanoïde à plusieurs lignes de production, la possibilité de spécifier de nouveaux comportements via des termes de coût, sans retouch au modèle RL sous-jacent, représente un gain de flexibilité concret. La fréquence de 280 Hz en simulation est encourageante, mais les auteurs ne démontrent pas encore le transfert sim-to-real, ce qui reste le saut critique pour toute validation industrielle. Le cadre MPPI est une technique de contrôle prédictif par échantillonnage bien établie en robotique mobile et manipulation, mais son couplage avec une politique RL comme prior pour les humanoïdes corps entier est une direction récente. Unitree, dont le G1 est devenu une plateforme de recherche courante grâce à son accessibilité commerciale (autour de 16 000 dollars), est au coeur de nombreux travaux académiques concurrents, notamment autour des architectures VLA (Vision-Language-Action) de type GR00T N2 de NVIDIA ou Pi-0 de Physical Intelligence. RGB se positionne dans un créneau distinct : il ne vise pas la généralisation via des données de démonstration, mais l'optimisation en ligne de politiques existantes. La prochaine étape logique sera une validation sur hardware réel, déterminante pour établir si les 280 Hz de simulation se maintiennent face aux incertitudes mécaniques et aux latences capteurs d'un vrai G1.

RecherchePaper

1 source

2arXiv cs.RO

MARCH : apprentissage par renforcement assisté par modèle pour le contrôle perceptif de robots humanoïdes sur appuis rares

Des chercheurs ont publié sur arXiv (2606.10288) MARCH, un cadre d'apprentissage par renforcement assisté par modèles pour la locomotion bipedale sur appuis épars. La méthode repose sur trois étapes : générer une trajectoire de référence sûre à partir de modèles dynamiques simplifiés, entraîner une politique "enseignante" guidée par un reward basé sur une Control Lyapunov Function (CLF), puis distiller cette politique dans une politique "étudiante" visuelle déployable sur robot réel. L'ensemble a été validé en simulation et déployé sur un Unitree G1, humanoïde commercialisé autour de 16 000 dollars, naviguant sur des appuis épars avec contraintes latérales. L'enjeu est de réconcilier deux familles de méthodes historiquement opposées : les approches basées modèle (MPC, optimisation de contact) sont précises mais fragiles face à l'incertitude de terrain, tandis que le RL pur est robuste mais peine à découvrir les mouvements finement contraints nécessaires à la locomotion safety-critical, où une erreur de quelques centimètres peut provoquer une chute. Le reward CLF injecte une connaissance physique dans la boucle d'apprentissage sans curriculum d'entraînement complexe, améliorant l'efficacité d'échantillonnage et produisant une locomotion plus fluide. Les performances sur stepping stones sont déclarées comparables aux baselines RL purs, ce qui suggère que l'hybridation modèle/apprentissage est viable à coût computationnel comparable. Ce travail s'inscrit dans l'axe locomotion perceptive porté par ETH Zurich (parkour RL, 2023), Carnegie Mellon et Berkeley. La distillation teacher-student, popularisée par Agility Robotics et ANYbotics dans leurs pipelines de développement, est ici enrichie d'une contrainte CLF théoriquement fondée. Le Unitree G1 est devenu une plateforme quasi-standard dans les labos de locomotion pour sa documentation et son prix accessible. Il s'agit d'un preprint arXiv non évalué par les pairs, sans déploiement industriel ni timeline commerciale annoncés. Les prochaines étapes naturelles seraient une validation sur terrain extérieur non structuré et une comparaison directe avec les approches MPC de nouvelle génération.

UEImpact marginal : ETH Zurich (Suisse, hors UE) est cité en travaux connexes, mais aucun labo ou industriel européen n'est directement impliqué dans ce preprint.

RecherchePaper

1 source

3arXiv cs.RO

Apprentissage des mouvements de patinage à roulettes pour robots humanoïdes via des priorités de mouvement adverses

Des chercheurs présentent, dans un article déposé le 14 juillet 2026 sur arXiv (2607.10815), une méthode d'apprentissage par renforcement pour faire patiner un robot humanoïde en rollers. Le système s'appuie sur les Adversarial Motion Priors (AMP), une technique qui entraîne une politique de contrôle à imiter des mouvements de référence tout en respectant les contraintes physiques du robot. Deux allures distinctes sont visées : le Pump Glide (une godille d'impulsion) et le Push Glide (une poussée alternée classique du patinage). Pour chacune, les auteurs ont capturé des données de mouvement humain par motion capture, puis les ont retargetées, c'est-à-dire adaptées à la morphologie du robot humanoïde, avant de les lisser et de les rééchantillonner en états de référence exploitables pour l'entraînement AMP. Les deux allures sont apprises séparément, avec des jeux de données, des politiques et des architectures de récompense entièrement indépendants. Des expériences en simulation évaluent la qualité du geste, le suivi de vitesse, la capacité à tourner et l'apport de chaque composante de récompense via des ablations. L'enjeu dépasse l'anecdote du robot à roulettes : patiner impose de gérer simultanément l'équilibre corps entier, des contacts roulants à faible frottement et une posture qui varie avec la vitesse, un problème de contrôle nettement plus contraint que la marche ou la course déjà démontrées sur humanoïdes. Réussir ce type de locomotion en simulation valide la robustesse des pipelines AMP pour des dynamiques de contact inhabituelles, un signal utile pour les équipes qui explorent des locomotions non conventionnelles (patins, skis, roues) au-delà des gaits bipèdes standards. Cela reste toutefois un résultat de simulation, sans transfert annoncé vers un robot physique ni précision sur la plateforme matérielle visée. Les méthodes AMP, popularisées dans l'animation de personnages puis reprises en robotique pour générer des démarches naturelles et stables, connaissent depuis deux ans une adoption croissante dans le contrôle d'humanoïdes, portée par des laboratoires travaillant sur la locomotion bipède avancée. Cet article s'inscrit dans cette lignée en repoussant le champ d'application vers des gaits hybrides homme-machine inédits. Les auteurs ne mentionnent pas de calendrier de validation sur robot réel ni de partenaire industriel associé à ces travaux.

RecherchePaper

1 source

4arXiv cs.RO

Mouvements du bras d'un humanoïde économes en énergie par apprentissage par renforcement profond et modèles de puissance

Un framework d'apprentissage par renforcement conçu pour minimiser la consommation énergétique des mouvements d'atteinte brachiale d'un humanoïde vient d'être publié sur arXiv (preprint 2606.15918, juin 2026), avec pour application cible la récolte automatisée de pommes en plein champ. Le bras gauche à 7 degrés de liberté (DOF) du Unitree G1 est la plateforme de validation. L'algorithme Soft Actor-Critic (SAC) est entraîné dans un simulateur de dynamique rigide Pinocchio, couplé à un modèle électrique de puissance identifié expérimentalement sur le robot physique. Après 5 millions de pas d'entraînement, le policy atteint 69,9 % de succès sur 1 000 cibles aléatoires en simulation, avec une consommation moyenne de 98,16 joules par épisode réussi. Sur le Unitree G1 réel, validé sur trois séries indépendantes de 10 cibles chacune, les mesures sont : 71,5 ± 48,3 J, erreur de position 2,64 ± 1,04 cm, erreur d'orientation 6,92 ± 1,33°, dans les tolérances d'entraînement de 4 cm et 8,6°. Ce travail s'attaque à un problème rarement quantifié dans la littérature : combien de cycles d'atteinte un humanoïde peut-il exécuter par charge de batterie ? En agriculture robotique, où les robots opèrent loin des prises de courant, cette contrainte est directement opérationnelle. La contribution méthodologique centrale est l'intégration d'un modèle de puissance calibré expérimentalement dans la fonction de récompense, baptisée "Hybrid Constellation Reward", qui combine distance à l'effecteur terminal et proxy énergétique basé sur la norme des couples articulaires. Le fait que le policy consomme environ 27 % moins sur le robot réel qu'en simulation (71,5 J vs 98,16 J) est un résultat sim-to-real encourageant, tempéré toutefois par un écart-type élevé (48,3 J) révélant une variabilité substantielle selon la configuration de la cible. Il s'agit d'un preprint académique posant une brique méthodologique, pas d'un déploiement terrain. Le Unitree G1, humanoïde compact commercialisé à environ 16 000 dollars, est devenu une plateforme de recherche courante aux côtés du Fourier GR-1 et du 1X Neo. Les travaux sur l'efficacité énergétique en manipulation robotique concernent davantage les bras industriels sériels (ANYmal de l'ETH Zurich, Franka Emika) que les humanoïdes polyarticulés, ce qui rend cette approche originale dans son segment. Les prochaines étapes logiques incluent l'intégration de la vision pour la localisation des fruits et des tests en conditions réelles de verger sur cycles prolongés. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans ce preprint.

RecherchePaper

1 source