Aller au contenu principal
MARCH : apprentissage par renforcement assisté par modèle pour le contrôle perceptif de robots humanoïdes sur appuis rares
RecherchearXiv cs.RO3h

MARCH : apprentissage par renforcement assisté par modèle pour le contrôle perceptif de robots humanoïdes sur appuis rares

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (2606.10288) MARCH, un cadre d'apprentissage par renforcement assisté par modèles pour la locomotion bipedale sur appuis épars. La méthode repose sur trois étapes : générer une trajectoire de référence sûre à partir de modèles dynamiques simplifiés, entraîner une politique "enseignante" guidée par un reward basé sur une Control Lyapunov Function (CLF), puis distiller cette politique dans une politique "étudiante" visuelle déployable sur robot réel. L'ensemble a été validé en simulation et déployé sur un Unitree G1, humanoïde commercialisé autour de 16 000 dollars, naviguant sur des appuis épars avec contraintes latérales.

L'enjeu est de réconcilier deux familles de méthodes historiquement opposées : les approches basées modèle (MPC, optimisation de contact) sont précises mais fragiles face à l'incertitude de terrain, tandis que le RL pur est robuste mais peine à découvrir les mouvements finement contraints nécessaires à la locomotion safety-critical, où une erreur de quelques centimètres peut provoquer une chute. Le reward CLF injecte une connaissance physique dans la boucle d'apprentissage sans curriculum d'entraînement complexe, améliorant l'efficacité d'échantillonnage et produisant une locomotion plus fluide. Les performances sur stepping stones sont déclarées comparables aux baselines RL purs, ce qui suggère que l'hybridation modèle/apprentissage est viable à coût computationnel comparable.

Ce travail s'inscrit dans l'axe locomotion perceptive porté par ETH Zurich (parkour RL, 2023), Carnegie Mellon et Berkeley. La distillation teacher-student, popularisée par Agility Robotics et ANYbotics dans leurs pipelines de développement, est ici enrichie d'une contrainte CLF théoriquement fondée. Le Unitree G1 est devenu une plateforme quasi-standard dans les labos de locomotion pour sa documentation et son prix accessible. Il s'agit d'un preprint arXiv non évalué par les pairs, sans déploiement industriel ni timeline commerciale annoncés. Les prochaines étapes naturelles seraient une validation sur terrain extérieur non structuré et une comparaison directe avec les approches MPC de nouvelle génération.

Impact France/UE

Impact marginal : ETH Zurich (Suisse, hors UE) est cité en travaux connexes, mais aucun labo ou industriel européen n'est directement impliqué dans ce preprint.

À lire aussi

Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne
1arXiv cs.RO 

Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne

Des chercheurs ont publié sur arXiv (arXiv:2510.18518v2) un algorithme d'apprentissage par renforcement basé sur un modèle (MBRL) conçu pour contrôler des systèmes robotiques complexes directement dans le monde réel, sans passer par une phase de simulation intensive. L'approche construit un modèle de dynamique à partir des données d'interaction en temps réel, puis effectue des mises à jour de politique guidées par ce modèle appris. Les validations expérimentales ont été conduites sur deux plateformes distinctes : un bras d'excavatrice hydraulique et un bras robot souple. Dans les deux cas, l'algorithme atteint des performances comparables aux méthodes model-free en quelques heures d'entraînement, là où ces dernières réclament habituellement des millions d'interactions simulées. La robustesse de l'adaptation a également été évaluée sous conditions de charge utile (payload) aléatoire, avec des résultats stables malgré le changement de dynamique. L'enjeu principal est la réduction de ce que le secteur appelle le "sim-to-real gap" : l'écart entre les politiques apprises en simulation et leur comportement réel une fois déployées sur du matériel. Les pipelines dominants, adoptés aussi bien par des labos académiques que par des industriels comme Boston Dynamics ou Figure AI, reposent sur des millions de rollouts en simulation avant tout contact avec un robot physique, ce qui introduit un biais systématique difficile à corriger. Cet algorithme court-circuite cette étape en apprenant directement sur données réelles, avec une garantie formelle de progression : les auteurs démontrent des bornes de regret sous-linéaires (sublinear regret bounds) sous hypothèses d'optimisation stochastique en ligne, ce qui est rare dans la littérature MBRL appliquée à la robotique physique. Pour un intégrateur ou un industriel, cela se traduit par une réduction potentielle du temps de mise en service sur des tâches à dynamique variable (variation de charge, usure mécanique, changement de matériau). Ce travail s'inscrit dans un débat structurant du champ : model-based vs model-free RL pour la robotique physique. Les méthodes model-free comme PPO ou SAC dominent les benchmarks simulés mais peinent à s'adapter efficacement en production réelle. Des approches hybrides comme MBPO ou DreamerV3 ont tenté de combler cet écart, mais rarement validées sur des systèmes aussi hétérogènes qu'un bras hydraulique industriel et un manipulateur souple. La prochaine étape naturelle serait une validation sur des plateformes humanoïdes ou des AMR (autonomous mobile robots) à haute dimension, où les enjeux de sample efficiency sont directement liés aux coûts d'exploitation et à la durée de vie des actionneurs.

RecherchePaper
1 source
Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football
2arXiv cs.RO 

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football

Des chercheurs ont publié sur arXiv (preprint arXiv:2604.19104, avril 2026) un cadre d'apprentissage par renforcement modulaire destiné aux robots bipèdes évoluant dans des environnements de football dynamiques. L'architecture propose deux modules distincts : un réseau de recherche et de frappe de balle (BSKN, Ball-Seeking and Kicking Network) et un réseau de récupération après chute (FRN, Fall Recovery Network), commutés par une machine à états basée sur la posture du robot. La génération de gaits de base est confiée à un oscillateur feedforward en boucle ouverte, tandis qu'un résiduel RL en boucle fermée gère les actions football plus complexes. Le FRN est entraîné via une stratégie de curriculum à atténuation progressive des forces. Les validations ont été conduites entièrement en simulation Unity, avec un temps de récupération après chute mesuré à 0,715 secondes en moyenne, et une capacité démontrée à localiser et frapper le ballon même depuis des angles de coin restrictifs. Ce travail s'attaque à un verrou connu en robotique humanoïde : le couplage profond entre stabilité locomotrice et exécution de tâches complexes, qui provoque typiquement des interférences d'état lors des transitions (marche droite, frappe, chute, relevé). La séparation explicite en deux réseaux spécialisés, pilotée par une machine à états posturale, contourne ce problème architecturalement plutôt que de tenter de le résoudre par un unique réseau généraliste. Cela valide partiellement l'hypothèse que la modularité reste une approche compétitive face aux VLA (Vision-Language-Action models) monolithiques pour des tâches à contraintes temporelles dures. Réserve importante : les résultats sont entièrement sim-to-real non validés, l'écart simulation-réalité (sim-to-real gap) n'est pas quantifié, et les vidéos sélectives de démonstration Unity ne permettent pas d'évaluer la robustesse au déploiement physique. Le contexte est celui de la RoboCup et des compétitions de football robotique bipède, terrain historique de benchmarking pour la locomotion dynamique depuis les années 2000. Les auteurs ne sont pas identifiés institutionnellement dans l'abstract, mais le style et la thématique évoquent des groupes de recherche est-asiatiques actifs sur cette compétition. Sur le plan concurrentiel, des approches similaires à base de RL modulaire ont été explorées par des équipes de l'ETH Zurich (ANYmal), de CMU et de Berkeley pour des robots quadrupèdes, avec transfert sim-to-real validé sur hardware. Pour les bipèdes football, la prochaine étape crédible serait un déploiement sur plateforme physique type DARwIn-OP ou NAO, dont ce papier ne mentionne aucune planification.

RecherchePaper
1 source
RoboNaldo : tirs précis, stables et puissants pour humanoïdes via apprentissage par renforcement à programme progressif guidé par le mouvement
3arXiv cs.RO 

RoboNaldo : tirs précis, stables et puissants pour humanoïdes via apprentissage par renforcement à programme progressif guidé par le mouvement

Des chercheurs d'OpenDriveLab ont publié le 13 juin 2026 RoboNaldo (arXiv:2606.11092), un framework d'apprentissage par renforcement en curriculum à trois étapes conçu pour entraîner un humanoïde à tirer au football avec précision et puissance. Déployé sur un Unitree G1 avec perception embarquée, le système atteint une erreur de tir moyenne de 0,73 m depuis 3 m en situation de coup franc (balle stationnaire), et 0,86 m sur balle en mouvement. La vitesse post-contact de la balle atteint 13,10 m/s, soit 59 à 71 % de la vitesse mesurée chez des joueurs professionnels en match ouvert. En simulation, RoboNaldo réduit l'erreur de tir de 48,6 % et multiplie la vélocité de frappe par 2,96 par rapport aux baselines de référence antérieures. L'intérêt technique réside dans la combinaison de deux approches qui s'avèrent complémentaires plutôt qu'opposées : le motion tracking-driven RL (stable mais rigide face à des positions de balle variables) et le task reward-driven RL (flexible mais inefficace à explorer des kicks valides de zéro). RoboNaldo hybride les deux via un curriculum progressif : le robot apprend d'abord un prior de coup de pied corps entier stable à partir d'une seule référence humaine, puis l'adapte à des positions de balle aléatoires, puis à une balle en mouvement via une interface locomotion-commande/kick-trigger. Un planificateur heuristique haut niveau pilote l'entraînement, mais le même policy bas niveau peut être conduit par n'importe quel contrôleur alternatif à l'inférence, ce qui est une propriété utile pour l'intégration dans des systèmes plus larges. Il reste que les résultats présentés s'appuient sur des vidéos et métriques de laboratoire contrôlé, sans terrain irrégulier ni adversaires dynamiques. OpenDriveLab, lab de recherche en autonomie embodied associé à Shanghai AI Lab, se positionne ici dans un espace de plus en plus disputé. Boston Dynamics, Agility Robotics (Figure, Tesla Optimus) concentrent leurs démonstrations sur la manipulation industrielle et la locomotion bipède en entrepôt, tandis que des travaux comme DribbleBot (CMU, 2023) ou les robots footballeurs de l'équipe NimbRo avaient déjà exploré le jeu avec ballon, mais sur des plateformes quadrupèdes ou plus légères. RoboNaldo est présenté comme une démonstration de recherche (preprint non peer-reviewed à ce stade) : aucun pilote industriel ni timeline de commercialisation n'est annoncé. La prochaine étape logique serait l'évaluation en conditions non structurées et l'intégration d'un contrôleur haut niveau appris plutôt qu'heuristique.

RecherchePaper
1 source
Rhythm : apprentissage du contrôle interactif corps entier pour deux robots humanoïdes
4arXiv cs.RO 

Rhythm : apprentissage du contrôle interactif corps entier pour deux robots humanoïdes

Des chercheurs ont publié en mars 2026 sur arXiv un framework baptisé Rhythm, conçu pour piloter simultanément deux robots humanoïdes Unitree G1 en interaction physique directe. Le système repose sur trois composants : un module IAMR (Interaction-Aware Motion Retargeting) qui génère des références de mouvement réalistes à partir de captures de données humaines, une politique d'apprentissage par renforcement IGRL (Interaction-Guided Reinforcement Learning) qui modélise les dynamiques de contact couplées via des récompenses basées sur des graphes, et un pipeline de transfert sim-to-real permettant de déployer ces comportements sur robots physiques. Les comportements validés incluent l'accolade et la danse synchronisée entre deux G1, transférés de simulation vers le monde réel. Il s'agit d'un travail académique, pas d'un produit commercialisé. L'intérêt technique est dans la résolution du problème de contact couplé multi-corps : quand deux humanoïdes se touchent, les efforts mécaniques se propagent en boucle entre les deux chaînes cinématiques, rendant le contrôle instable. Rhythm aborde ce problème par des récompenses graph-based qui capturent explicitement l'interaction entre les deux agents, plutôt que de traiter chaque robot indépendamment. Pour un intégrateur ou un ingénieur robotique, c'est une validation que le sim-to-real fonctionne même pour des dynamiques de contact bilatérales, un verrou qui bloquait la plupart des approches multi-robots à manipulation physique. Cela ouvre la voie à des tâches collaboratives exigeant une coordination fine, comme le port de charges lourdes à deux, le transfert d'objets ou l'assemblage bimanuel étendu. Le robot Unitree G1 est une plateforme commerciale accessible (environ 16 000 dollars), ce qui donne à ces résultats une reproductibilité supérieure aux travaux sur robots propriétaires. Dans la course aux humanoïdes, les acteurs comme Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) et Boston Dynamics se concentrent sur des déploiements unitaires en environnement industriel ; la coordination physique entre deux humanoïdes reste un espace peu exploré commercialement. Rhythm ne s'inscrit pas encore dans une roadmap produit annoncée, mais la disponibilité du code sur arXiv et le choix du G1 suggèrent une communauté de recherche qui converge vers la standardisation des plateformes, préfigurant des pilotes industriels à horizon 18-36 mois.

RecherchePaper
1 source