Aller au contenu principal
Apprentissage multi-allures pour robots humanoïdes par renforcement avec prior de mouvement adversarial sélectif
HumanoïdesarXiv cs.RO6sem

Apprentissage multi-allures pour robots humanoïdes par renforcement avec prior de mouvement adversarial sélectif

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en avril 2026 sur arXiv (preprint 2604.19102) une méthode d'apprentissage par renforcement permettant à un humanoïde à 12 degrés de liberté de maîtriser cinq allures dans un cadre politique unifié : marche normale, marche militaire cadencée (goose-stepping), course, montée d'escaliers et saut, avec un espace d'action et une formulation de récompense identiques pour toutes. La contribution centrale est une stratégie appelée AMP sélectif (Adversarial Motion Prior sélectif) : l'AMP, qui guide l'apprentissage en comparant les mouvements générés à des données de référence de type mocap, est appliqué uniquement aux allures périodiques et stables (marche, goose-stepping, escaliers), et délibérément omis pour les allures dynamiques (course, saut) où sa régularisation briderait trop le mouvement. L'entraînement repose sur PPO (Proximal Policy Optimization) avec randomisation de domaine en simulation, et les politiques sont déployées sur le robot physique par transfert sim-to-réel zéro-shot, sans phase d'adaptation supplémentaire.

Les expériences quantitatives montrent que l'AMP sélectif surpasse une politique AMP uniforme sur les cinq allures : convergence plus rapide, erreur de suivi réduite et meilleurs taux de succès sur les allures stables, sans dégrader l'agilité des allures explosives. Pour les équipes d'ingénierie robotique, ce résultat renforce l'idée qu'une politique monolithique bien structurée peut remplacer plusieurs contrôleurs spécialisés, réduisant la complexité du système embarqué. La réussite du transfert zéro-shot valide par ailleurs l'efficacité de la randomisation de domaine pour combler le sim-to-real gap sur un humanoïde à 12 DOF, un résultat cohérent avec des travaux récents d'ETH Zurich et de Carnegie Mellon sur les robots bipèdes.

L'Adversarial Motion Prior a été formalisé par Xue Bin Peng et al. (UC Berkeley, 2021) comme mécanisme pour imiter des mouvements de référence dans un cadre RL sans récompense artisanale excessive. Des équipes chez Agility Robotics, Figure AI et Boston Dynamics explorent des variantes similaires, mais la plupart des publications se concentrent sur une ou deux allures à la fois. Ce preprint propose une généralisation plus large, bien que le robot utilisé (12-DOF, sans identification de marque dans l'abstract) reste une plateforme expérimentale dont les performances hors simulation restent à confirmer sur des terrains non contrôlés. Aucune entité française ou européenne n'est impliquée. Les étapes suivantes naturelles incluent l'extension à davantage de DOF, l'intégration de primitives de manipulation et des tests en conditions réelles variées.

À lire aussi

Apprentissage par renforcement guidé par référence pour la navigation autonome de robots humanoïdes en terrain variable
1arXiv cs.RO 

Apprentissage par renforcement guidé par référence pour la navigation autonome de robots humanoïdes en terrain variable

Une équipe de recherche publie sur arXiv (référence 2605.15517) une méthode d'entraînement de politiques de locomotion par apprentissage par renforcement (RL) pour robots humanoïdes, dans laquelle les trajectoires de référence sont adaptées dynamiquement à la géométrie du terrain pendant l'entraînement. Concrètement, le système génère en boucle des trajectoires de référence contrôlables en SE(2), l'espace de déplacement planaire, en projetant les appuis de pied sur des zones d'appui valides et en ajustant les trajectoires du pied oscillant et du centre de masse selon le relief. L'interface exposée est un vecteur de vitesse SE(2) standard, directement compatible avec les planificateurs de navigation autonome existants. Côté hardware, les chercheurs ont intégré cette politique avec un planificateur MPC (Model Predictive Control) couplé à des fonctions de barrière de contrôle (CBF), et démontré une navigation autonome en boucle fermée sur plus de 70 mètres en extérieur sur le robot Unitree G1, incluant des terrains accidentés et des escaliers consécutifs, avec l'ensemble du calcul et de la perception embarqués. Ce résultat est notable parce qu'il attaque directement le problème du "reality gap" dans la locomotion humanoïde sur terrain non structuré : en conditionnant les trajectoires de référence au terrain dès la phase de simulation, la politique apprend des comportements footholds-aware plutôt que des mouvements génériques dégradés au contact du sol réel. L'exposition d'une interface SE(2) propre signifie que cette politique s'insère sans friction dans un stack de navigation autonome standard, celui qu'utilisent déjà les AMR (autonomous mobile robots) industriels, sans couche d'adaptation supplémentaire. Pour un intégrateur ou un équipementier, c'est une architecture qui réduit la dette de middlewares entre planification de chemin et exécution de locomotion. Le Unitree G1 est un humanoïde à faible coût (environ 16 000 dollars) dont Unitree, fabricant chinois, a multiplié les variantes depuis 2024. Le domaine de la locomotion humanoïde guidée par trajectoires de référence est aussi exploré par des laboratoires comme CMU, ETH Zurich (ANYbotics, Legged Gym), et des équipes comme celles de Boston Dynamics ou Agility Robotics, qui privilégient des approches similaires sim-to-real. Ce travail reste une démonstration académique, parcours sélectionnés, conditions contrôlées, et n'est pas associé à une annonce de déploiement commercial. Les prochaines étapes logiques incluent des tests à plus grande échelle de variabilité de terrain et l'intégration avec des planificateurs 3D.

HumanoïdesPaper
1 source
TeleGate : téléopération corps entier d'un humanoïde par sélection d'experts avec prior de mouvement
2arXiv cs.RO 

TeleGate : téléopération corps entier d'un humanoïde par sélection d'experts avec prior de mouvement

Des chercheurs ont publié TeleGate (arXiv:2602.09628, preprint non encore revu par les pairs), un cadre de télé-opération corps entier pour robots humanoïdes, déployé sur le Unitree G1. Le système permet le contrôle à distance en temps réel de l'ensemble du corps du robot - membres supérieurs, inférieurs et tronc - sur un spectre de mouvements dynamiques complexes: course, récupération après chute et saut. L'entraînement n'a nécessité que 2,5 heures de données de capture de mouvement (mocap), un volume faible comparé aux approches concurrentes. L'architecture repose sur deux composants: un réseau de sélection (gating network) léger qui active dynamiquement des politiques expertes spécialisées en fonction des états proprioceptifs du robot et des trajectoires de référence, et un module de prior de mouvement basé sur un VAE (variational autoencoder) qui infère l'intention de mouvement future à partir des observations historiques, assurant un contrôle anticipatif pour les gestes nécessitant de la prédiction. L'enjeu que TeleGate cherche à résoudre est central dans la robotique humanoïde actuelle: les approches classiques fusionnent plusieurs politiques expertes en une politique générale par distillation de connaissances, ce qui entraîne une dégradation des performances sur les mouvements très dynamiques. TeleGate contourne ce compromis en préservant les politiques expertes spécialisées intactes, le réseau de sélection se contentant d'arbitrer entre elles en temps réel. Les résultats rapportés, en simulation et sur robot réel, indiquent une précision de suivi et un taux de succès supérieurs aux méthodes de référence, sans que les auteurs ne fournissent de métriques chiffrées détaillées dans l'abstract. Pour les intégrateurs, cela suggère qu'une architecture de sélection d'experts est préférable à la distillation lorsque le portefeuille de comportements est hétérogène et inclut des gestes physiquement contrastés. Unitree Robotics, fabricant chinois dont le G1 est commercialisé aux alentours de 16 000 USD, s'est imposé comme la plateforme de référence des publications académiques en télé-opération humanoïde grâce à son accessibilité tarifaire. TeleGate s'inscrit dans une effervescence de travaux publiés en 2024-2025 autour de ce thème, en parallèle d'approches comme ACT, UMI, ou les systèmes développés par Figure AI et 1X Technologies. La prochaine étape naturelle pour ce type de framework est la collecte de démonstrations de haute qualité pour l'apprentissage par imitation, goulot d'étranglement majeur sur le chemin vers l'autonomie humanoïde.

HumanoïdesPaper
1 source
Locomotion corps entier des humanoïdes : apprentissage par génération et suivi de mouvement
3arXiv cs.RO 

Locomotion corps entier des humanoïdes : apprentissage par génération et suivi de mouvement

Des chercheurs proposent un cadre de locomotion humanoid corps-entier combinant un modèle de diffusion entraîné sur des mouvements humains retargetés avec un tracker de mouvements par apprentissage par renforcement (RL), le tout déployé sur le robot Unitree G1. Le système génère en temps réel des trajectoires de référence adaptées au terrain, puis un module de suivi les exécute sur le robot complet, en s'appuyant uniquement sur la perception embarquée. Lors des tests matériels, le G1 a franchi avec succès des boîtes, des haies, des escaliers et des combinaisons de terrains mixtes, sans recourir à des capteurs externes ni à un calcul déporté. L'enjeu technique central que ce travail adresse est connu dans le secteur sous le nom de "lower-body dominance" : les approches RL classiques avec reward shaping tendent à produire une locomotion efficace mais raide, concentrée sur les jambes, au détriment de la coordination du buste et des bras. À l'inverse, l'imitation pure de mouvements de référence limite la capacité d'adaptation en ligne aux obstacles imprévus. Le couplage proposé -- générer à la volée la référence adaptée au terrain puis la tracker en boucle fermée -- représente une architecture crédible pour combler ce gap, même si les vidéos de démonstration présentées restent sélectionnées et ne constituent pas encore une validation sur terrain non contrôlé à large échelle. Le Unitree G1, commercialisé depuis 2024 à environ 16 000 dollars, est devenu un banc de test standard pour les laboratoires académiques en locomotion humanoid, au même titre que l'Atlas de Boston Dynamics pour les groupes industriels. Ce travail s'inscrit dans une vague de publications exploitant les modèles de diffusion pour la génération de mouvements robotiques, une tendance initiée notamment par les travaux sur pi0 (Physical Intelligence) et GR00T N2 (NVIDIA). Les auteurs annoncent des résultats quantitatifs montrant que la fine-tuning en boucle fermée améliore la généralisation ; la prochaine étape logique serait une validation sur des terrains non vus pendant l'entraînement et un déploiement en conditions industrielles réelles.

HumanoïdesPaper
1 source
Transfert de style de mouvement humain pour le contrôle physique de robots humanoïdes
4arXiv cs.RO 

Transfert de style de mouvement humain pour le contrôle physique de robots humanoïdes

Un groupe de chercheurs présente dans un preprint arXiv (2606.03536, soumis le 3 juin 2026) un framework de transfert de style de mouvement pour robots humanoïdes. Le système prend en entrée un court clip humain illustrant un style moteur désiré (rythme de marche, balancement des bras, posture) et un mouvement cible distinct, puis génère un mouvement corps entier stylisé adapté au robot. Le modèle central est un modèle de diffusion latente multi-condition, sensible à la physique, fusionnant conditions de style, de contenu et de trajectoire. La guidance classifier-free permet d'ajuster l'intensité du style sans réentraîner le modèle. Les références générées sont ensuite converties pour le robot Unitree G1 et exécutées par une politique de suivi corps entier entraînée via une stratégie "cluster-and-distill". Sur 125 essais sur robot réel, la méthode atteint un taux de réussite de 96,0 %, avec moins d'artefacts de contact et de jitter que les baselines orientées animation. Ce résultat remet en question le paradigme dominant où chaque comportement expressif d'un humanoïde est soit capturé en démonstration directe, soit scripté manuellement, deux approches coûteuses et non réutilisables entre contenus de mouvement différents. En permettant à un court clip humain de servir de source de style transférable sur des contenus arbitraires, le framework ouvre la voie à une personnalisation motrice procédurale. L'écart simulation-hardware est adressé directement par des régularisations de cohérence de contact et de lissage temporel imposées lors de l'entraînement, un point de friction récurrent dans la chaîne génération-contrôle. Un taux de 96 % sur 125 essais réels représente un résultat solide pour de la recherche académique dans ce domaine, où beaucoup de travaux restent confinés à la simulation. Le Unitree G1 (environ 16 000 dollars) s'est imposé ces 18 derniers mois comme la plateforme de référence pour la recherche humanoïde académique. Ces travaux s'inscrivent dans la tendance des modèles de diffusion appliqués à la génération de mouvement (MDM, MotionDiffuse), prolongée ici jusqu'au contrôle physique sur hardware réel. Dans la course à l'expression motrice des humanoïdes, Boston Dynamics (Atlas), Figure et 1X investissent massivement côté imitation learning et VLA end-to-end, tandis que ce preprint se positionne sur la génération procédurale contrôlée, approche complémentaire. Du côté européen, Wandercraft et Enchanted Tools (France, robot Mirokaï) travaillent sur des problématiques d'expression motrice proches, sur des architectures distinctes. La suite logique serait l'intégration de ce framework dans des pipelines de téléopération ou d'interfaces humain-robot en conditions industrielles réelles.

UEWandercraft et Enchanted Tools (France) travaillent sur des problématiques d'expression motrice similaires et pourraient s'inspirer de cette approche de transfert de style procédural sur hardware réel.

HumanoïdesPaper
1 source