Aller au contenu principal
Apprentissage multi-allures pour robots humanoïdes par renforcement avec prior de mouvement adversarial sélectif
HumanoïdesarXiv cs.RO3h

Apprentissage multi-allures pour robots humanoïdes par renforcement avec prior de mouvement adversarial sélectif

1 source couvre ce sujet·Source originale ↗·

Des chercheurs ont publié en avril 2026 sur arXiv (preprint 2604.19102) une méthode d'apprentissage par renforcement permettant à un humanoïde à 12 degrés de liberté de maîtriser cinq allures dans un cadre politique unifié : marche normale, marche militaire cadencée (goose-stepping), course, montée d'escaliers et saut, avec un espace d'action et une formulation de récompense identiques pour toutes. La contribution centrale est une stratégie appelée AMP sélectif (Adversarial Motion Prior sélectif) : l'AMP, qui guide l'apprentissage en comparant les mouvements générés à des données de référence de type mocap, est appliqué uniquement aux allures périodiques et stables (marche, goose-stepping, escaliers), et délibérément omis pour les allures dynamiques (course, saut) où sa régularisation briderait trop le mouvement. L'entraînement repose sur PPO (Proximal Policy Optimization) avec randomisation de domaine en simulation, et les politiques sont déployées sur le robot physique par transfert sim-to-réel zéro-shot, sans phase d'adaptation supplémentaire.

Les expériences quantitatives montrent que l'AMP sélectif surpasse une politique AMP uniforme sur les cinq allures : convergence plus rapide, erreur de suivi réduite et meilleurs taux de succès sur les allures stables, sans dégrader l'agilité des allures explosives. Pour les équipes d'ingénierie robotique, ce résultat renforce l'idée qu'une politique monolithique bien structurée peut remplacer plusieurs contrôleurs spécialisés, réduisant la complexité du système embarqué. La réussite du transfert zéro-shot valide par ailleurs l'efficacité de la randomisation de domaine pour combler le sim-to-real gap sur un humanoïde à 12 DOF, un résultat cohérent avec des travaux récents d'ETH Zurich et de Carnegie Mellon sur les robots bipèdes.

L'Adversarial Motion Prior a été formalisé par Xue Bin Peng et al. (UC Berkeley, 2021) comme mécanisme pour imiter des mouvements de référence dans un cadre RL sans récompense artisanale excessive. Des équipes chez Agility Robotics, Figure AI et Boston Dynamics explorent des variantes similaires, mais la plupart des publications se concentrent sur une ou deux allures à la fois. Ce preprint propose une généralisation plus large, bien que le robot utilisé (12-DOF, sans identification de marque dans l'abstract) reste une plateforme expérimentale dont les performances hors simulation restent à confirmer sur des terrains non contrôlés. Aucune entité française ou européenne n'est impliquée. Les étapes suivantes naturelles incluent l'extension à davantage de DOF, l'intégration de primitives de manipulation et des tests en conditions réelles variées.

À lire aussi

SynAgent : manipulation humanoïde coopérative généralisable par synergie d'agents, du solo au coopératif
1arXiv cs.RO 

SynAgent : manipulation humanoïde coopérative généralisable par synergie d'agents, du solo au coopératif

Une équipe de chercheurs a déposé sur arXiv (2604.18557, avril 2026) SynAgent, un framework unifié pour la manipulation coopérative entre robots humanoïdes. Le problème de départ est concret : faire collaborer deux humanoïdes pour saisir et déplacer un objet volumineux exige des données d'entraînement multi-agents quasi inexistantes. SynAgent contourne ce verrou via une stratégie "Solo-to-Cooperative Agent Synergy" : les compétences sont d'abord apprises sur des données de mouvement humain solo (un agent, un objet), puis transférées vers des scénarios à deux agents. Pour préserver les relations spatiales lors de ce transfert, les auteurs introduisent une méthode de retargeting basée sur un "Interact Mesh" construit par tétraédrisation de Delaunay. L'entraînement repose ensuite sur un préentraînement mono-agent, une adaptation via PPO décentralisé multi-agents, et une politique générative conditionnée par trajectoire utilisant un VAE conditionnel (cVAE), distillée depuis plusieurs priors d'imitation de mouvement. Le principal goulot d'étranglement de la manipulation humanoïde coopérative n'est pas l'algorithme, c'est la donnée : annoter deux humains manipulant des objets en interaction à l'échelle suffisante est coûteux. SynAgent propose de recycler les datasets de mouvement solo, qui sont eux abondants, pour bootstrapper des comportements collaboratifs. Les auteurs rapportent une surperformance significative sur les baselines existantes en imitation coopérative et en contrôle conditionné par trajectoire, avec une généralisation à des géométries d'objets variées, point souvent fragile dans la littérature. Si ces résultats se confirment hors benchmarks contrôlés, l'approche réduirait drastiquement le coût d'entrée pour déployer des paires de robots humanoïdes sur des tâches de manutention lourde. La manipulation bimanuelle distribue un axe de recherche actif : les travaux sur ALOHA (Berkeley), Stanford et CMU ont établi des bases solides pour les tâches dextères, mais sur des plateformes à deux bras unifiées. La coordination entre deux humanoïdes distincts est un problème plus récent, exacerbé par l'émergence commerciale de Figure 02/03, Agility Digit ou Unitree G1. SynAgent s'inscrit dans ce contexte où les labos académiques cherchent à fournir les briques algorithmiques que les industriels ne peuvent pas encore produire à temps. Important à noter : le papier ne mentionne aucune expérience sur hardware physique, ce qui laisse ouverte la question centrale du sim-to-real gap pour ce type de coordination distribuée. Le code et les données seront publiés après acceptation formelle.

HumanoïdesPaper
1 source
Locomotion corps entier des humanoïdes : apprentissage par génération et suivi de mouvement
2arXiv cs.RO 

Locomotion corps entier des humanoïdes : apprentissage par génération et suivi de mouvement

Des chercheurs proposent un cadre de locomotion humanoid corps-entier combinant un modèle de diffusion entraîné sur des mouvements humains retargetés avec un tracker de mouvements par apprentissage par renforcement (RL), le tout déployé sur le robot Unitree G1. Le système génère en temps réel des trajectoires de référence adaptées au terrain, puis un module de suivi les exécute sur le robot complet, en s'appuyant uniquement sur la perception embarquée. Lors des tests matériels, le G1 a franchi avec succès des boîtes, des haies, des escaliers et des combinaisons de terrains mixtes, sans recourir à des capteurs externes ni à un calcul déporté. L'enjeu technique central que ce travail adresse est connu dans le secteur sous le nom de "lower-body dominance" : les approches RL classiques avec reward shaping tendent à produire une locomotion efficace mais raide, concentrée sur les jambes, au détriment de la coordination du buste et des bras. À l'inverse, l'imitation pure de mouvements de référence limite la capacité d'adaptation en ligne aux obstacles imprévus. Le couplage proposé -- générer à la volée la référence adaptée au terrain puis la tracker en boucle fermée -- représente une architecture crédible pour combler ce gap, même si les vidéos de démonstration présentées restent sélectionnées et ne constituent pas encore une validation sur terrain non contrôlé à large échelle. Le Unitree G1, commercialisé depuis 2024 à environ 16 000 dollars, est devenu un banc de test standard pour les laboratoires académiques en locomotion humanoid, au même titre que l'Atlas de Boston Dynamics pour les groupes industriels. Ce travail s'inscrit dans une vague de publications exploitant les modèles de diffusion pour la génération de mouvements robotiques, une tendance initiée notamment par les travaux sur pi0 (Physical Intelligence) et GR00T N2 (NVIDIA). Les auteurs annoncent des résultats quantitatifs montrant que la fine-tuning en boucle fermée améliore la généralisation ; la prochaine étape logique serait une validation sur des terrains non vus pendant l'entraînement et un déploiement en conditions industrielles réelles.

HumanoïdesPaper
1 source
Le robot humanoïde Digit démontre sa force et son équilibre avec un soulevé de terre de 30 kg
3Interesting Engineering 

Le robot humanoïde Digit démontre sa force et son équilibre avec un soulevé de terre de 30 kg

Le robot humanoïde Digit, développé par Agility Robotics (Oregon, États-Unis), vient de réaliser un soulevé de terre de 29 kilogrammes (65 livres) dans un environnement de laboratoire contrôlé. La démonstration met en évidence une coordination corpo-entière, bras, jambes et torse s'ajustent dynamiquement en temps réel pour maintenir l'équilibre sous charge. Selon l'entreprise, l'exercice a été conçu pour tester les limites des actionneurs, la durabilité des articulations et les systèmes de contrôle en temps réel. La politique de contrôle a été entraînée en simulation : un objet virtuel est introduit dans un environnement numérique, permettant au modèle d'apprendre la distribution de charge, les forces de préhension et les déplacements du centre de masse. Des milliers d'essais simulés affinent ensuite la stabilité de prise et le contrôle postural avant transfert sur le robot physique. La version actuelle de Digit embarque également une autonomie batterie de quatre heures, un système d'auto-recharge par docking autonome, des membres renforcés, des effecteurs terminaux avancés, et des protocoles de sécurité industrielle incluant un arrêt de catégorie 1, des PLCs de sécurité et le protocole FailSafe over EtherCAT. Ce que révèle cette démonstration va au-delà du simple exercice de force : elle illustre le passage des trajectoires articulaires programmées manuellement vers des politiques adaptatives apprises, un changement de paradigme significatif pour les intégrateurs industriels. Le sim-to-real, longtemps considéré comme un verrou majeur de la robotique humanoïde, semble ici suffisamment mature pour gérer des tâches de manipulation lourde avec consistance et sans réinitialisation. Pour un COO industriel, la promesse concrète est un robot capable d'empiler des bacs, charger des chariots et manutentionner des matériaux variés de façon autonome et répétable, en complément de robots mobiles autonomes (AMR) qui assurent le transport. La durabilité sous charge soutenue reste toutefois à valider en conditions réelles de production : la vidéo présentée est un test laboratoire, pas un déploiement opérationnel. Agility Robotics a été fondée en 2015 à partir des travaux de l'Oregon State University sur la locomotion bipède. L'entreprise a signé un partenariat stratégique avec Amazon, qui a piloté Digit dans ses entrepôts en 2023-2024. Elle se positionne directement face à Figure AI (Figure 02, partenariat BMW), Boston Dynamics (Atlas), Tesla (Optimus) et 1X Technologies sur le segment de l'humanoïde industriel. Contrairement à Figure ou Tesla qui communiquent davantage sur des capacités de manipulation généraliste, Agility mise sur une intégration logistique ciblée, en couplant Digit aux flottes AMR existantes. Les prochaines étapes annoncées incluent une accélération de la cadence de production et un déploiement élargi dans des environnements entrepôt multi-unités, sans date précise communiquée à ce stade.

HumanoïdesActu
1 source
Digit apprend le soulevé de terre
4IEEE Spectrum Robotics 

Digit apprend le soulevé de terre

Agility Robotics a publié cette semaine une démonstration de son robot humanoïde Digit soulevant une charge de 29,5 kg (65 livres) en deadlift complet, soit l'une des charges utiles les plus élevées jamais documentées pour ce châssis. L'entraînement de la politique de contrôle a été réalisé entièrement en simulation, en intégrant l'objet cible dans la boucle d'apprentissage afin de modéliser la distribution des charges, les forces de préhension et les variations du centre de masse de Digit lors du lever. La politique résultante se transfère au robot réel avec un équilibre dynamique maintenu tout au long du mouvement, sans ajustement manuel post-simulation. En parallèle, MagicLab Robotics a déployé un essaim mixte de chiens-robots et d'humanoïdes lors de la cérémonie d'ouverture du Jiangsu Super League, dans un environnement extérieur ouvert, revendiquant la coordination simultanée d'une flotte multi-catégories en conditions réelles. L'équipe de Harvard a présenté ses RAnts, un essaim de micro-robots fourmis sans contrôle centralisé capable de creuser et de construire des structures en ajustant deux paramètres seulement : la force de coopération et le taux de dépôt de matériau. Michigan Robotics a quant à elle montré un actionneur à microcombustion de 8 millimètres de diamètre capable de propulser des gouttelettes d'eau en 3 millisecondes, remettant en question l'hypothèse selon laquelle les actionneurs souples sont intrinsèquement lents. Gatlin Robotics a annoncé son premier contrat commercial sous modèle Robot-as-a-Service (RaaS), sans préciser le secteur d'activité ni le client. Le cas de Digit en deadlift est notable pour ce qu'il valide méthodologiquement : la capacité de transférer des politiques sim-to-real pour des tâches à forte sollicitation mécanique, où la coordination corps entier et la robustesse des actionneurs sont critiques. C'est un résultat concret pour les intégrateurs industriels qui évaluent les humanoïdes pour la manutention lourde, un segment jusqu'ici dominé par les bras industriels fixes. Le déploiement de MagicLab au Jiangsu Super League est présenté comme une preuve de maturité des systèmes multi-agents à l'échelle, mais il s'agit d'un spectacle chorégraphié : la coordination en environnement non structuré, avec aléas, reste à démontrer dans un contexte opérationnel. L'actionneur de Michigan Robotics remet en cause un a priori du secteur : que la souplesse implique lenteur. Un actionneur de 8 mm capable d'impulsions de 3 ms ouvre des perspectives pour la chirurgie robotique, la micro-assemblage ou les prothèses. Les RAnts de Harvard illustrent l'intérêt des architectures décentralisées pour la robotique collective en environnements dégradés, avec des applications potentielles dans la construction autonome ou la démantèlement de structures. Agility Robotics, rachetée par Agility en 2023 après une première commercialisation limitée de Digit chez Amazon, intensifie ses démonstrations de capacités en charge lourde pour se différencier face à Figure (Figure 03), Apptronik (Apollo) et Boston Dynamics (Atlas électrique). MagicLab est un acteur chinois encore peu documenté en dehors de l'Asie, positionnant ses systèmes multi-agents comme une alternative aux approches humanoïdes pures. LimX Dynamics, également présent cette semaine avec son robot TRON 1 pour la photographie autonome en terrains complexes, confirme la diversification des cas d'usage des robots quadrupèdes en Chine. Les prochaines grandes échéances du secteur sont ICRA 2026 à Vienne du 1er au 5 juin, puis RSS 2026 à Sydney en juillet, où plusieurs de ces travaux devraient être présentés dans leur version complète avec données et protocoles.

UELes intégrateurs industriels européens évaluant les humanoïdes pour la manutention lourde doivent surveiller la validation sim-to-real de Digit (29,5 kg), qui le positionne comme concurrent direct des bras fixes dans la logistique lourde.

HumanoïdesActu
1 source