Aller au contenu principal
Apprentissage par renforcement guidé par référence pour la navigation autonome de robots humanoïdes en terrain variable
HumanoïdesarXiv cs.RO2j

Apprentissage par renforcement guidé par référence pour la navigation autonome de robots humanoïdes en terrain variable

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche publie sur arXiv (référence 2605.15517) une méthode d'entraînement de politiques de locomotion par apprentissage par renforcement (RL) pour robots humanoïdes, dans laquelle les trajectoires de référence sont adaptées dynamiquement à la géométrie du terrain pendant l'entraînement. Concrètement, le système génère en boucle des trajectoires de référence contrôlables en SE(2), l'espace de déplacement planaire, en projetant les appuis de pied sur des zones d'appui valides et en ajustant les trajectoires du pied oscillant et du centre de masse selon le relief. L'interface exposée est un vecteur de vitesse SE(2) standard, directement compatible avec les planificateurs de navigation autonome existants. Côté hardware, les chercheurs ont intégré cette politique avec un planificateur MPC (Model Predictive Control) couplé à des fonctions de barrière de contrôle (CBF), et démontré une navigation autonome en boucle fermée sur plus de 70 mètres en extérieur sur le robot Unitree G1, incluant des terrains accidentés et des escaliers consécutifs, avec l'ensemble du calcul et de la perception embarqués.

Ce résultat est notable parce qu'il attaque directement le problème du "reality gap" dans la locomotion humanoïde sur terrain non structuré : en conditionnant les trajectoires de référence au terrain dès la phase de simulation, la politique apprend des comportements footholds-aware plutôt que des mouvements génériques dégradés au contact du sol réel. L'exposition d'une interface SE(2) propre signifie que cette politique s'insère sans friction dans un stack de navigation autonome standard, celui qu'utilisent déjà les AMR (autonomous mobile robots) industriels, sans couche d'adaptation supplémentaire. Pour un intégrateur ou un équipementier, c'est une architecture qui réduit la dette de middlewares entre planification de chemin et exécution de locomotion.

Le Unitree G1 est un humanoïde à faible coût (environ 16 000 dollars) dont Unitree, fabricant chinois, a multiplié les variantes depuis 2024. Le domaine de la locomotion humanoïde guidée par trajectoires de référence est aussi exploré par des laboratoires comme CMU, ETH Zurich (ANYbotics, Legged Gym), et des équipes comme celles de Boston Dynamics ou Agility Robotics, qui privilégient des approches similaires sim-to-real. Ce travail reste une démonstration académique, parcours sélectionnés, conditions contrôlées, et n'est pas associé à une annonce de déploiement commercial. Les prochaines étapes logiques incluent des tests à plus grande échelle de variabilité de terrain et l'intégration avec des planificateurs 3D.

À lire aussi

Apprentissage multi-allures pour robots humanoïdes par renforcement avec prior de mouvement adversarial sélectif
1arXiv cs.RO 

Apprentissage multi-allures pour robots humanoïdes par renforcement avec prior de mouvement adversarial sélectif

Des chercheurs ont publié en avril 2026 sur arXiv (preprint 2604.19102) une méthode d'apprentissage par renforcement permettant à un humanoïde à 12 degrés de liberté de maîtriser cinq allures dans un cadre politique unifié : marche normale, marche militaire cadencée (goose-stepping), course, montée d'escaliers et saut, avec un espace d'action et une formulation de récompense identiques pour toutes. La contribution centrale est une stratégie appelée AMP sélectif (Adversarial Motion Prior sélectif) : l'AMP, qui guide l'apprentissage en comparant les mouvements générés à des données de référence de type mocap, est appliqué uniquement aux allures périodiques et stables (marche, goose-stepping, escaliers), et délibérément omis pour les allures dynamiques (course, saut) où sa régularisation briderait trop le mouvement. L'entraînement repose sur PPO (Proximal Policy Optimization) avec randomisation de domaine en simulation, et les politiques sont déployées sur le robot physique par transfert sim-to-réel zéro-shot, sans phase d'adaptation supplémentaire. Les expériences quantitatives montrent que l'AMP sélectif surpasse une politique AMP uniforme sur les cinq allures : convergence plus rapide, erreur de suivi réduite et meilleurs taux de succès sur les allures stables, sans dégrader l'agilité des allures explosives. Pour les équipes d'ingénierie robotique, ce résultat renforce l'idée qu'une politique monolithique bien structurée peut remplacer plusieurs contrôleurs spécialisés, réduisant la complexité du système embarqué. La réussite du transfert zéro-shot valide par ailleurs l'efficacité de la randomisation de domaine pour combler le sim-to-real gap sur un humanoïde à 12 DOF, un résultat cohérent avec des travaux récents d'ETH Zurich et de Carnegie Mellon sur les robots bipèdes. L'Adversarial Motion Prior a été formalisé par Xue Bin Peng et al. (UC Berkeley, 2021) comme mécanisme pour imiter des mouvements de référence dans un cadre RL sans récompense artisanale excessive. Des équipes chez Agility Robotics, Figure AI et Boston Dynamics explorent des variantes similaires, mais la plupart des publications se concentrent sur une ou deux allures à la fois. Ce preprint propose une généralisation plus large, bien que le robot utilisé (12-DOF, sans identification de marque dans l'abstract) reste une plateforme expérimentale dont les performances hors simulation restent à confirmer sur des terrains non contrôlés. Aucune entité française ou européenne n'est impliquée. Les étapes suivantes naturelles incluent l'extension à davantage de DOF, l'intégration de primitives de manipulation et des tests en conditions réelles variées.

HumanoïdesPaper
1 source
Locomotion corps entier des humanoïdes : apprentissage par génération et suivi de mouvement
2arXiv cs.RO 

Locomotion corps entier des humanoïdes : apprentissage par génération et suivi de mouvement

Des chercheurs proposent un cadre de locomotion humanoid corps-entier combinant un modèle de diffusion entraîné sur des mouvements humains retargetés avec un tracker de mouvements par apprentissage par renforcement (RL), le tout déployé sur le robot Unitree G1. Le système génère en temps réel des trajectoires de référence adaptées au terrain, puis un module de suivi les exécute sur le robot complet, en s'appuyant uniquement sur la perception embarquée. Lors des tests matériels, le G1 a franchi avec succès des boîtes, des haies, des escaliers et des combinaisons de terrains mixtes, sans recourir à des capteurs externes ni à un calcul déporté. L'enjeu technique central que ce travail adresse est connu dans le secteur sous le nom de "lower-body dominance" : les approches RL classiques avec reward shaping tendent à produire une locomotion efficace mais raide, concentrée sur les jambes, au détriment de la coordination du buste et des bras. À l'inverse, l'imitation pure de mouvements de référence limite la capacité d'adaptation en ligne aux obstacles imprévus. Le couplage proposé -- générer à la volée la référence adaptée au terrain puis la tracker en boucle fermée -- représente une architecture crédible pour combler ce gap, même si les vidéos de démonstration présentées restent sélectionnées et ne constituent pas encore une validation sur terrain non contrôlé à large échelle. Le Unitree G1, commercialisé depuis 2024 à environ 16 000 dollars, est devenu un banc de test standard pour les laboratoires académiques en locomotion humanoid, au même titre que l'Atlas de Boston Dynamics pour les groupes industriels. Ce travail s'inscrit dans une vague de publications exploitant les modèles de diffusion pour la génération de mouvements robotiques, une tendance initiée notamment par les travaux sur pi0 (Physical Intelligence) et GR00T N2 (NVIDIA). Les auteurs annoncent des résultats quantitatifs montrant que la fine-tuning en boucle fermée améliore la généralisation ; la prochaine étape logique serait une validation sur des terrains non vus pendant l'entraînement et un déploiement en conditions industrielles réelles.

HumanoïdesPaper
1 source
AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace
3arXiv cs.RO 

AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace

Une équipe de recherche a publié AutoSpatial (arXiv:2503.07557), une méthode destinée à améliorer la capacité des modèles de vision-langage (VLM) à raisonner dans l'espace pour la navigation sociale des robots, c'est-à-dire la capacité d'un robot à se déplacer en présence d'humains de façon naturelle et sûre. La technique combine une supervision manuelle minimale avec un étiquetage automatique à grande échelle de paires de questions-réponses visuelles (VQA). Un protocole d'entraînement en deux rounds hiérarchiques permet au modèle d'acquérir à la fois une compréhension globale d'une scène et une analyse fine des détails. L'évaluation a mobilisé trois juges LLM (GPT-4o, Gemini 2.0 Flash et Claude 3.5 Sonnet) en validation croisée, complétés par des évaluateurs humains. Les gains mesurés sur les bases de référence sont de +10,71% en perception et prédiction, +16,26% en raisonnement, +20,50% en sélection d'action et +18,73% en capacité d'explication, par rapport à des modèles entraînés uniquement sur données annotées manuellement. Le résultat le plus pertinent pour les intégrateurs et les décideurs industriels est celui sur l'action : +20,50%, qui est le composant directement lié au comportement réel du robot. Le goulot d'étranglement classique de la navigation sociale reste l'annotation manuelle, coûteuse et peu scalable. AutoSpatial propose une voie d'auto-étiquetage qui réduit significativement ce frein, ce qui ouvre la possibilité de monter en volume de données sans exploser les coûts. Cela renforce également l'hypothèse que les VLA (Vision-Language-Action models) peuvent progresser par la donnée synthétique plutôt que par la seule supervision humaine. Un point de prudence méthodologique : les scores de performance sont évalués par d'autres LLM, ce qui introduit un biais circulaire potentiel que l'article ne discute pas en profondeur. La navigation sociale est un problème ouvert depuis plusieurs années, au croisement de la robotique de service et des modèles fondation. Les VLM ont montré des lacunes persistantes en raisonnement spatial, notamment pour estimer des distances, anticiper les trajectoires humaines ou interpréter des scènes encombrées. AutoSpatial s'inscrit dans une dynamique plus large incluant des travaux comme RT-2, OpenVLA ou le récent GR00T N2 de NVIDIA, qui cherchent tous à injecter du raisonnement langagier dans la boucle de contrôle robot. La méthode présentée reste pour l'instant un résultat de recherche sans déploiement terrain annoncé. Les prochaines étapes naturelles seraient une validation dans des environnements réels peuplés et une comparaison directe avec des architectures VLA de type diffusion comme Pi-0 de Physical Intelligence.

IA physiqueActu
1 source
Figure et 1X accélèrent la production de robots humanoïdes
4IEEE Spectrum Robotics 

Figure et 1X accélèrent la production de robots humanoïdes

Figure atteint désormais une cadence de production de 55 robots humanoïdes par semaine, selon une annonce publiée fin avril 2026. Ces unités sont, selon la startup américaine, destinées aux équipes internes de R&D, à la collecte de données, au développement de tâches domestiques de bout en bout et à des "cas d'usage commerciaux en développement", une formulation qui interroge sur la destination réelle de cette production alors que les déploiements commerciaux restent à maturité. En parallèle, 1X Technologies a officiellement ouvert la NEO Factory à Hayward, en Californie : une usine de 58 000 pieds carrés (environ 5 400 m²) employant plus de 200 personnes, avec une chaîne entièrement intégrée couvrant moteurs, batteries, transmissions, capteurs, structures et assemblage final. Les premières unités NEO sortent déjà des lignes de production, avec des livraisons grand public annoncées pour 2026. Sur le plan technique, Agility Robotics a publié des tests d'équilibre dynamique sur une seule jambe pour son robot Digit, et une équipe de recherche a présenté HTD (Humanoid Transformer with Touch Dreaming), un système de manipulation humanoïde combinant téleopération VR, apprentissage par renforcement pour le bas du corps et capteurs tactiles distribués. La montée en cadence simultanée de Figure et 1X marque un glissement du secteur humanoïde vers la production industrielle, mais chaque annonce appelle une lecture critique. Produire 55 unités par semaine sans contrats commerciaux confirmés suggère soit une stratégie de collecte de données à grande échelle, ressource clé pour l'entraînement des politiques VLA (Vision-Language-Action), soit une anticipation agressive de la demande avant une prochaine levée de fonds. L'intégration verticale revendiquée par 1X, inspirée du modèle Tesla, offre une flexibilité d'itération et réduit la dépendance aux fournisseurs, mais mobilise des capitaux considérables. Les travaux d'Agility sur l'équilibre dynamique illustrent par ailleurs que le gap sim-to-real reste un verrou technique central : la moindre divergence entre modèle simulé et robot réel peut provoquer une instabilité en conditions réelles, limitant directement la fiabilité en milieu industriel. Figure, fondée en 2022 par Brett Adcock, a levé plus de 750 millions de dollars avec BMW, Microsoft et Amazon comme partenaires, et opère un pilote chez BMW Manufacturing en Caroline du Sud depuis 2024, bien que les vidéos publiées restent en conditions contrôlées. 1X, société norvégienne soutenue par OpenAI et Tiger Global, se positionne sur le marché résidentiel face à Tesla Optimus (déployé progressivement dans les usines Tesla), aux robots Agility Digit (opérés chez Amazon) et aux fabricants chinois comme Unitree (G1, H1) qui exercent une pression tarifaire croissante. Aucun acteur européen, ni Wandercraft, ni Enchanted Tools, ni Pollen Robotics, n'annonce de production à ce volume pour l'instant. Les prochains trimestres détermineront si ces cadences correspondent à des commandes fermes ou à une stratégie de positionnement avant financement.

UELa montée en cadence de Figure et 1X exerce une pression concurrentielle sur les acteurs européens (Wandercraft, Enchanted Tools, Pollen Robotics), qui n'annoncent pas de volumes de production comparables à ce stade.

HumanoïdesActu
1 source