RecherchearXiv cs.RO 2 juin 2026

Décomposition attention globale-locale pour l'encodage du terrain dans la locomotion perceptive des humanoïdes

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont soumis fin mai 2026 sur arXiv (référence 2606.00637) une méthode baptisée GLAD (Global-Local Attention Decomposition) pour améliorer la locomotion perceptive des robots humanoïdes sur terrain irrégulier. L'approche repose sur un encodeur coarse-to-fine appliqué à une carte d'élévation centrée sur le robot, qui sépare deux branches d'attention : une branche globale utilisant l'attention pooling pour synthétiser le contexte environnemental, et une branche locale conditionnée à l'état du robot pour encoder avec précision la géométrie des surfaces d'appui. La méthode a été validée sur un humanoïde Unitree G1 équipé d'un LiDAR embarqué, sur des terrains à appuis discontinus (gaps, pierres de gué, escaliers) et dans des environnements confinés, avec un transfert sim-to-real zéro-shot sans réentraînement sur données réelles.

La décomposition explicite de l'attention perceptive comble un manque identifié dans la littérature : les encodeurs conventionnels tendent à mélanger la perception macroscopique du terrain, utile pour la navigation globale, et la détection fine des surfaces d'appui, utile pour le placement des pieds, ce qui dégrade les performances dans les deux registres. En séparant ces fonctions, GLAD réduit la dilution des signaux spatiaux fins et allège la charge d'entraînement. Plus notable encore : la politique apprise fait émerger des comportements adaptatifs non explicitement supervisés, comme le suivi de chemins étroits et le contournement d'obstacles sous de simples commandes de vitesse, sans planificateur de navigation dédié. Ce résultat suggère que la structuration de l'encodeur perceptif peut induire une forme de navigation implicite, angle qui intéresse directement les intégrateurs cherchant à alléger la pile logicielle des humanoïdes déployés.

La locomotion perceptive des humanoïdes a progressé rapidement depuis les travaux fondateurs en apprentissage par renforcement sur terrain accidenté (ANYmal d'ETH Zurich, CMU Locomotion Group), mais le sim-to-real sur appuis discontinus reste un verrou difficile, notamment à cause du bruit des capteurs de profondeur. L'utilisation du LiDAR embarqué du Unitree G1, commercialisé autour de 16 000 dollars et devenu banc d'essai courant dans la communauté académique, offre une robustesse capteur supérieure aux caméras RGB-D. Sur ce segment, plusieurs équipes sont en compétition directe : Berkeley Humanoid Locomotion Group, MIT CSAIL, et les équipes internes de Figure AI (modèle Helix) et d'Agility Robotics (Digit). Le papier ne publie pas de métriques quantitatives précises (taux de succès, nombre d'essais), ce qui limite la comparaison directe avec d'autres systèmes ; il s'agit d'un résultat académique, pas d'un produit déployé.

Dans nos dossiers

Figure Unitree Agility Robotics — Digit arXiv cs.RO

À lire aussi

1arXiv cs.RO

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes

Une équipe de chercheurs a publié sur arXiv (référence 2605.31343, mai 2026) un framework baptisé TA-WBC (Terrain-Aware Whole-Body Control) destiné aux manipulateurs à pattes, c'est-à-dire des robots combinant membres locomoteurs (quadrupèdes ou bipèdes) et bras articulés. Le coeur du système est une politique unifiée entraînée par apprentissage par renforcement (RL) qui pilote simultanément les jambes et le bras lors de tâches de loco-manipulation, terme désignant la capacité à se déplacer et manipuler des objets en même temps. L'architecture repose sur trois briques techniques : un encodeur d'extéroception hybride qui extrait en temps réel les caractéristiques du terrain, une méthode d'échantillonnage de l'effecteur final ancrée sur le plan de contact des pieds pour découpler la cible de manipulation des oscillations du torse, et un module de distillation à double politique pour intégrer motricité étendue et adaptabilité sans effacement catastrophique des compétences acquises. Les expériences en simulation et en environnement réel montrent une zone atteignable agrandie, une erreur de tracking réduite et moins de trébuchements imprévus. Ce travail s'attaque à une limitation structurelle des contrôleurs corps entier existants : leur dépendance quasi exclusive à la proprioception (capteurs internes, IMU, encodeurs) au détriment de l'extéroception (perception externe du terrain). En milieux industriels complexes comme les chantiers, les entrepôts en hauteur variable ou les sites nucléaires, cette lacune rend les plateformes mobiles-manipulatrices peu fiables dès que le sol n'est plus plan. Le découplage effecteur/torse est particulièrement notable pour les intégrateurs : il signifie que le bras peut maintenir une trajectoire stable même quand le corps compense une marche irrégulière, ce qui est un prérequis non négociable pour tout assemblage ou saisie de précision en terrain dégradé. La validation sim-to-real, même partielle, renforce la crédibilité d'une approche qui reste à ce stade un preprint non commercialisé. Les manipulateurs à pattes constituent une catégorie en pleine structuration. Boston Dynamics commercialise Spot avec bras depuis 2021, Unitree propose le B2W équipé d'un bras, et plusieurs laboratoires académiques majeurs (ETH Zurich, CMU, Berkeley) publient régulièrement sur la loco-manipulation. Le verrou que TA-WBC cherche à lever, la perception de topologie de terrain couplée au contrôle corps entier, est précisément ce qui freine le déploiement de ces plateformes au-delà des environnements structurés. Ce preprint n'annonce pas de produit ni de partenaire industriel ; il pose néanmoins une brique algorithmique que des acteurs comme Agility Robotics, Apptronik ou les équipes robotique de Google DeepMind pourraient intégrer dans leurs chaînes d'entraînement.

UETravail de recherche applicable aux déploiements industriels en environnements dégradés (sites nucléaires, entrepôts à topologie variable) présents en Europe, mais sans implication directe d'acteurs français ou européens.

RecherchePaper

1 source

2arXiv cs.RO

CTS-MoE : adaptation implicite au terrain par mélange d'experts pour la locomotion perceptive

Une équipe de recherche a publié en juin 2026 sur arXiv (ref. 2606.19633) une architecture baptisée CTS-MoE, conçue pour permettre à des robots quadrupèdes de traverser des terrains discontinus -- escaliers, trouées, obstacles -- sans recourir à un classifieur de terrain explicite. Le système repose sur un acteur à mélange dense d'experts (Mixture-of-Experts, MoE) dont le routage est piloté par la perception sensorielle, couplé à un multi-critique avec têtes de valeur spécifiques à chaque tâche pour éviter les interférences lors de l'entraînement. L'apprentissage s'effectue en bout-en-bout via un schéma enseignant-étudiant concurrent en une seule étape, sans distillation séquentielle, et les étiquettes de tâche ne sont utilisées qu'à l'entraînement. Les expériences ont été conduites sur un Unitree Go1 en simulation et sur matériel réel, sur des terrains vus et inédits. Ce travail s'attaque à une tension fondamentale du reinforcement learning multi-tâche appliqué à la locomotion : partager les comportements communs tout en évitant que des récompenses conflictuelles n'effacent la spécialisation acquise. Les approches monolithiques classiques sacrifient la spécialisation par terrain, tandis que les hiérarchies de sous-politiques peinent à généraliser lors des transitions entre environnements. CTS-MoE contourne les deux écueils en composant dynamiquement des experts partagés au runtime, guidé uniquement par la perception, sans sélecteur de haut niveau. Les résultats montrent une réduction de l'erreur de suivi de trajectoire et des taux de succès supérieurs aux baselines monolithiques -- bien que, s'agissant d'un preprint non encore évalué par les pairs, ces métriques restent à confirmer sur des benchmarks indépendants. La locomotion perceptive sur terrain complexe est un sous-domaine actif depuis les travaux d'ETH Zurich sur ANYmal (2020-2023) et ceux de CMU et Berkeley sur les quadrupèdes Unitree. L'usage des architectures MoE en robotique reste marginal par rapport à leur adoption massive en LLM (DeepSeek-MoE, Mixtral), et CTS-MoE est l'une des premières applications directes à la politique de locomotion avec validation hardware. Unitree, fabricant chinois du Go1, propose cette plateforme comme référence académique à moins de 3 500 USD, ce qui élargit la reproductibilité. Les concurrents directs en navigation sur terrain difficile incluent Boston Dynamics (Spot), ANYbotics et les laboratoires universitaires équipés d'ANYmal. Un site projet est disponible à cts-moe.github.io ; aucune timeline de déploiement industriel n'est annoncée.

RecherchePaper

1 source

3arXiv cs.RO

GuideWalk : apprentissage de la navigation autonome et de la locomotion unifiées pour robots humanoïdes sur terrains variés

Des chercheurs présentent GuideWalk (arXiv:2606.10449, juin 2026), un framework unifié qui couple navigation autonome et locomotion adaptative pour robots humanoïdes sur terrains variés. L'architecture repose sur trois composantes : un module de navigation qui génère des guidances de vitesse explicites en tenant compte de la traversabilité du terrain, un schéma de distillation à enseignants composites qui agrège commandes directionnelles et actions dynamiquement cohérentes dans une politique unique, puis un affinement par apprentissage par renforcement (RL) couplé à un objectif auxiliaire de clonage comportemental (behavior cloning). Ce dernier mécanisme vise à maintenir les comportements souhaitables issus des enseignants tout en favorisant l'exploration. L'article reste au stade de preprint arXiv sans déploiement industriel annoncé ni métriques benchmarkées publiées dans l'abstract. Le problème technique adressé est structurant pour la robotique humanoïde : l'évitement d'obstacles et la locomotion dynamique sont habituellement traités en silos, ce qui crée des incohérences lorsqu'un robot planifie sur escaliers, sol accidenté ou transitions sol dur/mou. GuideWalk découple explicitement la planification d'obstacles de l'état du terrain, ce qui est une approche architecturale plus propre que les solutions end-to-end brutes ou les pipelines hiérarchiques rigides. Pour les intégrateurs et décideurs B2B, le vrai enjeu est le sim-to-real gap sur locomotion hétérogène : si cette architecture tient ses promesses en évaluation externe, elle pourrait réduire le besoin d'ingénierie terrain-spécifique lors du déploiement en entrepôt ou en environnement industriel non structuré. La navigation humanoïde sur terrains complexes reste un des derniers verrous majeurs avant déploiement opérationnel large, là où la locomotion pure en terrain plat est désormais relativement résolue chez Unitree (H1, G1), Boston Dynamics (Atlas) ou Agility Robotics (Digit). Des approches concurrentes comme GR00T N2 de NVIDIA ou les travaux de Physical Intelligence (Pi-0) s'attaquent au même problème via des Visual Language Action models (VLA) généralisés, tandis que des labos académiques comme CMU ou Berkeley publient régulièrement sur le sim-to-real en locomotion adaptative. GuideWalk s'inscrit dans cette vague mais avec une contribution méthodologique spécifique sur le couplage navigation-locomotion. Les prochaines étapes naturelles seraient une évaluation sur hardware réel (le preprint ne précise pas le robot utilisé) et une comparaison quantitative avec des baselines établies.

RecherchePaper

1 source

4arXiv cs.RO

Adaptation biomécanique guidée par la physique de la démarche pour la locomotion humanoïde sur terrains extrêmement pentus

Des chercheurs présentent HumoSlope, un framework d'apprentissage par renforcement en deux étapes conçu pour la locomotion humanoïde sur pentes raides, détaillé dans un article publié sur arXiv (référence 2607.07830v1). Le constat de départ : avec des formulations de récompense génériques, les politiques de RL convergent souvent vers des démarches lentes et prudentes, en position accroupie et centre de masse abaissé, pour compenser le biais gravitationnel constant imposé par un terrain incliné. La première étape du framework introduit un régularisateur ZMP (Zero Moment Point) adapté à la pente, évalué directement sur le plan de support incliné local plutôt que sur une référence horizontale globale, ce qui établit un a priori d'équilibre cohérent avec le terrain. La seconde étape, baptisée Biomechanical Slope Gait Adapter (BSGA), exploite des descripteurs macroscopiques du terrain comme signaux privilégiés, disponibles uniquement à l'entraînement, pour moduler dynamiquement la hauteur du centre de masse et la coordination des membres inférieurs selon la géométrie de pente estimée, favorisant une propulsion dominée par la hanche en montée et un freinage piloté par le genou en descente. Point notable : l'acteur finalement déployé reste entièrement proprioceptif, sans capteur extéroceptif embarqué. Les essais sim-to-real ont permis une traversée aveugle et continue de pentes herbeuses extérieures atteignant 62,7 % d'inclinaison, soit 32,1 degrés. L'intérêt principal tient à la démonstration qu'un contrôle purement proprioceptif, sans vision ni LiDAR embarqués, peut gérer des pentes extrêmes en conditions réelles extérieures, réduisant la dépendance à une perception embarquée coûteuse et fragile hors environnement contrôlé. Le résultat contredit aussi l'idée qu'un RL générique suffit : sans priors physiques et biomécaniques explicites, les politiques dégénèrent vers des démarches accroupies sous-optimales. Pour les acteurs de l'humanoïde, dont la plupart des déploiements actuels restent cantonnés aux sols plats d'usine ou d'entrepôt, ce travail pointe une voie concrète pour élargir la robustesse en terrain extérieur non structuré, une faiblesse encore largement non résolue du secteur. La locomotion humanoïde par apprentissage par renforcement a fortement progressé ces dernières années sur terrains plats ou discrets, marches et escaliers notamment, mais les pentes raides restent un axe peu exploré comparé à d'autres défis comme les obstacles ou les terrains accidentés. Aucune plateforme robotique commerciale n'est nommée dans l'article, qui reste à ce stade une contribution de recherche validée en simulation puis en conditions réelles. Les suites naturelles évoquées incluent l'intégration à des piles de contrôle plus larges et des tests sur d'autres surfaces comme la neige, le gravier ou la boue.

RecherchePaper

1 source