LatentMimic: Terrain-Adaptive Locomotion via…

CTS-MoE : adaptation implicite au terrain par mélange d'experts pour la locomotion perceptive

39

1arXiv cs.RO

CTS-MoE : adaptation implicite au terrain par mélange d'experts pour la locomotion perceptive

Une équipe de recherche a publié en juin 2026 sur arXiv (ref. 2606.19633) une architecture baptisée CTS-MoE, conçue pour permettre à des robots quadrupèdes de traverser des terrains discontinus -- escaliers, trouées, obstacles -- sans recourir à un classifieur de terrain explicite. Le système repose sur un acteur à mélange dense d'experts (Mixture-of-Experts, MoE) dont le routage est piloté par la perception sensorielle, couplé à un multi-critique avec têtes de valeur spécifiques à chaque tâche pour éviter les interférences lors de l'entraînement. L'apprentissage s'effectue en bout-en-bout via un schéma enseignant-étudiant concurrent en une seule étape, sans distillation séquentielle, et les étiquettes de tâche ne sont utilisées qu'à l'entraînement. Les expériences ont été conduites sur un Unitree Go1 en simulation et sur matériel réel, sur des terrains vus et inédits. Ce travail s'attaque à une tension fondamentale du reinforcement learning multi-tâche appliqué à la locomotion : partager les comportements communs tout en évitant que des récompenses conflictuelles n'effacent la spécialisation acquise. Les approches monolithiques classiques sacrifient la spécialisation par terrain, tandis que les hiérarchies de sous-politiques peinent à généraliser lors des transitions entre environnements. CTS-MoE contourne les deux écueils en composant dynamiquement des experts partagés au runtime, guidé uniquement par la perception, sans sélecteur de haut niveau. Les résultats montrent une réduction de l'erreur de suivi de trajectoire et des taux de succès supérieurs aux baselines monolithiques -- bien que, s'agissant d'un preprint non encore évalué par les pairs, ces métriques restent à confirmer sur des benchmarks indépendants. La locomotion perceptive sur terrain complexe est un sous-domaine actif depuis les travaux d'ETH Zurich sur ANYmal (2020-2023) et ceux de CMU et Berkeley sur les quadrupèdes Unitree. L'usage des architectures MoE en robotique reste marginal par rapport à leur adoption massive en LLM (DeepSeek-MoE, Mixtral), et CTS-MoE est l'une des premières applications directes à la politique de locomotion avec validation hardware. Unitree, fabricant chinois du Go1, propose cette plateforme comme référence académique à moins de 3 500 USD, ce qui élargit la reproductibilité. Les concurrents directs en navigation sur terrain difficile incluent Boston Dynamics (Spot), ANYbotics et les laboratoires universitaires équipés d'ANYmal. Un site projet est disponible à cts-moe.github.io ; aucune timeline de déploiement industriel n'est annoncée.

RecherchePaper

1 source

Apprentissage de la locomotion sur terrain discret via une détection minimale de proximité

37

2arXiv cs.RO

Apprentissage de la locomotion sur terrain discret via une détection minimale de proximité

Une équipe de recherche propose d'intégrer des capteurs de proximité infrarouges directement dans les pattes d'un robot quadrupède, pour lui donner une perception "pré-contact" du terrain avant même que le pied ne touche le sol. Contrairement aux caméras de profondeur ou aux LiDAR, ces capteurs sont peu coûteux, fonctionnent à haute fréquence et restent insensibles aux auto-occlusions propres à la locomotion dynamique. Les signaux qu'ils produisent sont intégrés dans un pipeline d'apprentissage par renforcement, entraîné en simulation puis transféré sur le robot réel avec, selon les auteurs, une bonne fidélité. Les tests ont porté sur des terrains discontinus, trous et pierres de gué, des configurations réputées difficiles pour les systèmes de perception globale classiques, sujets aux occlusions et à la dérive d'estimation d'état. Le site du projet (sites.google.com/view/foot-tof) présente les démonstrations associées, qu'il convient toutefois de considérer comme des résultats de laboratoire plutôt que comme une validation en conditions réelles à grande échelle. L'intérêt de l'approche tient à la position qu'elle occupe entre deux extrêmes du secteur : les suites de perception globale (LiDAR, caméras de profondeur), puissantes mais lourdes en calcul et sensibles aux latences et aux occlusions, et la proprioception pure, qui ne réagit qu'après l'impact. En ajoutant une couche de perception locale et quasi instantanée, ce travail illustre une tendance de fond dans la robotique locomotrice : réduire la dépendance à des pipelines de vision denses et coûteux au profit de capteurs simples exploités intelligemment par du RL. Pour les intégrateurs de robots quadrupèdes destinés à des environnements non structurés, chantiers, sites industriels, terrains extérieurs, cela ouvre la voie à des architectures moins gourmandes en puissance de calcul embarquée. Ce travail s'inscrit dans la lignée des recherches récentes en apprentissage par renforcement pour la locomotion dynamique, qui ont déjà permis à des robots quadrupèdes de franchir des obstacles complexes en s'appuyant sur des perceptions visuelles riches. En proposant une alternative ou un complément low-cost et low-latency à ces stacks visuels, l'étude ouvre des pistes pour des déploiements ultérieurs combinant capteurs de contact et perception globale, sans toutefois préciser à ce stade de calendrier d'industrialisation.

RecherchePaper

1 source

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes

44

3arXiv cs.RO

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes

Une équipe de chercheurs a publié sur arXiv (référence 2605.31343, mai 2026) un framework baptisé TA-WBC (Terrain-Aware Whole-Body Control) destiné aux manipulateurs à pattes, c'est-à-dire des robots combinant membres locomoteurs (quadrupèdes ou bipèdes) et bras articulés. Le coeur du système est une politique unifiée entraînée par apprentissage par renforcement (RL) qui pilote simultanément les jambes et le bras lors de tâches de loco-manipulation, terme désignant la capacité à se déplacer et manipuler des objets en même temps. L'architecture repose sur trois briques techniques : un encodeur d'extéroception hybride qui extrait en temps réel les caractéristiques du terrain, une méthode d'échantillonnage de l'effecteur final ancrée sur le plan de contact des pieds pour découpler la cible de manipulation des oscillations du torse, et un module de distillation à double politique pour intégrer motricité étendue et adaptabilité sans effacement catastrophique des compétences acquises. Les expériences en simulation et en environnement réel montrent une zone atteignable agrandie, une erreur de tracking réduite et moins de trébuchements imprévus. Ce travail s'attaque à une limitation structurelle des contrôleurs corps entier existants : leur dépendance quasi exclusive à la proprioception (capteurs internes, IMU, encodeurs) au détriment de l'extéroception (perception externe du terrain). En milieux industriels complexes comme les chantiers, les entrepôts en hauteur variable ou les sites nucléaires, cette lacune rend les plateformes mobiles-manipulatrices peu fiables dès que le sol n'est plus plan. Le découplage effecteur/torse est particulièrement notable pour les intégrateurs : il signifie que le bras peut maintenir une trajectoire stable même quand le corps compense une marche irrégulière, ce qui est un prérequis non négociable pour tout assemblage ou saisie de précision en terrain dégradé. La validation sim-to-real, même partielle, renforce la crédibilité d'une approche qui reste à ce stade un preprint non commercialisé. Les manipulateurs à pattes constituent une catégorie en pleine structuration. Boston Dynamics commercialise Spot avec bras depuis 2021, Unitree propose le B2W équipé d'un bras, et plusieurs laboratoires académiques majeurs (ETH Zurich, CMU, Berkeley) publient régulièrement sur la loco-manipulation. Le verrou que TA-WBC cherche à lever, la perception de topologie de terrain couplée au contrôle corps entier, est précisément ce qui freine le déploiement de ces plateformes au-delà des environnements structurés. Ce preprint n'annonce pas de produit ni de partenaire industriel ; il pose néanmoins une brique algorithmique que des acteurs comme Agility Robotics, Apptronik ou les équipes robotique de Google DeepMind pourraient intégrer dans leurs chaînes d'entraînement.

UETravail de recherche applicable aux déploiements industriels en environnements dégradés (sites nucléaires, entrepôts à topologie variable) présents en Europe, mais sans implication directe d'acteurs français ou européens.

RecherchePaper

1 source

Décomposition attention globale-locale pour l'encodage du terrain dans la locomotion perceptive des humanoïdes

42

4arXiv cs.RO

Décomposition attention globale-locale pour l'encodage du terrain dans la locomotion perceptive des humanoïdes

Des chercheurs ont soumis fin mai 2026 sur arXiv (référence 2606.00637) une méthode baptisée GLAD (Global-Local Attention Decomposition) pour améliorer la locomotion perceptive des robots humanoïdes sur terrain irrégulier. L'approche repose sur un encodeur coarse-to-fine appliqué à une carte d'élévation centrée sur le robot, qui sépare deux branches d'attention : une branche globale utilisant l'attention pooling pour synthétiser le contexte environnemental, et une branche locale conditionnée à l'état du robot pour encoder avec précision la géométrie des surfaces d'appui. La méthode a été validée sur un humanoïde Unitree G1 équipé d'un LiDAR embarqué, sur des terrains à appuis discontinus (gaps, pierres de gué, escaliers) et dans des environnements confinés, avec un transfert sim-to-real zéro-shot sans réentraînement sur données réelles. La décomposition explicite de l'attention perceptive comble un manque identifié dans la littérature : les encodeurs conventionnels tendent à mélanger la perception macroscopique du terrain, utile pour la navigation globale, et la détection fine des surfaces d'appui, utile pour le placement des pieds, ce qui dégrade les performances dans les deux registres. En séparant ces fonctions, GLAD réduit la dilution des signaux spatiaux fins et allège la charge d'entraînement. Plus notable encore : la politique apprise fait émerger des comportements adaptatifs non explicitement supervisés, comme le suivi de chemins étroits et le contournement d'obstacles sous de simples commandes de vitesse, sans planificateur de navigation dédié. Ce résultat suggère que la structuration de l'encodeur perceptif peut induire une forme de navigation implicite, angle qui intéresse directement les intégrateurs cherchant à alléger la pile logicielle des humanoïdes déployés. La locomotion perceptive des humanoïdes a progressé rapidement depuis les travaux fondateurs en apprentissage par renforcement sur terrain accidenté (ANYmal d'ETH Zurich, CMU Locomotion Group), mais le sim-to-real sur appuis discontinus reste un verrou difficile, notamment à cause du bruit des capteurs de profondeur. L'utilisation du LiDAR embarqué du Unitree G1, commercialisé autour de 16 000 dollars et devenu banc d'essai courant dans la communauté académique, offre une robustesse capteur supérieure aux caméras RGB-D. Sur ce segment, plusieurs équipes sont en compétition directe : Berkeley Humanoid Locomotion Group, MIT CSAIL, et les équipes internes de Figure AI (modèle Helix) et d'Agility Robotics (Digit). Le papier ne publie pas de métriques quantitatives précises (taux de succès, nombre d'essais), ce qui limite la comparaison directe avec d'autres systèmes ; il s'agit d'un résultat académique, pas d'un produit déployé.

RecherchePaper

1 source

LatentMimic: Terrain-Adaptive Locomotion via Latent Space Imitation

À lire aussi

CTS-MoE : adaptation implicite au terrain par mélange d'experts pour la locomotion perceptive

Apprentissage de la locomotion sur terrain discret via une détection minimale de proximité

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes

Décomposition attention globale-locale pour l'encodage du terrain dans la locomotion perceptive des humanoïdes