Aller au contenu principal
CTS-MoE : adaptation implicite au terrain par mélange d'experts pour la locomotion perceptive
RecherchearXiv cs.RO2h

CTS-MoE : adaptation implicite au terrain par mélange d'experts pour la locomotion perceptive

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche a publié en juin 2026 sur arXiv (ref. 2606.19633) une architecture baptisée CTS-MoE, conçue pour permettre à des robots quadrupèdes de traverser des terrains discontinus -- escaliers, trouées, obstacles -- sans recourir à un classifieur de terrain explicite. Le système repose sur un acteur à mélange dense d'experts (Mixture-of-Experts, MoE) dont le routage est piloté par la perception sensorielle, couplé à un multi-critique avec têtes de valeur spécifiques à chaque tâche pour éviter les interférences lors de l'entraînement. L'apprentissage s'effectue en bout-en-bout via un schéma enseignant-étudiant concurrent en une seule étape, sans distillation séquentielle, et les étiquettes de tâche ne sont utilisées qu'à l'entraînement. Les expériences ont été conduites sur un Unitree Go1 en simulation et sur matériel réel, sur des terrains vus et inédits.

Ce travail s'attaque à une tension fondamentale du reinforcement learning multi-tâche appliqué à la locomotion : partager les comportements communs tout en évitant que des récompenses conflictuelles n'effacent la spécialisation acquise. Les approches monolithiques classiques sacrifient la spécialisation par terrain, tandis que les hiérarchies de sous-politiques peinent à généraliser lors des transitions entre environnements. CTS-MoE contourne les deux écueils en composant dynamiquement des experts partagés au runtime, guidé uniquement par la perception, sans sélecteur de haut niveau. Les résultats montrent une réduction de l'erreur de suivi de trajectoire et des taux de succès supérieurs aux baselines monolithiques -- bien que, s'agissant d'un preprint non encore évalué par les pairs, ces métriques restent à confirmer sur des benchmarks indépendants.

La locomotion perceptive sur terrain complexe est un sous-domaine actif depuis les travaux d'ETH Zurich sur ANYmal (2020-2023) et ceux de CMU et Berkeley sur les quadrupèdes Unitree. L'usage des architectures MoE en robotique reste marginal par rapport à leur adoption massive en LLM (DeepSeek-MoE, Mixtral), et CTS-MoE est l'une des premières applications directes à la politique de locomotion avec validation hardware. Unitree, fabricant chinois du Go1, propose cette plateforme comme référence académique à moins de 3 500 USD, ce qui élargit la reproductibilité. Les concurrents directs en navigation sur terrain difficile incluent Boston Dynamics (Spot), ANYbotics et les laboratoires universitaires équipés d'ANYmal. Un site projet est disponible à cts-moe.github.io ; aucune timeline de déploiement industriel n'est annoncée.

À lire aussi

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes
1arXiv cs.RO 

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes

Une équipe de chercheurs a publié sur arXiv (référence 2605.31343, mai 2026) un framework baptisé TA-WBC (Terrain-Aware Whole-Body Control) destiné aux manipulateurs à pattes, c'est-à-dire des robots combinant membres locomoteurs (quadrupèdes ou bipèdes) et bras articulés. Le coeur du système est une politique unifiée entraînée par apprentissage par renforcement (RL) qui pilote simultanément les jambes et le bras lors de tâches de loco-manipulation, terme désignant la capacité à se déplacer et manipuler des objets en même temps. L'architecture repose sur trois briques techniques : un encodeur d'extéroception hybride qui extrait en temps réel les caractéristiques du terrain, une méthode d'échantillonnage de l'effecteur final ancrée sur le plan de contact des pieds pour découpler la cible de manipulation des oscillations du torse, et un module de distillation à double politique pour intégrer motricité étendue et adaptabilité sans effacement catastrophique des compétences acquises. Les expériences en simulation et en environnement réel montrent une zone atteignable agrandie, une erreur de tracking réduite et moins de trébuchements imprévus. Ce travail s'attaque à une limitation structurelle des contrôleurs corps entier existants : leur dépendance quasi exclusive à la proprioception (capteurs internes, IMU, encodeurs) au détriment de l'extéroception (perception externe du terrain). En milieux industriels complexes comme les chantiers, les entrepôts en hauteur variable ou les sites nucléaires, cette lacune rend les plateformes mobiles-manipulatrices peu fiables dès que le sol n'est plus plan. Le découplage effecteur/torse est particulièrement notable pour les intégrateurs : il signifie que le bras peut maintenir une trajectoire stable même quand le corps compense une marche irrégulière, ce qui est un prérequis non négociable pour tout assemblage ou saisie de précision en terrain dégradé. La validation sim-to-real, même partielle, renforce la crédibilité d'une approche qui reste à ce stade un preprint non commercialisé. Les manipulateurs à pattes constituent une catégorie en pleine structuration. Boston Dynamics commercialise Spot avec bras depuis 2021, Unitree propose le B2W équipé d'un bras, et plusieurs laboratoires académiques majeurs (ETH Zurich, CMU, Berkeley) publient régulièrement sur la loco-manipulation. Le verrou que TA-WBC cherche à lever, la perception de topologie de terrain couplée au contrôle corps entier, est précisément ce qui freine le déploiement de ces plateformes au-delà des environnements structurés. Ce preprint n'annonce pas de produit ni de partenaire industriel ; il pose néanmoins une brique algorithmique que des acteurs comme Agility Robotics, Apptronik ou les équipes robotique de Google DeepMind pourraient intégrer dans leurs chaînes d'entraînement.

UETravail de recherche applicable aux déploiements industriels en environnements dégradés (sites nucléaires, entrepôts à topologie variable) présents en Europe, mais sans implication directe d'acteurs français ou européens.

RecherchePaper
1 source
LatentMimic: Terrain-Adaptive Locomotion via Latent Space Imitation
2arXiv cs.RO 

LatentMimic: Terrain-Adaptive Locomotion via Latent Space Imitation

Des chercheurs ont publié le 22 avril 2026 un préprint sur arXiv (arXiv:2604.16440) présentant LatentMimic, un cadre d'apprentissage de la locomotion pour robots quadrupèdes conçu pour concilier deux objectifs jusqu'ici antagonistes : reproduire fidèlement le style de marche issu de données de capture de mouvement (mocap) et s'adapter dynamiquement à des terrains irréguliers. L'approche repose sur une imitation dans l'espace latent : plutôt que de contraindre le robot à répliquer exactement les poses géométriques enregistrées, LatentMimic minimise la divergence marginale entre la distribution état-action de la politique apprise et un prior mocap entraîné séparément. Le système intègre également un module d'adaptation au terrain équipé d'un buffer de replay dynamique, destiné à corriger les dérives de distribution lorsque le robot passe d'un type de sol à un autre. Les évaluations portent sur quatre styles locomoteurs et quatre types de terrain, démontrant des taux de franchissement supérieurs aux méthodes de suivi de mouvement actuelles tout en conservant une haute fidélité stylistique. Ce travail s'attaque à un compromis fondamental qui freine le déploiement des robots quadrupèdes dans des environnements non structurés : les méthodes d'imitation stricte bloquent l'adaptabilité terrain, tandis que les politiques terrain-centriques sacrifient la naturalité du mouvement. En découplant la topologie de la foulée des contraintes géométriques d'extrémité, LatentMimic suggère qu'il est possible d'obtenir les deux à la fois. Pour les intégrateurs industriels et les équipes robotique, cela ouvre la voie à des contrôleurs plus robustes sur sols accidentés, escaliers ou surfaces déformables, sans devoir re-collecter des données mocap spécifiques à chaque terrain. La locomotion quadrupède par imitation est un axe de recherche actif depuis plusieurs années, avec des travaux notables comme AMP (Adversarial Motion Priors, Berkeley 2021) ou les méthodes sim-to-real de DeepMind sur ANYmal et Spot. LatentMimic s'inscrit dans cette lignée en proposant une relaxation conditionnelle plus fine du suivi de pose. Le paper est pour l'instant un préprint non relu par les pairs, et les résultats sont présentés uniquement en simulation et environnements contrôlés, le gap sim-to-real reste à valider sur hardware réel. Aucun partenariat industriel ni timeline de déploiement n'est mentionné. Les prochaines étapes naturelles seraient une validation sur plateformes physiques (Unitree, Boston Dynamics Spot) et une extension à des styles locomoteurs plus complexes comme le trot ou le galop en terrain extrême.

RecherchePaper
1 source
Décomposition attention globale-locale pour l'encodage du terrain dans la locomotion perceptive des humanoïdes
3arXiv cs.RO 

Décomposition attention globale-locale pour l'encodage du terrain dans la locomotion perceptive des humanoïdes

Des chercheurs ont soumis fin mai 2026 sur arXiv (référence 2606.00637) une méthode baptisée GLAD (Global-Local Attention Decomposition) pour améliorer la locomotion perceptive des robots humanoïdes sur terrain irrégulier. L'approche repose sur un encodeur coarse-to-fine appliqué à une carte d'élévation centrée sur le robot, qui sépare deux branches d'attention : une branche globale utilisant l'attention pooling pour synthétiser le contexte environnemental, et une branche locale conditionnée à l'état du robot pour encoder avec précision la géométrie des surfaces d'appui. La méthode a été validée sur un humanoïde Unitree G1 équipé d'un LiDAR embarqué, sur des terrains à appuis discontinus (gaps, pierres de gué, escaliers) et dans des environnements confinés, avec un transfert sim-to-real zéro-shot sans réentraînement sur données réelles. La décomposition explicite de l'attention perceptive comble un manque identifié dans la littérature : les encodeurs conventionnels tendent à mélanger la perception macroscopique du terrain, utile pour la navigation globale, et la détection fine des surfaces d'appui, utile pour le placement des pieds, ce qui dégrade les performances dans les deux registres. En séparant ces fonctions, GLAD réduit la dilution des signaux spatiaux fins et allège la charge d'entraînement. Plus notable encore : la politique apprise fait émerger des comportements adaptatifs non explicitement supervisés, comme le suivi de chemins étroits et le contournement d'obstacles sous de simples commandes de vitesse, sans planificateur de navigation dédié. Ce résultat suggère que la structuration de l'encodeur perceptif peut induire une forme de navigation implicite, angle qui intéresse directement les intégrateurs cherchant à alléger la pile logicielle des humanoïdes déployés. La locomotion perceptive des humanoïdes a progressé rapidement depuis les travaux fondateurs en apprentissage par renforcement sur terrain accidenté (ANYmal d'ETH Zurich, CMU Locomotion Group), mais le sim-to-real sur appuis discontinus reste un verrou difficile, notamment à cause du bruit des capteurs de profondeur. L'utilisation du LiDAR embarqué du Unitree G1, commercialisé autour de 16 000 dollars et devenu banc d'essai courant dans la communauté académique, offre une robustesse capteur supérieure aux caméras RGB-D. Sur ce segment, plusieurs équipes sont en compétition directe : Berkeley Humanoid Locomotion Group, MIT CSAIL, et les équipes internes de Figure AI (modèle Helix) et d'Agility Robotics (Digit). Le papier ne publie pas de métriques quantitatives précises (taux de succès, nombre d'essais), ce qui limite la comparaison directe avec d'autres systèmes ; il s'agit d'un résultat académique, pas d'un produit déployé.

RecherchePaper
1 source
ECo-MoE : mélange d'experts conditionné par l'incarnation pour accroître l'évolvabilité des robots
4arXiv cs.RO 

ECo-MoE : mélange d'experts conditionné par l'incarnation pour accroître l'évolvabilité des robots

Des chercheurs ont publié fin mai 2026 sur arXiv (arXiv:2605.24225) un nouveau cadre d'apprentissage et d'évolution pour robots baptisé ECo-MoE (Embodiment-Conditioned Mixture of Experts). L'architecture co-optimise simultanément une distribution de vecteurs de conception latents, assimilables à des génotypes, et un ensemble de modules de contrôle spécialisés, ou "experts", dont l'activation est conditionnée par les coordonnées latentes du morphotype décodé. Concrètement, chaque plan corporel d'un robot active ou désactive dynamiquement des combinaisons distinctes de circuits sensorimoteurs appris, permettant un comportement orienté objectif adapté à la morphologie instanciée. Le projet est accompagné de vidéos et d'un code open source disponibles sur eco-moe.github.io. L'intérêt principal de cette approche réside dans le compromis qu'elle propose entre deux extrêmes bien documentés du co-design robotique : entraîner une politique individuelle pour chaque morphologie (coûteux en calcul, non scalable) ou entraîner un contrôleur universel monolithique pour toutes les morphologies (résultat trop conservateur, comportements sous-optimaux). ECo-MoE préserve la connaissance accumulée au fil des générations dans un cadre unifié mais modulaire, où une partie du contrôleur peut être remaniée pour s'adapter à une nouvelle famille de designs sans perturber les modules experts déjà consolidés. Les auteurs introduisent également le concept d'"evo by demo" : des politiques pré-entraînées peuvent être directement injectées dans le mélange d'experts pour orienter l'évolution vers des régions de l'espace latent contenant des caractéristiques morphologiques souhaitées, ce qui constitue un levier de contrôle éditorial sur l'évolution libre. Ce travail s'inscrit dans une ligne de recherche active autour de la neuro-évolution et du co-design morphologie/contrôle, dont les jalons récents incluent les travaux sur les politiques universelles (ex : pi0 de Physical Intelligence, GR00T N2 de NVIDIA) et les architectures transformer appliquées à l'évolution robotique. La différence revendiquée par rapport aux approches VLA généralistes est la modularité explicite : là où les grands modèles de politique tendent à absorber toute la diversité morphologique dans un seul réseau dense, ECo-MoE structure cette diversité via le routage conditionné. Il s'agit pour l'instant d'un preprint académique sans déploiement industriel annoncé, et les benchmarks présentés portent sur des robots simulés, ce qui laisse entier le classique gap simulation-réalité.

RecherchePaper
1 source