RecherchearXiv cs.RO 19 juin 2026

CTS-MoE : adaptation implicite au terrain par mélange d'experts pour la locomotion perceptive

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de recherche a publié en juin 2026 sur arXiv (ref. 2606.19633) une architecture baptisée CTS-MoE, conçue pour permettre à des robots quadrupèdes de traverser des terrains discontinus -- escaliers, trouées, obstacles -- sans recourir à un classifieur de terrain explicite. Le système repose sur un acteur à mélange dense d'experts (Mixture-of-Experts, MoE) dont le routage est piloté par la perception sensorielle, couplé à un multi-critique avec têtes de valeur spécifiques à chaque tâche pour éviter les interférences lors de l'entraînement. L'apprentissage s'effectue en bout-en-bout via un schéma enseignant-étudiant concurrent en une seule étape, sans distillation séquentielle, et les étiquettes de tâche ne sont utilisées qu'à l'entraînement. Les expériences ont été conduites sur un Unitree Go1 en simulation et sur matériel réel, sur des terrains vus et inédits.

Ce travail s'attaque à une tension fondamentale du reinforcement learning multi-tâche appliqué à la locomotion : partager les comportements communs tout en évitant que des récompenses conflictuelles n'effacent la spécialisation acquise. Les approches monolithiques classiques sacrifient la spécialisation par terrain, tandis que les hiérarchies de sous-politiques peinent à généraliser lors des transitions entre environnements. CTS-MoE contourne les deux écueils en composant dynamiquement des experts partagés au runtime, guidé uniquement par la perception, sans sélecteur de haut niveau. Les résultats montrent une réduction de l'erreur de suivi de trajectoire et des taux de succès supérieurs aux baselines monolithiques -- bien que, s'agissant d'un preprint non encore évalué par les pairs, ces métriques restent à confirmer sur des benchmarks indépendants.

La locomotion perceptive sur terrain complexe est un sous-domaine actif depuis les travaux d'ETH Zurich sur ANYmal (2020-2023) et ceux de CMU et Berkeley sur les quadrupèdes Unitree. L'usage des architectures MoE en robotique reste marginal par rapport à leur adoption massive en LLM (DeepSeek-MoE, Mixtral), et CTS-MoE est l'une des premières applications directes à la politique de locomotion avec validation hardware. Unitree, fabricant chinois du Go1, propose cette plateforme comme référence académique à moins de 3 500 USD, ce qui élargit la reproductibilité. Les concurrents directs en navigation sur terrain difficile incluent Boston Dynamics (Spot), ANYbotics et les laboratoires universitaires équipés d'ANYmal. Un site projet est disponible à cts-moe.github.io ; aucune timeline de déploiement industriel n'est annoncée.

Dans nos dossiers

Boston Dynamics Unitree arXiv cs.RO

À lire aussi

1arXiv cs.RO

PGTT : navigation de terrain guidée par phase pour la locomotion perceptive à pattes

Des chercheurs proposent PGTT (Phase-Guided Terrain Traversal), une méthode d'apprentissage par renforcement profond pour la locomotion perceptive de robots à pattes, décrite dans une version révisée publiée sur arXiv (2510.18348v2). Le système encode la phase de chaque patte via une spline cubique d'Hermite, adapte la hauteur de balancement des jambes aux statistiques locales de la carte de hauteur perçue, et ajoute une pénalité de contact pendant la phase de balancement, tout en laissant la politique agir directement dans l'espace articulaire pour rester indépendante de la morphologie du robot. Entraîné dans le simulateur MuJoCo (variante MJX) sur des terrains d'escaliers générés procéduralement, avec apprentissage par curriculum et randomisation de domaine, PGTT obtient le meilleur taux de succès parmi les méthodes comparées face à des perturbations par poussée (+7,5% médian par rapport au meilleur concurrent) et sur des obstacles discrets (+9%), tout en conservant un suivi de vitesse comparable. Les auteurs valident l'approche sur un robot quadrupède Unitree Go2 équipé d'un pipeline LiDAR temps réel convertissant l'élévation en carte de hauteur, et rapportent des résultats préliminaires sur l'ANYmal-C avec les mêmes hyperparamètres, sans réglage spécifique. L'enjeu dépasse la simple performance chiffrée: la plupart des contrôleurs RL perceptifs actuels imposent soit des a priori de démarche basés sur des oscillateurs ou de la cinématique inverse, ce qui contraint l'espace d'action et limite l'adaptabilité entre morphologies, soit fonctionnent en aveugle, incapables d'anticiper le terrain sous les pattes arrière et fragiles au bruit de perception. En remplaçant ces contraintes dures par du reward shaping, PGTT réduit le biais inductif tout en conservant une structure de démarche cohérente. Le transfert vers l'ANYmal-C sans réajustement d'hyperparamètres constitue un indice, encore préliminaire selon les auteurs eux-mêmes, qu'une politique terrain-adaptative peut se généraliser entre plateformes sans retuning coûteux, un enjeu concret pour les intégrateurs qui déploient plusieurs morphologies de robots à pattes. Le travail s'inscrit dans la lignée des efforts sur la locomotion perceptive pour quadrupèdes, où le Unitree Go2 sert de banc d'essai courant en recherche et où l'ANYmal-C d'ANYbotics reste une référence industrielle. Les résultats sur ANYmal-C étant qualifiés de préliminaires par les auteurs, une validation plus large sur d'autres plateformes, voire sur des humanoïdes, reste la suite logique attendue de ces travaux.

RecherchePaper

1 source

2arXiv cs.RO

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes

Une équipe de chercheurs a publié sur arXiv (référence 2605.31343, mai 2026) un framework baptisé TA-WBC (Terrain-Aware Whole-Body Control) destiné aux manipulateurs à pattes, c'est-à-dire des robots combinant membres locomoteurs (quadrupèdes ou bipèdes) et bras articulés. Le coeur du système est une politique unifiée entraînée par apprentissage par renforcement (RL) qui pilote simultanément les jambes et le bras lors de tâches de loco-manipulation, terme désignant la capacité à se déplacer et manipuler des objets en même temps. L'architecture repose sur trois briques techniques : un encodeur d'extéroception hybride qui extrait en temps réel les caractéristiques du terrain, une méthode d'échantillonnage de l'effecteur final ancrée sur le plan de contact des pieds pour découpler la cible de manipulation des oscillations du torse, et un module de distillation à double politique pour intégrer motricité étendue et adaptabilité sans effacement catastrophique des compétences acquises. Les expériences en simulation et en environnement réel montrent une zone atteignable agrandie, une erreur de tracking réduite et moins de trébuchements imprévus. Ce travail s'attaque à une limitation structurelle des contrôleurs corps entier existants : leur dépendance quasi exclusive à la proprioception (capteurs internes, IMU, encodeurs) au détriment de l'extéroception (perception externe du terrain). En milieux industriels complexes comme les chantiers, les entrepôts en hauteur variable ou les sites nucléaires, cette lacune rend les plateformes mobiles-manipulatrices peu fiables dès que le sol n'est plus plan. Le découplage effecteur/torse est particulièrement notable pour les intégrateurs : il signifie que le bras peut maintenir une trajectoire stable même quand le corps compense une marche irrégulière, ce qui est un prérequis non négociable pour tout assemblage ou saisie de précision en terrain dégradé. La validation sim-to-real, même partielle, renforce la crédibilité d'une approche qui reste à ce stade un preprint non commercialisé. Les manipulateurs à pattes constituent une catégorie en pleine structuration. Boston Dynamics commercialise Spot avec bras depuis 2021, Unitree propose le B2W équipé d'un bras, et plusieurs laboratoires académiques majeurs (ETH Zurich, CMU, Berkeley) publient régulièrement sur la loco-manipulation. Le verrou que TA-WBC cherche à lever, la perception de topologie de terrain couplée au contrôle corps entier, est précisément ce qui freine le déploiement de ces plateformes au-delà des environnements structurés. Ce preprint n'annonce pas de produit ni de partenaire industriel ; il pose néanmoins une brique algorithmique que des acteurs comme Agility Robotics, Apptronik ou les équipes robotique de Google DeepMind pourraient intégrer dans leurs chaînes d'entraînement.

UETravail de recherche applicable aux déploiements industriels en environnements dégradés (sites nucléaires, entrepôts à topologie variable) présents en Europe, mais sans implication directe d'acteurs français ou européens.

RecherchePaper

1 source

3arXiv cs.RO

Reactivité physiquement réalisable pour la locomotion adaptative au terrain

Voici l'article traduit et résumé selon les consignes. Une équipe de recherche présente un nouveau cadre de planification pour la locomotion des robots quadrupèdes sur des terrains changeants et imprévisibles, détaillé dans un article arXiv (2509.23185v2, version révisée). Le système combine deux briques technique distinctes : une synthèse réactive qui génère des contrôleurs symboliques "corrects par construction" pour décider quelle action prendre à chaque instant, et une programmation convexe en nombres mixtes (MICP) qui calcule en temps réel des placements de pas dynamiquement faisables. Pour éviter de recalculer sans cesse des problèmes MICP coûteux en ressources, et pour gérer les cas où une spécification devient physiquement impossible à tenir, les chercheurs ajoutent un mécanisme de réparation symbolique qui ne régénère que les transitions strictement nécessaires. Le tout a été validé en simulation puis sur robot physique, avec des scénarios volontairement difficiles : pierres de gué dispersées et terrains jonchés de barres d'armature (rebar), deux configurations classiques pour tester la robustesse du contact pied-sol. L'enjeu dépasse la simple démonstration académique. La marche sur terrain accidenté reste l'un des points faibles récurrents des plateformes quadrupèdes et humanoïdes commerciales, où les méthodes actuelles reposent soit sur des heuristiques de sélection d'appui limitant la fiabilité, soit sur une optimisation de trajectoire trop lourde pour tourner en temps réel sur de longs horizons. En montrant qu'un système peut identifier lui-même les "compétences de locomotion manquantes" et réagir en environnement critique, les auteurs adressent directement un doute répandu chez les intégrateurs industriels : la capacité réelle des robots à gérer l'imprévu hors des sols plats de laboratoire, condition clé pour un déploiement en logistique, construction ou inspection. Ce travail s'inscrit dans une lignée de recherches académiques en synthèse formelle et planification de mouvement pour la robotique legged, un domaine où les grands noms commerciaux (Boston Dynamics, Unitree) restent discrets sur leurs méthodes internes. La publication étant une "replace" d'une version arXiv antérieure, il s'agit d'un travail de recherche affiné plutôt que d'une annonce produit, sans calendrier de transfert industriel communiqué à ce stade.

RecherchePaper

1 source

4arXiv cs.RO

LatentMimic: Terrain-Adaptive Locomotion via Latent Space Imitation

Des chercheurs ont publié le 22 avril 2026 un préprint sur arXiv (arXiv:2604.16440) présentant LatentMimic, un cadre d'apprentissage de la locomotion pour robots quadrupèdes conçu pour concilier deux objectifs jusqu'ici antagonistes : reproduire fidèlement le style de marche issu de données de capture de mouvement (mocap) et s'adapter dynamiquement à des terrains irréguliers. L'approche repose sur une imitation dans l'espace latent : plutôt que de contraindre le robot à répliquer exactement les poses géométriques enregistrées, LatentMimic minimise la divergence marginale entre la distribution état-action de la politique apprise et un prior mocap entraîné séparément. Le système intègre également un module d'adaptation au terrain équipé d'un buffer de replay dynamique, destiné à corriger les dérives de distribution lorsque le robot passe d'un type de sol à un autre. Les évaluations portent sur quatre styles locomoteurs et quatre types de terrain, démontrant des taux de franchissement supérieurs aux méthodes de suivi de mouvement actuelles tout en conservant une haute fidélité stylistique. Ce travail s'attaque à un compromis fondamental qui freine le déploiement des robots quadrupèdes dans des environnements non structurés : les méthodes d'imitation stricte bloquent l'adaptabilité terrain, tandis que les politiques terrain-centriques sacrifient la naturalité du mouvement. En découplant la topologie de la foulée des contraintes géométriques d'extrémité, LatentMimic suggère qu'il est possible d'obtenir les deux à la fois. Pour les intégrateurs industriels et les équipes robotique, cela ouvre la voie à des contrôleurs plus robustes sur sols accidentés, escaliers ou surfaces déformables, sans devoir re-collecter des données mocap spécifiques à chaque terrain. La locomotion quadrupède par imitation est un axe de recherche actif depuis plusieurs années, avec des travaux notables comme AMP (Adversarial Motion Priors, Berkeley 2021) ou les méthodes sim-to-real de DeepMind sur ANYmal et Spot. LatentMimic s'inscrit dans cette lignée en proposant une relaxation conditionnelle plus fine du suivi de pose. Le paper est pour l'instant un préprint non relu par les pairs, et les résultats sont présentés uniquement en simulation et environnements contrôlés, le gap sim-to-real reste à valider sur hardware réel. Aucun partenariat industriel ni timeline de déploiement n'est mentionné. Les prochaines étapes naturelles seraient une validation sur plateformes physiques (Unitree, Boston Dynamics Spot) et une extension à des styles locomoteurs plus complexes comme le trot ou le galop en terrain extrême.

RecherchePaper

1 source