Aller au contenu principal
LatentMimic: Terrain-Adaptive Locomotion via Latent Space Imitation
RecherchearXiv cs.RO6sem

LatentMimic: Terrain-Adaptive Locomotion via Latent Space Imitation

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 22 avril 2026 un préprint sur arXiv (arXiv:2604.16440) présentant LatentMimic, un cadre d'apprentissage de la locomotion pour robots quadrupèdes conçu pour concilier deux objectifs jusqu'ici antagonistes : reproduire fidèlement le style de marche issu de données de capture de mouvement (mocap) et s'adapter dynamiquement à des terrains irréguliers. L'approche repose sur une imitation dans l'espace latent : plutôt que de contraindre le robot à répliquer exactement les poses géométriques enregistrées, LatentMimic minimise la divergence marginale entre la distribution état-action de la politique apprise et un prior mocap entraîné séparément. Le système intègre également un module d'adaptation au terrain équipé d'un buffer de replay dynamique, destiné à corriger les dérives de distribution lorsque le robot passe d'un type de sol à un autre. Les évaluations portent sur quatre styles locomoteurs et quatre types de terrain, démontrant des taux de franchissement supérieurs aux méthodes de suivi de mouvement actuelles tout en conservant une haute fidélité stylistique.

Ce travail s'attaque à un compromis fondamental qui freine le déploiement des robots quadrupèdes dans des environnements non structurés : les méthodes d'imitation stricte bloquent l'adaptabilité terrain, tandis que les politiques terrain-centriques sacrifient la naturalité du mouvement. En découplant la topologie de la foulée des contraintes géométriques d'extrémité, LatentMimic suggère qu'il est possible d'obtenir les deux à la fois. Pour les intégrateurs industriels et les équipes robotique, cela ouvre la voie à des contrôleurs plus robustes sur sols accidentés, escaliers ou surfaces déformables, sans devoir re-collecter des données mocap spécifiques à chaque terrain.

La locomotion quadrupède par imitation est un axe de recherche actif depuis plusieurs années, avec des travaux notables comme AMP (Adversarial Motion Priors, Berkeley 2021) ou les méthodes sim-to-real de DeepMind sur ANYmal et Spot. LatentMimic s'inscrit dans cette lignée en proposant une relaxation conditionnelle plus fine du suivi de pose. Le paper est pour l'instant un préprint non relu par les pairs, et les résultats sont présentés uniquement en simulation et environnements contrôlés, le gap sim-to-real reste à valider sur hardware réel. Aucun partenariat industriel ni timeline de déploiement n'est mentionné. Les prochaines étapes naturelles seraient une validation sur plateformes physiques (Unitree, Boston Dynamics Spot) et une extension à des styles locomoteurs plus complexes comme le trot ou le galop en terrain extrême.

À lire aussi

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes
1arXiv cs.RO 

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes

Une équipe de chercheurs a publié sur arXiv (référence 2605.31343, mai 2026) un framework baptisé TA-WBC (Terrain-Aware Whole-Body Control) destiné aux manipulateurs à pattes, c'est-à-dire des robots combinant membres locomoteurs (quadrupèdes ou bipèdes) et bras articulés. Le coeur du système est une politique unifiée entraînée par apprentissage par renforcement (RL) qui pilote simultanément les jambes et le bras lors de tâches de loco-manipulation, terme désignant la capacité à se déplacer et manipuler des objets en même temps. L'architecture repose sur trois briques techniques : un encodeur d'extéroception hybride qui extrait en temps réel les caractéristiques du terrain, une méthode d'échantillonnage de l'effecteur final ancrée sur le plan de contact des pieds pour découpler la cible de manipulation des oscillations du torse, et un module de distillation à double politique pour intégrer motricité étendue et adaptabilité sans effacement catastrophique des compétences acquises. Les expériences en simulation et en environnement réel montrent une zone atteignable agrandie, une erreur de tracking réduite et moins de trébuchements imprévus. Ce travail s'attaque à une limitation structurelle des contrôleurs corps entier existants : leur dépendance quasi exclusive à la proprioception (capteurs internes, IMU, encodeurs) au détriment de l'extéroception (perception externe du terrain). En milieux industriels complexes comme les chantiers, les entrepôts en hauteur variable ou les sites nucléaires, cette lacune rend les plateformes mobiles-manipulatrices peu fiables dès que le sol n'est plus plan. Le découplage effecteur/torse est particulièrement notable pour les intégrateurs : il signifie que le bras peut maintenir une trajectoire stable même quand le corps compense une marche irrégulière, ce qui est un prérequis non négociable pour tout assemblage ou saisie de précision en terrain dégradé. La validation sim-to-real, même partielle, renforce la crédibilité d'une approche qui reste à ce stade un preprint non commercialisé. Les manipulateurs à pattes constituent une catégorie en pleine structuration. Boston Dynamics commercialise Spot avec bras depuis 2021, Unitree propose le B2W équipé d'un bras, et plusieurs laboratoires académiques majeurs (ETH Zurich, CMU, Berkeley) publient régulièrement sur la loco-manipulation. Le verrou que TA-WBC cherche à lever, la perception de topologie de terrain couplée au contrôle corps entier, est précisément ce qui freine le déploiement de ces plateformes au-delà des environnements structurés. Ce preprint n'annonce pas de produit ni de partenaire industriel ; il pose néanmoins une brique algorithmique que des acteurs comme Agility Robotics, Apptronik ou les équipes robotique de Google DeepMind pourraient intégrer dans leurs chaînes d'entraînement.

UETravail de recherche applicable aux déploiements industriels en environnements dégradés (sites nucléaires, entrepôts à topologie variable) présents en Europe, mais sans implication directe d'acteurs français ou européens.

RecherchePaper
1 source
Décomposition attention globale-locale pour l'encodage du terrain dans la locomotion perceptive des humanoïdes
2arXiv cs.RO 

Décomposition attention globale-locale pour l'encodage du terrain dans la locomotion perceptive des humanoïdes

Des chercheurs ont soumis fin mai 2026 sur arXiv (référence 2606.00637) une méthode baptisée GLAD (Global-Local Attention Decomposition) pour améliorer la locomotion perceptive des robots humanoïdes sur terrain irrégulier. L'approche repose sur un encodeur coarse-to-fine appliqué à une carte d'élévation centrée sur le robot, qui sépare deux branches d'attention : une branche globale utilisant l'attention pooling pour synthétiser le contexte environnemental, et une branche locale conditionnée à l'état du robot pour encoder avec précision la géométrie des surfaces d'appui. La méthode a été validée sur un humanoïde Unitree G1 équipé d'un LiDAR embarqué, sur des terrains à appuis discontinus (gaps, pierres de gué, escaliers) et dans des environnements confinés, avec un transfert sim-to-real zéro-shot sans réentraînement sur données réelles. La décomposition explicite de l'attention perceptive comble un manque identifié dans la littérature : les encodeurs conventionnels tendent à mélanger la perception macroscopique du terrain, utile pour la navigation globale, et la détection fine des surfaces d'appui, utile pour le placement des pieds, ce qui dégrade les performances dans les deux registres. En séparant ces fonctions, GLAD réduit la dilution des signaux spatiaux fins et allège la charge d'entraînement. Plus notable encore : la politique apprise fait émerger des comportements adaptatifs non explicitement supervisés, comme le suivi de chemins étroits et le contournement d'obstacles sous de simples commandes de vitesse, sans planificateur de navigation dédié. Ce résultat suggère que la structuration de l'encodeur perceptif peut induire une forme de navigation implicite, angle qui intéresse directement les intégrateurs cherchant à alléger la pile logicielle des humanoïdes déployés. La locomotion perceptive des humanoïdes a progressé rapidement depuis les travaux fondateurs en apprentissage par renforcement sur terrain accidenté (ANYmal d'ETH Zurich, CMU Locomotion Group), mais le sim-to-real sur appuis discontinus reste un verrou difficile, notamment à cause du bruit des capteurs de profondeur. L'utilisation du LiDAR embarqué du Unitree G1, commercialisé autour de 16 000 dollars et devenu banc d'essai courant dans la communauté académique, offre une robustesse capteur supérieure aux caméras RGB-D. Sur ce segment, plusieurs équipes sont en compétition directe : Berkeley Humanoid Locomotion Group, MIT CSAIL, et les équipes internes de Figure AI (modèle Helix) et d'Agility Robotics (Digit). Le papier ne publie pas de métriques quantitatives précises (taux de succès, nombre d'essais), ce qui limite la comparaison directe avec d'autres systèmes ; il s'agit d'un résultat académique, pas d'un produit déployé.

RecherchePaper
1 source
Apprentissage par renforcement sur graphe adapté à la morphologie pour la locomotion de robots tenségrité
3arXiv cs.RO 

Apprentissage par renforcement sur graphe adapté à la morphologie pour la locomotion de robots tenségrité

Des chercheurs ont publié sur arXiv (référence 2510.26067, version 2, octobre 2025) un framework d'apprentissage par renforcement intégrant un réseau de neurones à graphes (GNN) dans l'algorithme Soft Actor-Critic (SAC) pour contrôler la locomotion de robots tenségrité. Le système représente la topologie physique du robot sous forme de graphe, où chaque nœud correspond à un composant structurel (tige rigide ou câble élastique) et chaque arête encode les couplages mécaniques. Validé sur un robot tenségrité à 3 barres, le framework maîtrise trois primitives de déplacement : suivi de trajectoire en ligne droite et virage bidirectionnel. Aucun réglage supplémentaire n'a été nécessaire pour le passage simulation-vers-matériel, et les politiques apprises s'exécutent directement sur le robot physique avec une locomotion stable. Le résultat le plus significatif pour les intégrateurs et concepteurs de robots est le transfert sim-to-real sans fine-tuning : c'est précisément le point d'échec habituel des méthodes RL appliquées aux structures à dynamique fortement couplée. Les robots tenségrité combinent tiges rigides et câbles élastiques en tension permanente, ce qui rend leur dynamique sous-actionnée et difficile à modéliser fidèlement, un écart classique entre simulation et réalité. Le fait que le GNN encode explicitement les contraintes topologiques du robot explique en partie cette robustesse : la politique apprend la physique structurelle, pas seulement une carte entrée-sortie. Les résultats montrent également une meilleure efficacité d'échantillonnage et une tolérance accrue aux variations de bruit et de raideur des câbles, deux paramètres qui fluctuent inévitablement sur matériel réel. Les robots tenségrité ont émergé comme plateforme de recherche sérieuse notamment via les travaux de la NASA (robot SUPERball) et des universités comme UC Berkeley, en raison de leur légèreté et de leur résilience aux chocs, des atouts pour l'exploration spatiale ou la recherche et le sauvetage. Jusqu'ici, leur contrôle reposait essentiellement sur des politiques MLP standard ou des méthodes de contrôle classique, peu adaptées à la complexité des couplages internes. Ce travail s'inscrit dans une tendance plus large d'architectures GNN pour robots morphologiquement complexes, en compétition avec des approches comme les transformers de morphologie ou le contrôle basé modèle avec apprentissage des paramètres. Les prochaines étapes naturelles incluent l'extension à des structures plus complexes (6 barres, tenségrités sphériques) et des environnements non structurés, domaines où aucun déploiement industriel n'est encore annoncé à ce stade.

RecherchePaper
1 source
Imitation ergodique pour une exploration adaptative autour des démonstrations
4arXiv cs.RO 

Imitation ergodique pour une exploration adaptative autour des démonstrations

Une équipe de recherche vient de publier sur arXiv (référence 2605.13996) une méthode intitulée "Ergodic Imitation", conçue pour rendre les robots capables de s'adapter lorsqu'ils échouent à reproduire fidèlement une démonstration. Le problème ciblé est classique en apprentissage par imitation : une trajectoire apprise sur des démonstrations peut devenir inopérante dès que les conditions de déploiement diffèrent légèrement, qu'il s'agisse d'un changement d'environnement, d'une imprécision de capteur, ou d'une erreur de contrôle. Plutôt que de se bloquer sur la trajectoire nominale, le système proposé construit une distribution cible à partir de la géométrie des démonstrations récupérées, puis génère des trajectoires qui interpolent de façon adaptative entre suivi strict et exploration locale. Le coeur de la contribution est l'extension du contrôle ergodique, une technique jusqu'ici utilisée principalement pour la couverture de zones et la recherche en environnements inconnus, à un cadre de recalage par horizon glissant ancré dans les démonstrations. Le contrôle ergodique garantit que le robot passe du temps dans les régions proportionnellement à leur "importance" selon la distribution cible, ce qui permet d'explorer autour de la démonstration sans s'en éloigner trop. Pour les intégrateurs et les équipes d'automatisation industrielle, cela représente un levier concret contre le "demo-to-deployment gap" : une politique apprise n'a plus besoin d'être réapprise ou ré-annotée chaque fois que les conditions dérivent légèrement par rapport au setup de collecte des données. Le contrôle ergodique en robotique mobile remonte à des travaux des années 2010 (en particulier ceux du groupe de Todd Murphey à Northwestern), mais son application à l'imitation reste rare. Les approches concurrentes dans ce segment incluent DAgger et ses variantes (correction en ligne via un expert), ainsi que les méthodes de diffusion conditionnelle comme Diffusion Policy ou Pi-0 (Physical Intelligence), qui gèrent aussi l'incertitude par exploration stochastique mais nécessitent en général des volumes de données bien supérieurs. Cette publication est un preprint non encore évalué par des pairs, sans benchmark comparatif publié ni déploiement hardware annoncé ; les résultats expérimentaux mentionnés dans l'abstract restent à évaluer dans la version complète du papier.

RecherchePaper
1 source