X-Loco : vers un contrôle généraliste de la…

Vers un contrôle adaptatif des robots humanoïdes par distillation multi-comportements et affinage renforcé

36

1arXiv cs.RO

Vers un contrôle adaptatif des robots humanoïdes par distillation multi-comportements et affinage renforcé

Une équipe de chercheurs propose Adaptive Humanoid Control (AHC), un framework de contrôle locomoteur pour humanoïdes publié sur arXiv (2511.06371v3). Le problème de départ est structurel : les méthodes dominantes entraînent une politique séparée pour chaque compétence (se relever, marcher, courir, sauter), générant des contrôleurs rigides qui échouent dès que le terrain devient irrégulier. AHC y répond en deux phases : d'abord, plusieurs politiques primaires sont entraînées puis fusionnées par distillation multi-comportements en un contrôleur unique capable de commuter dynamiquement selon le contexte ; ensuite, un affinage par renforcement avec retours en ligne consolide l'adaptabilité sur terrains variés. Le système est validé en simulation et en conditions réelles sur le robot Unitree G1 d'Unitree Robotics. Pour les intégrateurs et les décideurs industriels, la promesse est concrète : un seul contrôleur couvrant l'ensemble des comportements locomoteurs réduit la complexité opérationnelle et supprime les transitions manuelles entre modes. Du côté de la recherche, le résultat le plus notable est que la distillation combinée à un fine-tuning par RL en ligne permet de réduire partiellement le sim-to-real gap sans ré-entraînement complet. La réserve à formuler : le papier ne publie pas de métriques quantitatives détaillées (taux de succès par terrain, fréquence de chute), ce qui rend difficile la comparaison objective avec d'autres approches. Le Unitree G1 (1,27 m, environ 35 kg, 16 000 dollars) est devenu depuis 2024 une plateforme de recherche de référence pour ce type de travaux. AHC s'inscrit dans une compétition internationale où Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Figure (Helix) et Boston Dynamics cherchent tous à produire des politiques locomotrices généralisables hors environnement contrôlé. L'approche par distillation multi-politiques rappelle les travaux de curriculum learning menés à Berkeley et CMU, et l'affinage par RL en ligne emprunte aux méthodologies RLHF adaptées à la robotique physique. Aucun partenariat industriel ni calendrier de déploiement n'est annoncé ; le projet en est au stade de la démonstration académique.

RecherchePaper

1 source

OmniContact : enchaînement de méta-compétences par flux de contact pour la loco-manipulation humanoïde généralisable

38

2arXiv cs.RO

OmniContact : enchaînement de méta-compétences par flux de contact pour la loco-manipulation humanoïde généralisable

Des chercheurs ont publié le 26 juin 2026 sur arXiv (réf. 2606.26201) un framework hiérarchique baptisé OmniContact, conçu pour enchaîner des séquences complexes de locomotion et manipulation sur des humanoïdes. Le coeur du système est une représentation intermédiaire appelée "contact flow" (CF): trajectoires corporelles clés et signaux binaires de contact en série temporelle. Deux modules s'appuient dessus, CF-Track (politique bas-niveau, bibliothèque de compétences unifiée) et CF-Gen (planificateur haut-niveau heuristique qui synthétise les séquences futures). En simulation, les résultats annoncés atteignent 98,7% de succès sur la tâche "Carry Box" et 76,5% sur "Push-Stack Boxes", soit respectivement +40,9% et +66,5% face aux baselines sur l'exécution de méta-compétences et leur enchaînement. Le dataset OmniContact, constitué via capture de mouvement (MoCap) d'interactions humain-objet, supporte l'entraînement. Le vrai défi des humanoïdes industriels n'est pas l'exécution d'un geste unitaire mais l'enchaînement robuste de séquences longues avec récupération autonome en cas de défaillance, ce verrou précis que OmniContact cible. Le système propose une interface structurée lisible par le planificateur haut-niveau, une voie médiane entre représentations explicites trop rigides pour la planification et embeddings implicites trop opaques pour la composition fiable. L'intégration avec des VLMs (Vision-Language Models) permettrait des instructions en langage naturel converties en séquences de contact flows, comme l'illustre la démonstration d'arrangement de boîtes en forme de coeur. Nuance importante: toutes les métriques publiées sont issues de conditions contrôlées en laboratoire, sans validation sur hardware physique ni déploiement industriel réel, ce qui laisse entier le problème du sim-to-real. La loco-manipulation longue horizon est devenu le benchmark officieux du secteur humanoïde en 2025-2026. Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0) et Boston Dynamics s'affrontent sur des tâches de plus en plus généralisables, tandis que NVIDIA pousse GR00T N2 comme couche de policy universelle. OmniContact vient du monde académique, sans entreprise identifiée derrière ce preprint, mais son approche par contact flow s'inscrit dans la tendance des représentations intermédiaires structurées, en parallèle des architectures VLA à diffusion. La collecte MoCap dédiée aux interactions humain-objet sur humanoïdes confirme que les données de référence restent un goulot d'étranglement même quand la simulation abonde. La prochaine étape déterminante sera le transfert sur un humanoïde physique, condition sine qua non pour que ce framework passe du laboratoire au hangar.

RecherchePaper

1 source

MuGen : un contrôleur de locomotion multi-compétences pour robots humanoïdes

33

3arXiv cs.RO

MuGen : un contrôleur de locomotion multi-compétences pour robots humanoïdes

Des chercheurs ont publié le 26 mai 2026 sur arXiv un article présentant MuGen (Multi-Skill Generative Locomotion Controller), un framework d'apprentissage automatique visant à doter les robots humanoïdes d'une locomotion polyvalente et expressive. Le système repose sur des auto-encodeurs à quantification vectorielle (VQ-VAEs) entraînés par apprentissage par renforcement basé sur des modèles, combinés à un pipeline dit "enseignant-élève" avec distillation de politique. Le principe consiste à condenser des heures de données hétérogènes de mouvements humains en une représentation latente compacte, depuis laquelle un robot peut imiter des séquences de mouvement jamais vues à l'entraînement. À noter : l'article ne précise ni plateforme matérielle spécifique, ni métriques quantitatives concrètes (vitesse, payload, temps de cycle), ce qui est habituel pour un preprint de recherche fondamentale à ce stade. Ce qui distingue MuGen des approches classiques de locomotion humanoïde est le choix d'une représentation générative via VQ-VAE, plutôt qu'une politique spécialisée par comportement. Cette architecture permet la réutilisation de l'espace latent appris pour des tâches en aval, ouvrant la voie à un transfert de compétences sans réentraînement complet. La distillation enseignant-élève est un point structurant : la politique enseignante, puissante mais coûteuse en calcul, sert à former une politique élève légère et déployable sur matériel embarqué. Pour les intégrateurs et décideurs industriels, ce paradigme réduit le fossé sim-to-real et laisse entrevoir des robots capables d'adopter de nouveaux comportements locomoteurs à partir d'une simple séquence de référence humaine, sans fine-tuning massif. MuGen s'inscrit dans un courant de recherche actif sur l'imitation motrice pour humanoïdes, dans la lignée de travaux comme AMP (Adversarial Motion Priors, UC Berkeley), ASE ou PhysDiff. Dans l'industrie, Figure AI, Agility Robotics (Digit), Unitree et Tesla (Optimus) investissent massivement dans des pipelines similaires de whole-body control combinant motion capture et RL. L'usage de VQ-VAEs reste relativement peu exploré pour la locomotion, contrairement à son application établie en génération audio et image. Le papier étant un preprint arXiv sans révision par les pairs à ce stade, la prochaine étape déterminante sera une validation sur plateforme physique réelle avec métriques comparatives, condition sine qua non pour évaluer la portée opérationnelle de l'approche.

RecherchePaper

1 source

FastDSAC : améliorer la plasticité des politiques par exploration contrainte pour la locomotion humanoïde évolutive

38

4arXiv cs.RO

FastDSAC : améliorer la plasticité des politiques par exploration contrainte pour la locomotion humanoïde évolutive

FastDSAC, un nouvel algorithme d'apprentissage par renforcement développé par des chercheurs pour l'entraînement de robots humanoïdes, vient d'être présenté sur arXiv (référence 2606.31691). Cette variante rapide de l'architecture Distributional Actor-Critic cible spécifiquement les configurations d'entraînement à haut débit, où de nombreux environnements simulés tournent en parallèle pour accélérer l'apprentissage des politiques de locomotion. Le problème identifié par les auteurs est que cette vitesse a un coût : plus le volume de données et la fréquence de mise à jour augmentent, plus les méthodes basées sur la valeur deviennent instables et plus les réseaux de politique perdent leur capacité d'adaptation, un phénomène connu sous le nom de perte de plasticité. Pour y remédier, FastDSAC introduit une distribution gaussienne tronquée qui approxime la politique apprise, écartant les actions hors distribution qui faussent l'estimation de la valeur cible tout en conservant la part d'aléa nécessaire à l'exploration. Les tests ont été menés sur les bancs d'essai MuJoCo Playground et HumanoidBench, deux environnements de référence pour la locomotion robotique simulée. Sur le plan pratique, ce travail s'attaque à un vrai goulot d'étranglement du secteur : entraîner des politiques de contrôle pour robots humanoïdes reste coûteux en temps de calcul, et les architectures d'échantillonnage massif censées accélérer ce processus introduisent en pratique de l'instabilité qui annule une partie du gain. Si les résultats annoncés (convergence plus rapide, meilleure performance asymptotique) se confirment au-delà des benchmarks simulés, cela intéresserait directement les équipes de recherche qui développent des contrôleurs pour humanoïdes, en réduisant le temps et le coût de calcul nécessaires avant tout transfert vers du matériel réel. Il faut toutefois noter que l'étude reste purement académique et simulée : aucun déploiement sur robot physique n'est mentionné, et les gains restent à valider en dehors des environnements MuJoCo. FastDSAC s'inscrit dans la lignée des méthodes actor-critic distributionnelles dérivées de SAC (Soft Actor-Critic), en se distinguant des approches rapides précédentes qui s'appuyaient sur des distributions de valeur discrètes plutôt que sur une représentation gaussienne continue à variance adaptative. Les auteurs positionnent leur méthode comme une alternative aux algorithmes de référence actuels pour l'entraînement parallèle à grande échelle, sans toutefois nommer d'acteur industriel ni de plateforme robotique spécifique. La suite logique, non abordée dans l'article, serait une validation sur du matériel humanoïde réel.

RecherchePaper

1 source

X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques

À lire aussi

Vers un contrôle adaptatif des robots humanoïdes par distillation multi-comportements et affinage renforcé

OmniContact : enchaînement de méta-compétences par flux de contact pour la loco-manipulation humanoïde généralisable

MuGen : un contrôleur de locomotion multi-compétences pour robots humanoïdes

FastDSAC : améliorer la plasticité des politiques par exploration contrainte pour la locomotion humanoïde évolutive