Aller au contenu principal
MuGen : un contrôleur de locomotion multi-compétences pour robots humanoïdes
RecherchearXiv cs.RO3h

MuGen : un contrôleur de locomotion multi-compétences pour robots humanoïdes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 26 mai 2026 sur arXiv un article présentant MuGen (Multi-Skill Generative Locomotion Controller), un framework d'apprentissage automatique visant à doter les robots humanoïdes d'une locomotion polyvalente et expressive. Le système repose sur des auto-encodeurs à quantification vectorielle (VQ-VAEs) entraînés par apprentissage par renforcement basé sur des modèles, combinés à un pipeline dit "enseignant-élève" avec distillation de politique. Le principe consiste à condenser des heures de données hétérogènes de mouvements humains en une représentation latente compacte, depuis laquelle un robot peut imiter des séquences de mouvement jamais vues à l'entraînement. À noter : l'article ne précise ni plateforme matérielle spécifique, ni métriques quantitatives concrètes (vitesse, payload, temps de cycle), ce qui est habituel pour un preprint de recherche fondamentale à ce stade.

Ce qui distingue MuGen des approches classiques de locomotion humanoïde est le choix d'une représentation générative via VQ-VAE, plutôt qu'une politique spécialisée par comportement. Cette architecture permet la réutilisation de l'espace latent appris pour des tâches en aval, ouvrant la voie à un transfert de compétences sans réentraînement complet. La distillation enseignant-élève est un point structurant : la politique enseignante, puissante mais coûteuse en calcul, sert à former une politique élève légère et déployable sur matériel embarqué. Pour les intégrateurs et décideurs industriels, ce paradigme réduit le fossé sim-to-real et laisse entrevoir des robots capables d'adopter de nouveaux comportements locomoteurs à partir d'une simple séquence de référence humaine, sans fine-tuning massif.

MuGen s'inscrit dans un courant de recherche actif sur l'imitation motrice pour humanoïdes, dans la lignée de travaux comme AMP (Adversarial Motion Priors, UC Berkeley), ASE ou PhysDiff. Dans l'industrie, Figure AI, Agility Robotics (Digit), Unitree et Tesla (Optimus) investissent massivement dans des pipelines similaires de whole-body control combinant motion capture et RL. L'usage de VQ-VAEs reste relativement peu exploré pour la locomotion, contrairement à son application établie en génération audio et image. Le papier étant un preprint arXiv sans révision par les pairs à ce stade, la prochaine étape déterminante sera une validation sur plateforme physique réelle avec métriques comparatives, condition sine qua non pour évaluer la portée opérationnelle de l'approche.

À lire aussi

MUJICA : architecture de contrôle unifiée multi-compétences pour robots hybrides roues-pattes
1arXiv cs.RO 

MUJICA : architecture de contrôle unifiée multi-compétences pour robots hybrides roues-pattes

Des chercheurs ont publié sur arXiv (référence 2605.13058) un framework de contrôle unifié pour robots à roues et pattes, baptisé MUJICA (Multi-skill Unified Joint Integration of Control Architecture). L'architecture regroupe en une seule politique trois compétences locomotrices distinctes : déplacement omnidirectionnel, escalade de plateformes élevées et récupération après chute. Chaque compétence est identifiée par des variables indicatrices propres et entraînée conjointement avec une modélisation précise des contraintes des moteurs à courant continu. Un sélecteur de compétences de haut niveau apprend ensuite à choisir dynamiquement la compétence optimale à partir de la seule proprioception, sans caméra ni LiDAR. Les expériences ont été conduites en simulation puis sur le robot Unitree Go2-W, la variante à roues du quadrupède Go2 commercialisé par Unitree Robotics. Ce travail adresse un problème structurel des robots hybrides roues-pattes : alterner entre contrôle roulant et contrôle locomoteur sans transitions abruptes ni dégradation de performance aux limites mécaniques des actionneurs. Le bruit proprioceptif et les contraintes réelles des moteurs rendent cette robustesse difficile à obtenir, particulièrement lors du transfert sim-to-real. MUJICA améliore ce transfert en intégrant un modèle DC-moteur précis dès la phase d'entraînement, ce qui réduit l'écart entre simulation et déploiement physique. Pour un intégrateur industriel ou un COO logistique, cela signifie un robot hybride capable de naviguer de façon autonome dans des environnements non structurés (entrepôts encombrés, chantiers, zones mixtes) sans reconfigurations manuelles entre modes de déplacement. Le Unitree Go2-W est l'une des rares plateformes commerciales hybrides roues-pattes accessibles (le Go2 standard est vendu entre 1 600 et 2 700 USD selon configuration), ce qui en fait un banc de test pertinent pour la reproductibilité. Dans la compétition plus large sur la locomotion adaptative, des acteurs comme ANYbotics (ANYmal), Boston Dynamics (Spot) ou des équipes académiques de l'ETH Zurich et de Carnegie Mellon développent des approches concurrentes, souvent basées sur vision ou LiDAR. MUJICA se distingue par son pari sur la proprioception seule, choix réaliste pour des déploiements sans infrastructure sensorielle lourde. L'article restant un preprint non évalué par des pairs, les métriques de performance en conditions réelles devront être confirmées lors d'une soumission en conférence (IROS, ICRA ou CoRL).

RecherchePaper
1 source
Vers un contrôle adaptatif des robots humanoïdes par distillation multi-comportements et affinage renforcé
2arXiv cs.RO 

Vers un contrôle adaptatif des robots humanoïdes par distillation multi-comportements et affinage renforcé

Une équipe de chercheurs propose Adaptive Humanoid Control (AHC), un framework de contrôle locomoteur pour humanoïdes publié sur arXiv (2511.06371v3). Le problème de départ est structurel : les méthodes dominantes entraînent une politique séparée pour chaque compétence (se relever, marcher, courir, sauter), générant des contrôleurs rigides qui échouent dès que le terrain devient irrégulier. AHC y répond en deux phases : d'abord, plusieurs politiques primaires sont entraînées puis fusionnées par distillation multi-comportements en un contrôleur unique capable de commuter dynamiquement selon le contexte ; ensuite, un affinage par renforcement avec retours en ligne consolide l'adaptabilité sur terrains variés. Le système est validé en simulation et en conditions réelles sur le robot Unitree G1 d'Unitree Robotics. Pour les intégrateurs et les décideurs industriels, la promesse est concrète : un seul contrôleur couvrant l'ensemble des comportements locomoteurs réduit la complexité opérationnelle et supprime les transitions manuelles entre modes. Du côté de la recherche, le résultat le plus notable est que la distillation combinée à un fine-tuning par RL en ligne permet de réduire partiellement le sim-to-real gap sans ré-entraînement complet. La réserve à formuler : le papier ne publie pas de métriques quantitatives détaillées (taux de succès par terrain, fréquence de chute), ce qui rend difficile la comparaison objective avec d'autres approches. Le Unitree G1 (1,27 m, environ 35 kg, 16 000 dollars) est devenu depuis 2024 une plateforme de recherche de référence pour ce type de travaux. AHC s'inscrit dans une compétition internationale où Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Figure (Helix) et Boston Dynamics cherchent tous à produire des politiques locomotrices généralisables hors environnement contrôlé. L'approche par distillation multi-politiques rappelle les travaux de curriculum learning menés à Berkeley et CMU, et l'affinage par RL en ligne emprunte aux méthodologies RLHF adaptées à la robotique physique. Aucun partenariat industriel ni calendrier de déploiement n'est annoncé ; le projet en est au stade de la démonstration académique.

RecherchePaper
1 source
RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde
3arXiv cs.RO 

RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde

Une équipe de chercheurs a publié le 21 avril 2026 sur arXiv (2604.21355) un framework baptisé RPG (Robust Policy Gating), conçu pour permettre à des robots humanoïdes d'enchaîner plusieurs compétences de combat dynamique sans instabilité. L'approche repose sur une politique unifiée entraînée avec deux mécanismes de randomisation : la randomisation des transitions de mouvement, qui expose la politique à des états initiaux et terminaux variés entre compétences, et la randomisation temporelle, qui rend l'agent robuste aux coupures imprévises dans la séquence de mouvements. La pipeline de contrôle intègre la locomotion (marche, course) avec les compétences de combat, permettant théoriquement des séquences de durée arbitraire. Le système a été validé en simulation extensive, puis déployé sur le robot humanoïde Unitree G1, la plateforme à 23 DDL du constructeur chinois Unitree Robotics. Le problème central que RPG adresse est connu dans le domaine sous le nom de "skill transition gap" : lorsqu'un agent bascule d'une politique spécialisée à une autre, les états terminaux de la première ne correspondent pas aux états initiaux supposés de la seconde, produisant des comportements hors domaine, des chutes ou des mouvements saccadés. Les approches concurrentes utilisent soit une commutation entre politiques mono-compétence, soit une politique généraliste qui imite des motion clips de référence -- les deux souffrent de ce décalage. RPG propose une solution d'entraînement plutôt que d'architecture, ce qui est notable : la robustesse aux transitions est injectée pendant la phase d'apprentissage, pas via un mécanisme de gating à l'inférence. L'absence de métriques quantitatives dans la publication (temps de cycle, taux de chute, nombre de transitions testées) limite cependant la comparaison directe avec d'autres travaux. RPG s'inscrit dans une vague active de recherche sur le contrôle corps entier des humanoïdes pour des tâches hautement dynamiques, un domaine où les laboratoires UCB, CMU et Stanford publient régulièrement depuis 2023. L'utilisation du G1 comme plateforme de validation est cohérente avec sa popularité croissante en recherche académique, notamment grâce à son coût inférieur à celui des plateformes concurrentes (Boston Dynamics Atlas, Agility Digit). Sur le plan commercial, des acteurs comme Figure AI, 1X Technologies ou Apptronik ciblent des tâches répétitives en entrepôt plutôt que le combat, mais les techniques de transition de compétences développées ici sont directement transposables aux scénarios industriels nécessitant des enchaînements fluides de manipulation et de locomotion. La prochaine étape naturelle serait une évaluation quantitative en conditions adversariales réelles, ainsi qu'un transfert vers des tâches moins "spectaculaires" mais plus proches du déploiement B2B.

RecherchePaper
1 source
Localisation par angle et contrôle de rigidité pour réseaux multi-robots
4arXiv cs.RO 

Localisation par angle et contrôle de rigidité pour réseaux multi-robots

Des chercheurs ont publié sur arXiv (référence 2604.11754v2) une contribution théorique et algorithmique portant sur la localisation par mesures d'angles et le maintien de rigidité dans les réseaux multi-robots, en 2D et en 3D. Le résultat central établit une équivalence formelle entre rigidité angulaire et rigidité de type "bearing" (orientation relative) pour des graphes de détection dirigés avec mesures en référentiel embarqué : un système dans SE(d) est infinitésimalement rigide au sens bearing si et seulement s'il est infinitésimalement rigide au sens angulaire et que chaque robot acquiert au moins d-1 mesures de bearing (d valant 2 ou 3). À partir de cette base, les auteurs proposent un schéma de localisation distribué et démontrent sa stabilité exponentielle locale sous des topologies de détection commutantes, avec comme seule hypothèse la rigidité angulaire infinitésimale sur l'ensemble des topologies visitées. Une nouvelle métrique, la valeur propre de rigidité angulaire, est introduite pour quantifier le degré de rigidité du réseau, et un contrôleur décentralisé par gradient est proposé pour maintenir cette rigidité tout en exécutant des commandes de mission. Les résultats sont validés par simulation. L'intérêt pratique de ce travail réside dans le choix des mesures angulaires plutôt que des distances ou des orientations absolues : les angles entre vecteurs de direction peuvent être extraits directement depuis des caméras embarquées à bas coût, sans capteur de distance actif ni accès GPS. Pour les intégrateurs de systèmes multi-robots, notamment en essaims de drones ou en robotique entrepôt avec coordination décentralisée, la robustesse sous topologies commutantes est critique, car les lignes de vue entre agents changent constamment. Le contrôleur proposé adresse ce problème en maintenant activement une configuration spatiale suffisamment rigide pour garantir l'observabilité du réseau, ce qui évite les dégradations silencieuses de localisation que l'on observe dans les déploiements réels. C'est une avancée sur le problème dit du "rigidity maintenance", encore peu traité dans la littérature avec des garanties formelles en 3D. La rigidité de réseau comme fondation pour la localisation distribuée est un domaine actif depuis les travaux fondateurs sur la formation control et les frameworks d'Henneberg dans les années 2010. Les approches concurrentes incluent la localisation par distances (nécessitant UWB ou radar), par bearings seuls (plus sensible aux ambiguïtés), ou par fusion IMU/SLAM embarqué par robot, chacune avec ses propres hypothèses de connectivité et de coût matériel. Ce papier se positionne dans le créneau "caméra seule, pas de métadonnées globales", pertinent pour les petits drones ou les robots à budget capteur contraint. Aucun déploiement ni partenaire industriel n'est mentionné, il s'agit d'une contribution académique pure. Les suites naturelles incluraient une validation sur plateforme physique (type Crazyflie ou quadrupèdes en formation) et l'extension aux perturbations de mesures bruitées en environnement non contrôlé.

RecherchePaper
1 source