Aller au contenu principal
Rhythm : apprentissage du contrôle interactif corps entier pour deux robots humanoïdes
RecherchearXiv cs.RO7sem

Rhythm : apprentissage du contrôle interactif corps entier pour deux robots humanoïdes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en mars 2026 sur arXiv un framework baptisé Rhythm, conçu pour piloter simultanément deux robots humanoïdes Unitree G1 en interaction physique directe. Le système repose sur trois composants : un module IAMR (Interaction-Aware Motion Retargeting) qui génère des références de mouvement réalistes à partir de captures de données humaines, une politique d'apprentissage par renforcement IGRL (Interaction-Guided Reinforcement Learning) qui modélise les dynamiques de contact couplées via des récompenses basées sur des graphes, et un pipeline de transfert sim-to-real permettant de déployer ces comportements sur robots physiques. Les comportements validés incluent l'accolade et la danse synchronisée entre deux G1, transférés de simulation vers le monde réel. Il s'agit d'un travail académique, pas d'un produit commercialisé.

L'intérêt technique est dans la résolution du problème de contact couplé multi-corps : quand deux humanoïdes se touchent, les efforts mécaniques se propagent en boucle entre les deux chaînes cinématiques, rendant le contrôle instable. Rhythm aborde ce problème par des récompenses graph-based qui capturent explicitement l'interaction entre les deux agents, plutôt que de traiter chaque robot indépendamment. Pour un intégrateur ou un ingénieur robotique, c'est une validation que le sim-to-real fonctionne même pour des dynamiques de contact bilatérales, un verrou qui bloquait la plupart des approches multi-robots à manipulation physique. Cela ouvre la voie à des tâches collaboratives exigeant une coordination fine, comme le port de charges lourdes à deux, le transfert d'objets ou l'assemblage bimanuel étendu.

Le robot Unitree G1 est une plateforme commerciale accessible (environ 16 000 dollars), ce qui donne à ces résultats une reproductibilité supérieure aux travaux sur robots propriétaires. Dans la course aux humanoïdes, les acteurs comme Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) et Boston Dynamics se concentrent sur des déploiements unitaires en environnement industriel ; la coordination physique entre deux humanoïdes reste un espace peu exploré commercialement. Rhythm ne s'inscrit pas encore dans une roadmap produit annoncée, mais la disponibilité du code sur arXiv et le choix du G1 suggèrent une communauté de recherche qui converge vers la standardisation des plateformes, préfigurant des pilotes industriels à horizon 18-36 mois.

À lire aussi

ZeroWBC : apprentissage de l'interaction naturelle corps entier pour humanoïdes à partir de données égocentrées humaines
1arXiv cs.RO 

ZeroWBC : apprentissage de l'interaction naturelle corps entier pour humanoïdes à partir de données égocentrées humaines

Une équipe de recherche a publié sur arXiv (référence 2603.09170v2) ZeroWBC, un cadre d'apprentissage du contrôle corporel complet pour robots humanoïdes qui se passe entièrement de données de télé-opération. Le système apprend à partir de vidéos égocentrées humaines -- c'est-à-dire filmées du point de vue d'un opérateur -- associées à des annotations de mouvement corps-entier et de texte. Concrètement, une image initiale prise en vue subjective est combinée à une instruction en langage naturel ; un modèle vision-langage (VLM) affiné génère alors des tokens de mouvement humain futur, qui sont décodés en trajectoires continues et retargetés vers le robot humanoïde. Ces mouvements de référence, accompagnés des trajectoires de la racine et des parties clés du corps, alimentent ensuite une politique de suivi de mouvement interactif. Les expériences ont été conduites sur le robot Unitree G1, un humanoïde compact commercialisé à environ 16 000 dollars. L'apport central de ZeroWBC réside dans l'élimination du coût de collecte des données de télé-opération, traditionnellement un verrou majeur pour l'apprentissage du contrôle corps-entier à grande échelle. En exploitant le stock immense de vidéos humaines égocentrées déjà disponibles, la méthode ouvre un paradigme de scalabilité que les approches par démonstration robotique directe ne peuvent pas égaler facilement. L'introduction d'une récompense de suivi orientée interaction -- qui priorise l'alignement global des trajectoires tout en préservant la naturalité du mouvement -- tente de combler le gap entre génération de gestes plausibles et exécution physiquement cohérente. C'est un résultat de recherche académique, pas un produit déployé en production : les vidéos présentées montrent des comportements variés en scène statique, mais les conditions réelles d'un environnement industriel dynamique n'ont pas été testées. ZeroWBC s'inscrit dans un courant plus large de méthodes "zéro-démonstration robot" qui cherchent à transférer la richesse des données humaines vers des systèmes incarnés, à l'instar des travaux sur les politiques visuomotrices à base de VLA (Vision-Language-Action). Sur le terrain concurrent, des approches comme ACT, UMI ou les pipelines de diffusion de Physical Intelligence (Pi-0) misent encore largement sur la télé-opération directe ou les données simulées. Unitree, constructeur chinois dont le G1 est l'une des plateformes humanoïdes les plus accessibles du marché, bénéficie ici d'une visibilité croissante comme banc d'essai académique de référence. Les prochaines étapes naturelles seraient d'étendre ZeroWBC à des scènes dynamiques, de tester la robustesse en dehors du labo, et d'évaluer si le sim-to-real tient face à la variabilité réelle des interactions objet-robot.

RechercheOpinion
1 source
RGB : MPPI corps entier pour humanoïdes guidé par apprentissage par renforcement
2arXiv cs.RO 

RGB : MPPI corps entier pour humanoïdes guidé par apprentissage par renforcement

Une équipe de recherche a publié sur arXiv (référence 2606.25123) une architecture de contrôle hybride baptisée RGB, pour "RL Guided whole-body MPPI", destinée aux robots humanoïdes évoluant dans des environnements à contacts complexes. Le framework a été évalué en simulation MuJoCo sur un Unitree G1 à 29 degrés de liberté, avec une fréquence de contrôle moyenne de 280 Hz. Le principe : au lieu d'utiliser une politique d'apprentissage par renforcement (RL) comme contrôleur final, RGB l'emploie comme prior d'échantillonnage pour guider les rollouts d'un algorithme MPPI (Model Predictive Path Integral). Les objectifs de tâche sont définis via des termes de coût modulaires MPPI, qui corrigent en ligne la politique RL pour satisfaire ces objectifs sans nécessiter de réentraînement. Les tests montrent une réduction de la dérive systématique en marche rectiligne et une meilleure capacité à suivre des signaux de référence corps entier supplémentaires, comparé à une politique RL pure sous la même interface de commande. L'intérêt industriel de cette approche réside dans la rigidité structurelle des politiques RL actuelles : une fois entraînée, une politique couple fortement son comportement à l'objectif d'entraînement et à l'interface de commande. Ajouter un nouvel objectif de feedback (correction de trajectoire, contrainte de contact, suivi d'un membre spécifique) exige généralement un réentraînement complet, coûteux et long. RGB court-circuite cette contrainte en déléguant la précision et la modularité au MPPI, qui opère en boucle fermée à haute fréquence. Pour un intégrateur industriel ou un COO qui doit adapter un humanoïde à plusieurs lignes de production, la possibilité de spécifier de nouveaux comportements via des termes de coût, sans retouch au modèle RL sous-jacent, représente un gain de flexibilité concret. La fréquence de 280 Hz en simulation est encourageante, mais les auteurs ne démontrent pas encore le transfert sim-to-real, ce qui reste le saut critique pour toute validation industrielle. Le cadre MPPI est une technique de contrôle prédictif par échantillonnage bien établie en robotique mobile et manipulation, mais son couplage avec une politique RL comme prior pour les humanoïdes corps entier est une direction récente. Unitree, dont le G1 est devenu une plateforme de recherche courante grâce à son accessibilité commerciale (autour de 16 000 dollars), est au coeur de nombreux travaux académiques concurrents, notamment autour des architectures VLA (Vision-Language-Action) de type GR00T N2 de NVIDIA ou Pi-0 de Physical Intelligence. RGB se positionne dans un créneau distinct : il ne vise pas la généralisation via des données de démonstration, mais l'optimisation en ligne de politiques existantes. La prochaine étape logique sera une validation sur hardware réel, déterminante pour établir si les 280 Hz de simulation se maintiennent face aux incertitudes mécaniques et aux latences capteurs d'un vrai G1.

RecherchePaper
1 source
Apprentissage du contrôle multimodal du corps entier pour robots humanoïdes réels
3arXiv cs.RO 

Apprentissage du contrôle multimodal du corps entier pour robots humanoïdes réels

Des chercheurs en robotique ont publié sur arXiv une avancée notable dans le contrôle des robots humanoïdes, présentant le Masked Humanoid Controller (MHC), un système d'apprentissage automatique capable de piloter l'ensemble du corps d'un robot à partir d'une interface unifiée. Concrètement, le MHC reçoit des commandes sous forme de trajectoires partiellement spécifiées, seules certaines parties du corps sont ciblées à la fois, et les exécute en maintenant l'équilibre général de la machine. Le système a été validé sur le robot humanoïde réel Digit V3 du fabricant Agility Robotics, démontrant que les comportements appris en simulation se transfèrent effectivement au monde physique. Ce qui distingue le MHC, c'est sa capacité à traiter des entrées radicalement différentes avec un seul contrôleur : séquences de pas planifiées par un algorithme d'optimisation, clips de capture de mouvement humain, vidéos retransposées sur le robot, ou signaux de téléopération en temps réel via joystick. Jusqu'ici, chacun de ces modes nécessitait généralement un pipeline dédié. Cette unification simplifie considérablement l'architecture des systèmes robotiques et ouvre la voie à des robots capables de recevoir des instructions hybrides, par exemple suivre une trajectoire planifiée tout en imitant simultanément des gestes captés sur une vidéo. Le problème du contrôle corps entier est l'un des verrous majeurs de la robotique humanoïde commerciale, alors que des acteurs comme Boston Dynamics, Figure AI ou Tesla Optimus investissent massivement dans ce secteur. La tendance actuelle consiste à entraîner des contrôleurs en simulation, moins coûteux et plus sûr, puis à les transférer sur du matériel réel, une approche que le MHC illustre avec le Digit V3. L'utilisation d'un curriculum d'entraînement couvrant l'ensemble des modalités d'entrée est la clé qui permet cette polyvalence sans sacrifier la robustesse. Les prochaines étapes logiques concerneront l'intégration de modèles de langage comme interface de haut niveau, permettant à terme de donner des instructions verbales à un humanoïde qui les traduirait en commandes motrices complexes.

AutreActu
1 source
Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes
4arXiv cs.RO 

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes

Une équipe de chercheurs a publié sur arXiv (référence 2605.31343, mai 2026) un framework baptisé TA-WBC (Terrain-Aware Whole-Body Control) destiné aux manipulateurs à pattes, c'est-à-dire des robots combinant membres locomoteurs (quadrupèdes ou bipèdes) et bras articulés. Le coeur du système est une politique unifiée entraînée par apprentissage par renforcement (RL) qui pilote simultanément les jambes et le bras lors de tâches de loco-manipulation, terme désignant la capacité à se déplacer et manipuler des objets en même temps. L'architecture repose sur trois briques techniques : un encodeur d'extéroception hybride qui extrait en temps réel les caractéristiques du terrain, une méthode d'échantillonnage de l'effecteur final ancrée sur le plan de contact des pieds pour découpler la cible de manipulation des oscillations du torse, et un module de distillation à double politique pour intégrer motricité étendue et adaptabilité sans effacement catastrophique des compétences acquises. Les expériences en simulation et en environnement réel montrent une zone atteignable agrandie, une erreur de tracking réduite et moins de trébuchements imprévus. Ce travail s'attaque à une limitation structurelle des contrôleurs corps entier existants : leur dépendance quasi exclusive à la proprioception (capteurs internes, IMU, encodeurs) au détriment de l'extéroception (perception externe du terrain). En milieux industriels complexes comme les chantiers, les entrepôts en hauteur variable ou les sites nucléaires, cette lacune rend les plateformes mobiles-manipulatrices peu fiables dès que le sol n'est plus plan. Le découplage effecteur/torse est particulièrement notable pour les intégrateurs : il signifie que le bras peut maintenir une trajectoire stable même quand le corps compense une marche irrégulière, ce qui est un prérequis non négociable pour tout assemblage ou saisie de précision en terrain dégradé. La validation sim-to-real, même partielle, renforce la crédibilité d'une approche qui reste à ce stade un preprint non commercialisé. Les manipulateurs à pattes constituent une catégorie en pleine structuration. Boston Dynamics commercialise Spot avec bras depuis 2021, Unitree propose le B2W équipé d'un bras, et plusieurs laboratoires académiques majeurs (ETH Zurich, CMU, Berkeley) publient régulièrement sur la loco-manipulation. Le verrou que TA-WBC cherche à lever, la perception de topologie de terrain couplée au contrôle corps entier, est précisément ce qui freine le déploiement de ces plateformes au-delà des environnements structurés. Ce preprint n'annonce pas de produit ni de partenaire industriel ; il pose néanmoins une brique algorithmique que des acteurs comme Agility Robotics, Apptronik ou les équipes robotique de Google DeepMind pourraient intégrer dans leurs chaînes d'entraînement.

UETravail de recherche applicable aux déploiements industriels en environnements dégradés (sites nucléaires, entrepôts à topologie variable) présents en Europe, mais sans implication directe d'acteurs français ou européens.

RecherchePaper
1 source