Aller au contenu principal
Avant que le corps ne bouge : apprentissage de l'intention articulaire anticipatoire pour le contrôle d'humanoïdes guidé par le langage
RecherchearXiv cs.RO6sem

Avant que le corps ne bouge : apprentissage de l'intention articulaire anticipatoire pour le contrôle d'humanoïdes guidé par le langage

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a déposé le 14 mai 2026 sur arXiv (arXiv:2605.14417) un framework hiérarchique nommé DAJI (Dynamics-Aligned Joint Intent), destiné au contrôle en continu du corps entier d'humanoïdes via des instructions en langage naturel. L'architecture repose sur deux modules distincts : DAJI-Act, une politique d'action par diffusion déployable, entraînée en distillant un modèle "teacher" conscient du futur via des rollouts guidés par un modèle étudiant ; et DAJI-Flow, qui génère de façon autorégressive des blocs d'"intentions articulaires" futures à partir d'une instruction linguistique et de l'historique d'intentions. Sur le benchmark HumanML3D, DAJI atteint 94,42 % de taux de succès en génération de séquences. Sur BABEL, le framework obtient un FID de sous-séquence de 0,152, une métrique de fidélité cinématique.

Le problème que DAJI cherche à résoudre est central dans la commande des humanoïdes : les approches existantes génèrent des références cinématiques que le contrôleur bas niveau doit corriger de manière réactive, ce qui introduit des délais et des instabilités lors des transitions de support (transferts d'appui, changements de contact). DAJI propose à la place une interface d'"intention articulaire anticipatoire" qui encode explicitement les futures transitions de contact, les transferts de poids et les préparations à l'équilibre avant que le corps ne les exécute. Pour les intégrateurs de robots humanoïdes, c'est une piste sérieuse pour réduire le reality gap simulation-déploiement, puisque le pipeline diffusion + anticipation est conçu pour être réellement embarqué, pas seulement simulé. Cela valide aussi l'hypothèse qu'une représentation explicite et interprétable de l'intention mécanique future peut coexister avec un pilotage par langage naturel en streaming.

Ce travail s'inscrit dans une compétition académique et industrielle dense sur le contrôle des humanoïdes conditionné par le langage. Des approches comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques VLA de Figure explorent des territoires proches, mais privilégient souvent des représentations latentes dont les sorties n'encodent pas explicitement l'état mécanique futur. DAJI se distingue en faisant de l'"intent" une variable interprétable et structurée. Il faut néanmoins noter que les résultats sont obtenus exclusivement sur des benchmarks de génération de mouvements (HumanML3D, BABEL) et non sur robot physique : il s'agit d'une preuve de concept académique, pas d'un système déployé. La validation sur plateforme réelle, sur un Unitree G1, un Agility Digit ou équivalent, reste la prochaine étape non annoncée.

À lire aussi

Rhythm : apprentissage du contrôle interactif corps entier pour deux robots humanoïdes
1arXiv cs.RO 

Rhythm : apprentissage du contrôle interactif corps entier pour deux robots humanoïdes

Des chercheurs ont publié en mars 2026 sur arXiv un framework baptisé Rhythm, conçu pour piloter simultanément deux robots humanoïdes Unitree G1 en interaction physique directe. Le système repose sur trois composants : un module IAMR (Interaction-Aware Motion Retargeting) qui génère des références de mouvement réalistes à partir de captures de données humaines, une politique d'apprentissage par renforcement IGRL (Interaction-Guided Reinforcement Learning) qui modélise les dynamiques de contact couplées via des récompenses basées sur des graphes, et un pipeline de transfert sim-to-real permettant de déployer ces comportements sur robots physiques. Les comportements validés incluent l'accolade et la danse synchronisée entre deux G1, transférés de simulation vers le monde réel. Il s'agit d'un travail académique, pas d'un produit commercialisé. L'intérêt technique est dans la résolution du problème de contact couplé multi-corps : quand deux humanoïdes se touchent, les efforts mécaniques se propagent en boucle entre les deux chaînes cinématiques, rendant le contrôle instable. Rhythm aborde ce problème par des récompenses graph-based qui capturent explicitement l'interaction entre les deux agents, plutôt que de traiter chaque robot indépendamment. Pour un intégrateur ou un ingénieur robotique, c'est une validation que le sim-to-real fonctionne même pour des dynamiques de contact bilatérales, un verrou qui bloquait la plupart des approches multi-robots à manipulation physique. Cela ouvre la voie à des tâches collaboratives exigeant une coordination fine, comme le port de charges lourdes à deux, le transfert d'objets ou l'assemblage bimanuel étendu. Le robot Unitree G1 est une plateforme commerciale accessible (environ 16 000 dollars), ce qui donne à ces résultats une reproductibilité supérieure aux travaux sur robots propriétaires. Dans la course aux humanoïdes, les acteurs comme Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) et Boston Dynamics se concentrent sur des déploiements unitaires en environnement industriel ; la coordination physique entre deux humanoïdes reste un espace peu exploré commercialement. Rhythm ne s'inscrit pas encore dans une roadmap produit annoncée, mais la disponibilité du code sur arXiv et le choix du G1 suggèrent une communauté de recherche qui converge vers la standardisation des plateformes, préfigurant des pilotes industriels à horizon 18-36 mois.

RecherchePaper
1 source
RGB : MPPI corps entier pour humanoïdes guidé par apprentissage par renforcement
2arXiv cs.RO 

RGB : MPPI corps entier pour humanoïdes guidé par apprentissage par renforcement

Une équipe de recherche a publié sur arXiv (référence 2606.25123) une architecture de contrôle hybride baptisée RGB, pour "RL Guided whole-body MPPI", destinée aux robots humanoïdes évoluant dans des environnements à contacts complexes. Le framework a été évalué en simulation MuJoCo sur un Unitree G1 à 29 degrés de liberté, avec une fréquence de contrôle moyenne de 280 Hz. Le principe : au lieu d'utiliser une politique d'apprentissage par renforcement (RL) comme contrôleur final, RGB l'emploie comme prior d'échantillonnage pour guider les rollouts d'un algorithme MPPI (Model Predictive Path Integral). Les objectifs de tâche sont définis via des termes de coût modulaires MPPI, qui corrigent en ligne la politique RL pour satisfaire ces objectifs sans nécessiter de réentraînement. Les tests montrent une réduction de la dérive systématique en marche rectiligne et une meilleure capacité à suivre des signaux de référence corps entier supplémentaires, comparé à une politique RL pure sous la même interface de commande. L'intérêt industriel de cette approche réside dans la rigidité structurelle des politiques RL actuelles : une fois entraînée, une politique couple fortement son comportement à l'objectif d'entraînement et à l'interface de commande. Ajouter un nouvel objectif de feedback (correction de trajectoire, contrainte de contact, suivi d'un membre spécifique) exige généralement un réentraînement complet, coûteux et long. RGB court-circuite cette contrainte en déléguant la précision et la modularité au MPPI, qui opère en boucle fermée à haute fréquence. Pour un intégrateur industriel ou un COO qui doit adapter un humanoïde à plusieurs lignes de production, la possibilité de spécifier de nouveaux comportements via des termes de coût, sans retouch au modèle RL sous-jacent, représente un gain de flexibilité concret. La fréquence de 280 Hz en simulation est encourageante, mais les auteurs ne démontrent pas encore le transfert sim-to-real, ce qui reste le saut critique pour toute validation industrielle. Le cadre MPPI est une technique de contrôle prédictif par échantillonnage bien établie en robotique mobile et manipulation, mais son couplage avec une politique RL comme prior pour les humanoïdes corps entier est une direction récente. Unitree, dont le G1 est devenu une plateforme de recherche courante grâce à son accessibilité commerciale (autour de 16 000 dollars), est au coeur de nombreux travaux académiques concurrents, notamment autour des architectures VLA (Vision-Language-Action) de type GR00T N2 de NVIDIA ou Pi-0 de Physical Intelligence. RGB se positionne dans un créneau distinct : il ne vise pas la généralisation via des données de démonstration, mais l'optimisation en ligne de politiques existantes. La prochaine étape logique sera une validation sur hardware réel, déterminante pour établir si les 280 Hz de simulation se maintiennent face aux incertitudes mécaniques et aux latences capteurs d'un vrai G1.

RecherchePaper
1 source
ZeroWBC : apprentissage de l'interaction naturelle corps entier pour humanoïdes à partir de données égocentrées humaines
3arXiv cs.RO 

ZeroWBC : apprentissage de l'interaction naturelle corps entier pour humanoïdes à partir de données égocentrées humaines

Une équipe de recherche a publié sur arXiv (référence 2603.09170v2) ZeroWBC, un cadre d'apprentissage du contrôle corporel complet pour robots humanoïdes qui se passe entièrement de données de télé-opération. Le système apprend à partir de vidéos égocentrées humaines -- c'est-à-dire filmées du point de vue d'un opérateur -- associées à des annotations de mouvement corps-entier et de texte. Concrètement, une image initiale prise en vue subjective est combinée à une instruction en langage naturel ; un modèle vision-langage (VLM) affiné génère alors des tokens de mouvement humain futur, qui sont décodés en trajectoires continues et retargetés vers le robot humanoïde. Ces mouvements de référence, accompagnés des trajectoires de la racine et des parties clés du corps, alimentent ensuite une politique de suivi de mouvement interactif. Les expériences ont été conduites sur le robot Unitree G1, un humanoïde compact commercialisé à environ 16 000 dollars. L'apport central de ZeroWBC réside dans l'élimination du coût de collecte des données de télé-opération, traditionnellement un verrou majeur pour l'apprentissage du contrôle corps-entier à grande échelle. En exploitant le stock immense de vidéos humaines égocentrées déjà disponibles, la méthode ouvre un paradigme de scalabilité que les approches par démonstration robotique directe ne peuvent pas égaler facilement. L'introduction d'une récompense de suivi orientée interaction -- qui priorise l'alignement global des trajectoires tout en préservant la naturalité du mouvement -- tente de combler le gap entre génération de gestes plausibles et exécution physiquement cohérente. C'est un résultat de recherche académique, pas un produit déployé en production : les vidéos présentées montrent des comportements variés en scène statique, mais les conditions réelles d'un environnement industriel dynamique n'ont pas été testées. ZeroWBC s'inscrit dans un courant plus large de méthodes "zéro-démonstration robot" qui cherchent à transférer la richesse des données humaines vers des systèmes incarnés, à l'instar des travaux sur les politiques visuomotrices à base de VLA (Vision-Language-Action). Sur le terrain concurrent, des approches comme ACT, UMI ou les pipelines de diffusion de Physical Intelligence (Pi-0) misent encore largement sur la télé-opération directe ou les données simulées. Unitree, constructeur chinois dont le G1 est l'une des plateformes humanoïdes les plus accessibles du marché, bénéficie ici d'une visibilité croissante comme banc d'essai académique de référence. Les prochaines étapes naturelles seraient d'étendre ZeroWBC à des scènes dynamiques, de tester la robustesse en dehors du labo, et d'évaluer si le sim-to-real tient face à la variabilité réelle des interactions objet-robot.

RechercheOpinion
1 source
SIL : apprentissage interactif symbiotique pour la co-adaptation humain-agent guidée par le langage
4arXiv cs.RO 

SIL : apprentissage interactif symbiotique pour la co-adaptation humain-agent guidée par le langage

Des chercheurs ont publié sur arXiv (2511.05203v3) SIL (Symbiotic Interactive Learning), un framework de co-adaptation bidirectionnelle pour l'interaction humain-agent. Contrairement aux systèmes actuels où l'agent exécute passivement des commandes en langage naturel, SIL maintient un espace latent partagé dans lequel humain et agent font évoluer conjointement leurs états de croyance (belief states) au fil des échanges. L'architecture repose sur des foundation models pour la perception spatiale et le raisonnement, un encodeur neuronal entraîné par triplet-loss qui ancre ces sorties dans des représentations spécifiques à la tâche, et des mémoires épisodique et sémantique régularisées via Elastic Weight Consolidation (EWC) pour prévenir l'oubli catastrophique. Sur des tâches simulées et réelles, suivi d'instructions, recherche d'information, raisonnement orienté requêtes et dialogue interactif, SIL atteint un taux de complétion de 90,4% et un score d'alignement de croyances ρ ≈ 0,83, soit un gain absolu d'environ 20 points de pourcentage sur les meilleures ablations. L'enjeu est conceptuellement notable : presque tous les systèmes HRI (human-robot interaction) actuels fonctionnent en mode maître-apprenti unidirectionnel, l'agent n'apprenant rien de l'opérateur en cours d'interaction. SIL propose à l'inverse une co-adaptation mutuelle permettant des clarifications proactives, des suggestions de plan adaptées et un affinement continu de la compréhension de la tâche. Pour les intégrateurs de cobots ou les décideurs industriels, cela adresse un point de friction concret : gérer l'ambiguïté opérationnelle sans sollicitations humaines répétées. La régularisation EWC répond aussi à un problème récurrent des VLA (Vision-Language-Action models) : la dégradation des performances lors du fine-tuning continu sur des tâches évolutives. Ce travail s'inscrit dans le courant d'intégration des foundation models dans la couche de contrôle robotique, aux côtés de RT-2 (Google DeepMind) et OpenVLA. La particularité de SIL réside dans sa boucle interactive bidirectionnelle plutôt que dans la seule généralisation task-to-task. Il s'agit à ce stade d'une preprint arXiv, sans revue par les pairs confirmée ni déploiement industriel annoncé ; les résultats sur tâches "réelles" méritent un examen attentif des protocoles expérimentaux, absents du résumé disponible. Les prochaines étapes naturelles sont une soumission en conférence (CoRL, ICRA) et une éventuelle intégration dans des plateformes d'agents embarqués pilotés par LLM.

RechercheOpinion
1 source