HumanoïdesarXiv cs.RO 3 juin 2026

Transfert de style de mouvement humain pour le contrôle physique de robots humanoïdes

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Un groupe de chercheurs présente dans un preprint arXiv (2606.03536, soumis le 3 juin 2026) un framework de transfert de style de mouvement pour robots humanoïdes. Le système prend en entrée un court clip humain illustrant un style moteur désiré (rythme de marche, balancement des bras, posture) et un mouvement cible distinct, puis génère un mouvement corps entier stylisé adapté au robot. Le modèle central est un modèle de diffusion latente multi-condition, sensible à la physique, fusionnant conditions de style, de contenu et de trajectoire. La guidance classifier-free permet d'ajuster l'intensité du style sans réentraîner le modèle. Les références générées sont ensuite converties pour le robot Unitree G1 et exécutées par une politique de suivi corps entier entraînée via une stratégie "cluster-and-distill". Sur 125 essais sur robot réel, la méthode atteint un taux de réussite de 96,0 %, avec moins d'artefacts de contact et de jitter que les baselines orientées animation.

Ce résultat remet en question le paradigme dominant où chaque comportement expressif d'un humanoïde est soit capturé en démonstration directe, soit scripté manuellement, deux approches coûteuses et non réutilisables entre contenus de mouvement différents. En permettant à un court clip humain de servir de source de style transférable sur des contenus arbitraires, le framework ouvre la voie à une personnalisation motrice procédurale. L'écart simulation-hardware est adressé directement par des régularisations de cohérence de contact et de lissage temporel imposées lors de l'entraînement, un point de friction récurrent dans la chaîne génération-contrôle. Un taux de 96 % sur 125 essais réels représente un résultat solide pour de la recherche académique dans ce domaine, où beaucoup de travaux restent confinés à la simulation.

Le Unitree G1 (environ 16 000 dollars) s'est imposé ces 18 derniers mois comme la plateforme de référence pour la recherche humanoïde académique. Ces travaux s'inscrivent dans la tendance des modèles de diffusion appliqués à la génération de mouvement (MDM, MotionDiffuse), prolongée ici jusqu'au contrôle physique sur hardware réel. Dans la course à l'expression motrice des humanoïdes, Boston Dynamics (Atlas), Figure et 1X investissent massivement côté imitation learning et VLA end-to-end, tandis que ce preprint se positionne sur la génération procédurale contrôlée, approche complémentaire. Du côté européen, Wandercraft et Enchanted Tools (France, robot Mirokaï) travaillent sur des problématiques d'expression motrice proches, sur des architectures distinctes. La suite logique serait l'intégration de ce framework dans des pipelines de téléopération ou d'interfaces humain-robot en conditions industrielles réelles.

Impact France/UE

Wandercraft et Enchanted Tools (France) travaillent sur des problématiques d'expression motrice similaires et pourraient s'inspirer de cette approche de transfert de style procédural sur hardware réel.

Dans nos dossiers

Boston Dynamics Unitree Wandercraft Enchanted Tools — Mirokaï

À lire aussi

1arXiv cs.RO

PressMimic : capture et contrôle de mouvement guidés par pression pour l'imitation par robot humanoïde

Des chercheurs ont publié le 26 juin 2026 sur arXiv (2606.26741) un framework baptisé PressMimic, conçu pour améliorer l'imitation de mouvements humains par les robots humanoïdes en intégrant la pression plantaire comme modalité de perception et de contrôle. Le pipeline combine trois briques : FRAPPE++, un modèle multimodal fusionnant RGB et données de pression pour estimer la pose 3D et la trajectoire globale d'un humain ; une politique d'apprentissage par renforcement supervisée par pression (PSP, Pressure-Supervised Policy) pour la reproduction sur le robot ; et MotionPRO, un jeu de données à grande échelle avec captures RGB, pression et motion capture synchronisées. Les résultats expérimentaux montrent des gains sur l'estimation de mouvement, la cohérence de trajectoire et la stabilité d'exécution, sans que les chiffres précis ne soient détaillés dans l'abstract, ils figurent dans l'article complet. Ce travail s'attaque à un problème concret et bien documenté en robotique humanoïde : les pipelines actuels reposant uniquement sur la vision produisent des artefacts physiquement incohérents, glissement des pieds, pénétration du sol, comportements instables à l'appui. En introduisant la pression comme signal d'ancrage physique (physical grounding), PressMimic impose des contraintes de contact explicites à la fois en perception et en contrôle, ce qui réduit l'ambiguïté inhérente à la seule estimation visuelle. Pour les équipes travaillant sur le sim-to-real et sur les politiques de locomotion, c'est un argument en faveur d'architectures multimodales intégrant des capteurs de force ou de pression dès la capture de données, pas seulement à l'exécution. L'imitation de mouvement humanoïde est un champ très actif : Boston Dynamics, Figure AI, Agility Robotics et des laboratoires académiques comme Stanford et CMU explorent des approches VLA (Vision-Language-Action) et RL pour la manipulation et la locomotion. PressMimic se distingue en ciblant explicitement la cohérence des contacts plutôt que la précision gestuelle seule, un angle complémentaire aux travaux sur les politiques diffuses (Pi-0 de Physical Intelligence) ou les politiques génératives. Il reste à ce stade une contribution de recherche académique sans déploiement industriel annoncé ; la publication du dataset MotionPRO pourrait néanmoins accélérer la reproductibilité et l'adoption par d'autres équipes.

HumanoïdesPaper

1 source

2arXiv cs.RO

PhyGile : génération de mouvements guidée par préfixe physique pour le suivi agile d'humanoïdes généralistes

Une équipe de chercheurs a publié PhyGile (arXiv:2603.19305v2), un framework unifié visant à combler le fossé entre la génération de mouvements en texte naturel et l'exécution physiquement réaliste sur robots humanoïdes réels. Le problème central que ce travail adresse est connu dans le secteur sous le nom de "reality gap" : les modèles text-to-motion existants sont entraînés sur des captures de mouvement humain, ce qui leur confère des priors biomécaniques incompatibles avec les robots (distribution de masse, stratégies de contact, actuation). Résultat : les trajectoires générées paraissent géométriquement correctes (limites articulaires respectées, continuité de pose), mais violent la faisabilité physique dès qu'on tente de les exécuter. PhyGile génère directement des mouvements natifs-robot dans un espace squelettique à 262 dimensions, guidé par des "physics prefixes" calculés à l'inférence, éliminant ainsi l'étape de retargeting et ses artefacts. Le contrôleur General Motion Tracking (GMT) est d'abord entraîné avec un schéma curriculum à mixture-of-experts, puis affiné sur des données de mouvement non étiquetées pour améliorer la robustesse, avant une phase d'adaptation fine guidée par les préfixes physiques. Des expériences offline et sur robots réels valident l'approche sur des mouvements agiles et à haute dynamique dépassant la marche ou les locomotions lentes habituellement testées. Sur le plan de l'impact sectoriel, ce papier s'attaque à l'un des problèmes les plus résistants de la commande humanoïde : le sim-to-real pour des mouvements expressifs et agiles, pas seulement pour la marche stable. La démonstration sur robots réels (et pas uniquement en simulation) est notable, même si les vidéos sélectionnées restent une métrique partielle et difficile à généraliser sans benchmarks standardisés. Pour les intégrateurs et les équipes R&D, l'approche mixture-of-experts combinée à une adaptation post-entraînement sur données non étiquetées représente une voie pragmatique pour étendre la couverture de mouvement sans collecter massivement de nouvelles données étiquetées. Ce travail s'inscrit dans un contexte de compétition intense autour du contrôle locomoteur humanoïde. Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi-0), NVIDIA (GR00T N2) et Agility Robotics travaillent tous sur des pipelines VLA (Vision-Language-Action) ou text-to-motion à large échelle. PhyGile se distingue en ciblant explicitement les mouvements agiles entiers du corps, là où la plupart des travaux récents se concentrent sur la manipulation ou la locomotion basique. Le papier étant une révision arXiv (v2), il n'y a pas encore d'annonce de déploiement industriel ni de partenariat commercial associé.

HumanoïdesOpinion

1 source

3arXiv cs.RO

Suivi corporel intégral contraint pour robots humanoïdes

Des chercheurs ont publié sur arXiv (2606.00374) un framework de contrôle baptisé ConstrainedMimic, conçu pour imposer des contraintes de sécurité en temps réel sur des robots humanoïdes pilotés par apprentissage par renforcement. La démonstration s'appuie sur un Unitree G1 simulé : le système fait tourner la politique de suivi de mouvement whole-body à 300-500 Hz, indifféremment sur CPU, GPU ou TPU, tout en garantissant simultanément l'évitement de collisions (auto-collisions et obstacles externes), le respect des butées articulaires et la stabilité du centre de masse. Les expériences couvrent le suivi de mouvements cinématiques référencés et la téléopération. Le code sera libéré à la publication. L'enjeu sous-jacent est structurant pour l'industrialisation des humanoïdes : les politiques RL apprennent des comportements agiles mais ne savent pas, par défaut, respecter des contraintes ajoutées après entraînement, ce qui bloque le déploiement dans des environnements où les exigences de sécurité évoluent (cellule de travail reconfigurée, proximité opérateur, certification CE). ConstrainedMimic répond à ce problème en combinant deux outils de contrôle classiques, le contrôle en espace opérationnel (OSC) et les control barrier functions (CBF), pour projeter la commande du réseau de neurones dans un espace faisable respectant les contraintes actives. La méthode est entièrement différentiable et n'altère la politique que le strict minimum lorsqu'une contrainte entre en jeu, ce qui la distingue des approches d'override brutales. C'est un pas vers la séparation propre entre performance et sécurité dans les pipelines RL pour humanoïdes. Le sujet s'inscrit dans une course active à la robustesse des politiques whole-body : Figure (Figure 02/03), Boston Dynamics (Atlas), Agility Robotics (Digit) et Unitree investissent massivement en RL locomotion, mais la question des garanties formelles reste un angle mort industriel. Les CBF sont bien établies en robotique mobile (AMR, véhicules autonomes) mais leur intégration dans des politiques RL pour humanoïdes à haute dimension cinématique est encore exploratoire. À noter : l'évaluation reste entièrement en simulation, ce qui laisse ouverte la question du sim-to-real gap sur les contraintes dynamiques, un point que les auteurs n'adressent pas dans cet abstract. La publication du code facilitera la reproductibilité et pourrait accélérer l'adoption dans des labos comme le DLR, l'INRIA ou des intégrateurs industriels européens travaillant sur la certification de robots collaboratifs.

UELa publication du code pourrait permettre à des laboratoires européens comme l'INRIA ou le DLR d'intégrer des garanties formelles de sécurité dans leurs pipelines RL pour humanoïdes, facilitant la certification CE de robots collaboratifs en environnement industriel partagé.

HumanoïdesPaper

1 source

4arXiv cs.RO

Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes

Une équipe de recherche a publié le 3 juin 2026 sur arXiv (référence 2606.03476) un framework baptisé Human2Humanoid, conçu pour transférer automatiquement des mouvements humains vers des robots humanoïdes sans nécessiter de données d'entraînement appariées. La méthode, entièrement non supervisée, a été validée sur le robot Unitree G1, un humanoïde à 23 degrés de liberté commercialisé par la société chinoise Unitree Robotics. L'architecture repose sur un réseau adversarial de type CycleGAN couplé à un réseau de convolution sur graphes sensible à la topologie squelettique, permettant de capturer les caractéristiques motrices dépendantes de la structure anatomique. Pour compenser les écarts de proportions entre morphologies humaine et robotique, les auteurs introduisent une fonction de perte dite "morphology-invariant end-effector consistency" qui aligne les trajectoires normalisées des effecteurs terminaux (mains et pieds) afin de préserver la sémantique du mouvement d'un corps à l'autre. Des contraintes de faisabilité physique explicites sont également imposées pour reproduire les patterns de contact de la séquence source et limiter les artefacts cinématiques. Ce travail s'attaque à un goulot d'étranglement majeur du secteur humanoïde : le retargeting de mouvement est fondamental pour le télé-opération, l'apprentissage par imitation et l'interaction homme-robot, mais les approches supervisées exigent des corpus de données appariées humain-robot quasi inexistants à grande échelle. En supprimant cette contrainte, Human2Humanoid ouvre la voie à l'exploitation de bibliothèques de capture de mouvement (mocap) existantes sans phase de labellisation. Les résultats expérimentaux indiquent que la méthode surpasse les approches concurrentes sur deux critères clés : contrôlabilité en aval (la politique apprise est plus exploitable pour des tâches réelles) et faisabilité physique (moins de violations de contraintes, meilleure reproductibilité des contacts). C'est un signal positif dans un contexte où le fossé démo-réalité reste la critique récurrente du secteur. Le retargeting de mouvement humain vers robot est un champ de recherche actif depuis plusieurs années, alimenté par la course aux humanoïdes commerciaux. Unitree, positionné comme fournisseur de plateformes matérielles accessibles face à Boston Dynamics, Figure AI (modèle Figure 03), Tesla (Optimus Gen 3) ou Agility Robotics, bénéficie directement de ce type de contribution académique qui enrichit l'écosystème logiciel autour de son G1. Du côté des méthodes concurrentes, on trouve notamment des approches à base de réseaux de retargeting supervisés ou de politiques d'imitation directe comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Human2Humanoid n'est pas encore un produit déployé : c'est une contribution de recherche fondamentale, sans annonce de pilote industriel associée. Les prochaines étapes naturelles seraient une validation sur d'autres plateformes humanoïdes et une intégration dans des pipelines d'apprentissage par renforcement ou d'imitation à grande échelle.

IA physiquePaper

1 source