MIND : contrôle de robot humanoïde par diffusion d'inte…

PressMimic : capture et contrôle de mouvement guidés par pression pour l'imitation par robot humanoïde

39

1arXiv cs.RO

PressMimic : capture et contrôle de mouvement guidés par pression pour l'imitation par robot humanoïde

Des chercheurs ont publié le 26 juin 2026 sur arXiv (2606.26741) un framework baptisé PressMimic, conçu pour améliorer l'imitation de mouvements humains par les robots humanoïdes en intégrant la pression plantaire comme modalité de perception et de contrôle. Le pipeline combine trois briques : FRAPPE++, un modèle multimodal fusionnant RGB et données de pression pour estimer la pose 3D et la trajectoire globale d'un humain ; une politique d'apprentissage par renforcement supervisée par pression (PSP, Pressure-Supervised Policy) pour la reproduction sur le robot ; et MotionPRO, un jeu de données à grande échelle avec captures RGB, pression et motion capture synchronisées. Les résultats expérimentaux montrent des gains sur l'estimation de mouvement, la cohérence de trajectoire et la stabilité d'exécution, sans que les chiffres précis ne soient détaillés dans l'abstract, ils figurent dans l'article complet. Ce travail s'attaque à un problème concret et bien documenté en robotique humanoïde : les pipelines actuels reposant uniquement sur la vision produisent des artefacts physiquement incohérents, glissement des pieds, pénétration du sol, comportements instables à l'appui. En introduisant la pression comme signal d'ancrage physique (physical grounding), PressMimic impose des contraintes de contact explicites à la fois en perception et en contrôle, ce qui réduit l'ambiguïté inhérente à la seule estimation visuelle. Pour les équipes travaillant sur le sim-to-real et sur les politiques de locomotion, c'est un argument en faveur d'architectures multimodales intégrant des capteurs de force ou de pression dès la capture de données, pas seulement à l'exécution. L'imitation de mouvement humanoïde est un champ très actif : Boston Dynamics, Figure AI, Agility Robotics et des laboratoires académiques comme Stanford et CMU explorent des approches VLA (Vision-Language-Action) et RL pour la manipulation et la locomotion. PressMimic se distingue en ciblant explicitement la cohérence des contacts plutôt que la précision gestuelle seule, un angle complémentaire aux travaux sur les politiques diffuses (Pi-0 de Physical Intelligence) ou les politiques génératives. Il reste à ce stade une contribution de recherche académique sans déploiement industriel annoncé ; la publication du dataset MotionPRO pourrait néanmoins accélérer la reproductibilité et l'adoption par d'autres équipes.

HumanoïdesPaper

1 source

Transfert de style de mouvement humain pour le contrôle physique de robots humanoïdes

45

2arXiv cs.RO

Transfert de style de mouvement humain pour le contrôle physique de robots humanoïdes

Un groupe de chercheurs présente dans un preprint arXiv (2606.03536, soumis le 3 juin 2026) un framework de transfert de style de mouvement pour robots humanoïdes. Le système prend en entrée un court clip humain illustrant un style moteur désiré (rythme de marche, balancement des bras, posture) et un mouvement cible distinct, puis génère un mouvement corps entier stylisé adapté au robot. Le modèle central est un modèle de diffusion latente multi-condition, sensible à la physique, fusionnant conditions de style, de contenu et de trajectoire. La guidance classifier-free permet d'ajuster l'intensité du style sans réentraîner le modèle. Les références générées sont ensuite converties pour le robot Unitree G1 et exécutées par une politique de suivi corps entier entraînée via une stratégie "cluster-and-distill". Sur 125 essais sur robot réel, la méthode atteint un taux de réussite de 96,0 %, avec moins d'artefacts de contact et de jitter que les baselines orientées animation. Ce résultat remet en question le paradigme dominant où chaque comportement expressif d'un humanoïde est soit capturé en démonstration directe, soit scripté manuellement, deux approches coûteuses et non réutilisables entre contenus de mouvement différents. En permettant à un court clip humain de servir de source de style transférable sur des contenus arbitraires, le framework ouvre la voie à une personnalisation motrice procédurale. L'écart simulation-hardware est adressé directement par des régularisations de cohérence de contact et de lissage temporel imposées lors de l'entraînement, un point de friction récurrent dans la chaîne génération-contrôle. Un taux de 96 % sur 125 essais réels représente un résultat solide pour de la recherche académique dans ce domaine, où beaucoup de travaux restent confinés à la simulation. Le Unitree G1 (environ 16 000 dollars) s'est imposé ces 18 derniers mois comme la plateforme de référence pour la recherche humanoïde académique. Ces travaux s'inscrivent dans la tendance des modèles de diffusion appliqués à la génération de mouvement (MDM, MotionDiffuse), prolongée ici jusqu'au contrôle physique sur hardware réel. Dans la course à l'expression motrice des humanoïdes, Boston Dynamics (Atlas), Figure et 1X investissent massivement côté imitation learning et VLA end-to-end, tandis que ce preprint se positionne sur la génération procédurale contrôlée, approche complémentaire. Du côté européen, Wandercraft et Enchanted Tools (France, robot Mirokaï) travaillent sur des problématiques d'expression motrice proches, sur des architectures distinctes. La suite logique serait l'intégration de ce framework dans des pipelines de téléopération ou d'interfaces humain-robot en conditions industrielles réelles.

UEWandercraft et Enchanted Tools (France) travaillent sur des problématiques d'expression motrice similaires et pourraient s'inspirer de cette approche de transfert de style procédural sur hardware réel.

HumanoïdesPaper

1 source

SceneBot : suivi corps entier d'humanoïde généraliste guidé par contacts avec l'environnement

46

3arXiv cs.RO

SceneBot : suivi corps entier d'humanoïde généraliste guidé par contacts avec l'environnement

SceneBot est un cadre de contrôle pour robots humanoïdes déposé le 29 juin 2026 sur arXiv (référence 2606.27581), dont le code et les données seront entièrement publiés en open source. Le système entraîne une politique unique de reinforcement learning sur 7,5 heures de données de mouvement annotées en contacts, reconstituées depuis la motion capture humaine. SceneBot conditionne cette politique à la fois sur des mouvements de référence et sur des étiquettes de contact par segment corporel (per-link contact labels), définissant explicitement les interactions physiques attendues avec l'environnement. Le résultat est un agent humanoïde capable d'enchaîner locomotion en espace libre, franchissement de terrain irrégulier et manipulation corps entier, illustré par une tâche de référence : porter une boîte en montant un escalier. Ce que SceneBot résout est un verrou technique bien documenté : les politiques RL de locomotion humanoïde fonctionnent bien en espace libre mais échouent dès qu'un contact physique avec un objet ou une surface irrégulière est requis, car le tracking cinématique pur ne peut pas résoudre les ambiguïtés physiques de ces situations. En introduisant le "contact conditioning" comme interface de contrôle, les chercheurs montrent que 7,5 heures de données suffisent à généraliser à des mouvements et environnements non vus à l'entraînement. Pour les intégrateurs B2B et les décideurs industriels, cela suggère qu'une politique unifiée peut couvrir navigation et manipulation sans modules spécialisés distincts, et constitue une réponse partielle au "demo-to-reality gap" qui fragilise la crédibilité des annonces humanoïdes depuis plusieurs années. La contribution technique centrale est une méthode appelée "hindsight scene reconstruction" : à partir de mouvements humains retargeted, les auteurs reconstruisent après coup les graphes d'interaction avec la scène pour inférer les contacts, évitant l'annotation manuelle qui freine habituellement la constitution de tels datasets. Ce positionnement académique a des implications directes pour les développeurs de plateformes humanoïdes confrontés au même obstacle, notamment Figure AI, Agility Robotics, Unitree et Apptronik. Aucun déploiement industriel n'est annoncé à ce stade : SceneBot est une publication de recherche dont les résultats n'ont pas encore été validés sur hardware en conditions réelles, et les métriques présentées s'appuient sur des simulations et des démonstrations sélectionnées.

HumanoïdesPaper

1 source

PhyGile : génération de mouvements guidée par préfixe physique pour le suivi agile d'humanoïdes généralistes

43

4arXiv cs.RO

PhyGile : génération de mouvements guidée par préfixe physique pour le suivi agile d'humanoïdes généralistes

Une équipe de chercheurs a publié PhyGile (arXiv:2603.19305v2), un framework unifié visant à combler le fossé entre la génération de mouvements en texte naturel et l'exécution physiquement réaliste sur robots humanoïdes réels. Le problème central que ce travail adresse est connu dans le secteur sous le nom de "reality gap" : les modèles text-to-motion existants sont entraînés sur des captures de mouvement humain, ce qui leur confère des priors biomécaniques incompatibles avec les robots (distribution de masse, stratégies de contact, actuation). Résultat : les trajectoires générées paraissent géométriquement correctes (limites articulaires respectées, continuité de pose), mais violent la faisabilité physique dès qu'on tente de les exécuter. PhyGile génère directement des mouvements natifs-robot dans un espace squelettique à 262 dimensions, guidé par des "physics prefixes" calculés à l'inférence, éliminant ainsi l'étape de retargeting et ses artefacts. Le contrôleur General Motion Tracking (GMT) est d'abord entraîné avec un schéma curriculum à mixture-of-experts, puis affiné sur des données de mouvement non étiquetées pour améliorer la robustesse, avant une phase d'adaptation fine guidée par les préfixes physiques. Des expériences offline et sur robots réels valident l'approche sur des mouvements agiles et à haute dynamique dépassant la marche ou les locomotions lentes habituellement testées. Sur le plan de l'impact sectoriel, ce papier s'attaque à l'un des problèmes les plus résistants de la commande humanoïde : le sim-to-real pour des mouvements expressifs et agiles, pas seulement pour la marche stable. La démonstration sur robots réels (et pas uniquement en simulation) est notable, même si les vidéos sélectionnées restent une métrique partielle et difficile à généraliser sans benchmarks standardisés. Pour les intégrateurs et les équipes R&D, l'approche mixture-of-experts combinée à une adaptation post-entraînement sur données non étiquetées représente une voie pragmatique pour étendre la couverture de mouvement sans collecter massivement de nouvelles données étiquetées. Ce travail s'inscrit dans un contexte de compétition intense autour du contrôle locomoteur humanoïde. Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi-0), NVIDIA (GR00T N2) et Agility Robotics travaillent tous sur des pipelines VLA (Vision-Language-Action) ou text-to-motion à large échelle. PhyGile se distingue en ciblant explicitement les mouvements agiles entiers du corps, là où la plupart des travaux récents se concentrent sur la manipulation ou la locomotion basique. Le papier étant une révision arXiv (v2), il n'y a pas encore d'annonce de déploiement industriel ni de partenariat commercial associé.

HumanoïdesOpinion

1 source

MIND : contrôle de robot humanoïde par diffusion d'intention multi-échelle guidée par le texte

À lire aussi

PressMimic : capture et contrôle de mouvement guidés par pression pour l'imitation par robot humanoïde

Transfert de style de mouvement humain pour le contrôle physique de robots humanoïdes

SceneBot : suivi corps entier d'humanoïde généraliste guidé par contacts avec l'environnement

PhyGile : génération de mouvements guidée par préfixe physique pour le suivi agile d'humanoïdes généralistes