Locomotion corps entier des humanoïdes :…

PhyGile : génération de mouvements guidée par préfixe physique pour le suivi agile d'humanoïdes généralistes

43

1arXiv cs.RO

PhyGile : génération de mouvements guidée par préfixe physique pour le suivi agile d'humanoïdes généralistes

Une équipe de chercheurs a publié PhyGile (arXiv:2603.19305v2), un framework unifié visant à combler le fossé entre la génération de mouvements en texte naturel et l'exécution physiquement réaliste sur robots humanoïdes réels. Le problème central que ce travail adresse est connu dans le secteur sous le nom de "reality gap" : les modèles text-to-motion existants sont entraînés sur des captures de mouvement humain, ce qui leur confère des priors biomécaniques incompatibles avec les robots (distribution de masse, stratégies de contact, actuation). Résultat : les trajectoires générées paraissent géométriquement correctes (limites articulaires respectées, continuité de pose), mais violent la faisabilité physique dès qu'on tente de les exécuter. PhyGile génère directement des mouvements natifs-robot dans un espace squelettique à 262 dimensions, guidé par des "physics prefixes" calculés à l'inférence, éliminant ainsi l'étape de retargeting et ses artefacts. Le contrôleur General Motion Tracking (GMT) est d'abord entraîné avec un schéma curriculum à mixture-of-experts, puis affiné sur des données de mouvement non étiquetées pour améliorer la robustesse, avant une phase d'adaptation fine guidée par les préfixes physiques. Des expériences offline et sur robots réels valident l'approche sur des mouvements agiles et à haute dynamique dépassant la marche ou les locomotions lentes habituellement testées. Sur le plan de l'impact sectoriel, ce papier s'attaque à l'un des problèmes les plus résistants de la commande humanoïde : le sim-to-real pour des mouvements expressifs et agiles, pas seulement pour la marche stable. La démonstration sur robots réels (et pas uniquement en simulation) est notable, même si les vidéos sélectionnées restent une métrique partielle et difficile à généraliser sans benchmarks standardisés. Pour les intégrateurs et les équipes R&D, l'approche mixture-of-experts combinée à une adaptation post-entraînement sur données non étiquetées représente une voie pragmatique pour étendre la couverture de mouvement sans collecter massivement de nouvelles données étiquetées. Ce travail s'inscrit dans un contexte de compétition intense autour du contrôle locomoteur humanoïde. Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi-0), NVIDIA (GR00T N2) et Agility Robotics travaillent tous sur des pipelines VLA (Vision-Language-Action) ou text-to-motion à large échelle. PhyGile se distingue en ciblant explicitement les mouvements agiles entiers du corps, là où la plupart des travaux récents se concentrent sur la manipulation ou la locomotion basique. Le papier étant une révision arXiv (v2), il n'y a pas encore d'annonce de déploiement industriel ni de partenariat commercial associé.

HumanoïdesOpinion

1 source

TeleGate : téléopération corps entier d'un humanoïde par sélection d'experts avec prior de mouvement

42

2arXiv cs.RO

TeleGate : téléopération corps entier d'un humanoïde par sélection d'experts avec prior de mouvement

Des chercheurs ont publié TeleGate (arXiv:2602.09628, preprint non encore revu par les pairs), un cadre de télé-opération corps entier pour robots humanoïdes, déployé sur le Unitree G1. Le système permet le contrôle à distance en temps réel de l'ensemble du corps du robot - membres supérieurs, inférieurs et tronc - sur un spectre de mouvements dynamiques complexes: course, récupération après chute et saut. L'entraînement n'a nécessité que 2,5 heures de données de capture de mouvement (mocap), un volume faible comparé aux approches concurrentes. L'architecture repose sur deux composants: un réseau de sélection (gating network) léger qui active dynamiquement des politiques expertes spécialisées en fonction des états proprioceptifs du robot et des trajectoires de référence, et un module de prior de mouvement basé sur un VAE (variational autoencoder) qui infère l'intention de mouvement future à partir des observations historiques, assurant un contrôle anticipatif pour les gestes nécessitant de la prédiction. L'enjeu que TeleGate cherche à résoudre est central dans la robotique humanoïde actuelle: les approches classiques fusionnent plusieurs politiques expertes en une politique générale par distillation de connaissances, ce qui entraîne une dégradation des performances sur les mouvements très dynamiques. TeleGate contourne ce compromis en préservant les politiques expertes spécialisées intactes, le réseau de sélection se contentant d'arbitrer entre elles en temps réel. Les résultats rapportés, en simulation et sur robot réel, indiquent une précision de suivi et un taux de succès supérieurs aux méthodes de référence, sans que les auteurs ne fournissent de métriques chiffrées détaillées dans l'abstract. Pour les intégrateurs, cela suggère qu'une architecture de sélection d'experts est préférable à la distillation lorsque le portefeuille de comportements est hétérogène et inclut des gestes physiquement contrastés. Unitree Robotics, fabricant chinois dont le G1 est commercialisé aux alentours de 16 000 USD, s'est imposé comme la plateforme de référence des publications académiques en télé-opération humanoïde grâce à son accessibilité tarifaire. TeleGate s'inscrit dans une effervescence de travaux publiés en 2024-2025 autour de ce thème, en parallèle d'approches comme ACT, UMI, ou les systèmes développés par Figure AI et 1X Technologies. La prochaine étape naturelle pour ce type de framework est la collecte de démonstrations de haute qualité pour l'apprentissage par imitation, goulot d'étranglement majeur sur le chemin vers l'autonomie humanoïde.

HumanoïdesPaper

1 source

SceneBot : suivi corps entier d'humanoïde généraliste guidé par contacts avec l'environnement

44

3arXiv cs.RO

SceneBot : suivi corps entier d'humanoïde généraliste guidé par contacts avec l'environnement

SceneBot est un cadre de contrôle pour robots humanoïdes déposé le 29 juin 2026 sur arXiv (référence 2606.27581), dont le code et les données seront entièrement publiés en open source. Le système entraîne une politique unique de reinforcement learning sur 7,5 heures de données de mouvement annotées en contacts, reconstituées depuis la motion capture humaine. SceneBot conditionne cette politique à la fois sur des mouvements de référence et sur des étiquettes de contact par segment corporel (per-link contact labels), définissant explicitement les interactions physiques attendues avec l'environnement. Le résultat est un agent humanoïde capable d'enchaîner locomotion en espace libre, franchissement de terrain irrégulier et manipulation corps entier, illustré par une tâche de référence : porter une boîte en montant un escalier. Ce que SceneBot résout est un verrou technique bien documenté : les politiques RL de locomotion humanoïde fonctionnent bien en espace libre mais échouent dès qu'un contact physique avec un objet ou une surface irrégulière est requis, car le tracking cinématique pur ne peut pas résoudre les ambiguïtés physiques de ces situations. En introduisant le "contact conditioning" comme interface de contrôle, les chercheurs montrent que 7,5 heures de données suffisent à généraliser à des mouvements et environnements non vus à l'entraînement. Pour les intégrateurs B2B et les décideurs industriels, cela suggère qu'une politique unifiée peut couvrir navigation et manipulation sans modules spécialisés distincts, et constitue une réponse partielle au "demo-to-reality gap" qui fragilise la crédibilité des annonces humanoïdes depuis plusieurs années. La contribution technique centrale est une méthode appelée "hindsight scene reconstruction" : à partir de mouvements humains retargeted, les auteurs reconstruisent après coup les graphes d'interaction avec la scène pour inférer les contacts, évitant l'annotation manuelle qui freine habituellement la constitution de tels datasets. Ce positionnement académique a des implications directes pour les développeurs de plateformes humanoïdes confrontés au même obstacle, notamment Figure AI, Agility Robotics, Unitree et Apptronik. Aucun déploiement industriel n'est annoncé à ce stade : SceneBot est une publication de recherche dont les résultats n'ont pas encore été validés sur hardware en conditions réelles, et les métriques présentées s'appuient sur des simulations et des démonstrations sélectionnées.

HumanoïdesPaper

1 source

Mind Your Steps : un cadre d'apprentissage général pour le suivi précis des appuis de pas chez les robots humanoïdes

42

4arXiv cs.RO

Mind Your Steps : un cadre d'apprentissage général pour le suivi précis des appuis de pas chez les robots humanoïdes

Des chercheurs ont déposé le 9 juin 2026 sur arXiv (réf. 2606.08253) un framework léger pour entraîner des politiques de locomotion humanoïde capables de suivre précisément des appuis en 3D. Les approches dominantes basées sur l'apprentissage par renforcement avec commande de vitesse produisent des humanoïdes robustes, mais sans contrôle explicite du placement des pas : le robot peut marcher sur un pied humain ou rater un appui précis, compromettant les tâches de manipulation en aval. La méthode proposée introduit un "goal sampler" dynamique qui génère des séquences d'appuis variées pendant l'entraînement, rendant la politique agnostique au terrain. Une nouvelle représentation des cibles de pas compense les imprécisions du monde réel (estimation de pose bruitée, détection de contact peu fiable). La politique fonctionne comme un contrôleur bas niveau autonome, couplable à n'importe quel planificateur haut niveau, qu'il soit basé sur des cartes 2.5D, la vision ou un agent VLA. L'intérêt pour les intégrateurs industriels est concret : la précision du placement des appuis conditionne l'ensemble des tâches loco-manipulation, soit la prochaine étape critique avant le déploiement d'humanoïdes dans les entrepôts et lignes de montage. En découplant le contrôleur bas niveau du planificateur, cette architecture permet de substituer l'algorithme de planification sans réentraîner la locomotion, un argument de modularité fort pour des déploiements multi-environnements. Les expériences en simulation et en transfert sim-to-real sur terrains complexes sont présentées comme concluantes, mais ce preprint non encore évalué par les pairs ne fournit pas de benchmark comparatif public ni de métriques de précision standardisées. Ce framework s'inscrit dans la continuité des travaux sur la locomotion bipède précise issus d'ETH Zurich, du MIT et de CMU, que les équipes commerciales (Boston Dynamics Atlas, Agility Robotics Digit, Unitree H1, Figure AI) cherchent à industrialiser. L'abstract ne précise pas la plateforme matérielle utilisée lors des tests réels, ce qui limite la reproductibilité des résultats. La prochaine étape logique serait une évaluation ouverte sur des robots nommément identifiés, assortie de métriques comparables aux approches concurrentes en planification de pas développées à l'EPFL ou à Carnegie Mellon.

UEL'EPFL est citée comme référence concurrente pour la planification de pas, ce qui signale la compétitivité des labos européens dans ce domaine, mais sans impact direct sur des acteurs ou institutions français.

HumanoïdesPaper

1 source

Locomotion corps entier des humanoïdes : apprentissage par génération et suivi de mouvement

À lire aussi

PhyGile : génération de mouvements guidée par préfixe physique pour le suivi agile d'humanoïdes généralistes

TeleGate : téléopération corps entier d'un humanoïde par sélection d'experts avec prior de mouvement

SceneBot : suivi corps entier d'humanoïde généraliste guidé par contacts avec l'environnement

Mind Your Steps : un cadre d'apprentissage général pour le suivi précis des appuis de pas chez les robots humanoïdes