
PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes
Une équipe de chercheurs du laboratoire DAVIAN a publié en juin 2026 PHUMA (Physically Reliable HUMAnoid locomotion dataset), un corpus de 73 heures de données de locomotion humanoide produit via un pipeline en deux étapes : une curation physiquement consciente suivie d'un retargeting contraint par des lois physiques. La base de données agrège à la fois des données de motion capture traditionnelles et des vidéos issues d'internet, les deux étant traitées pour éliminer les artefacts physiques récurrents dans les datasets existants, notamment le flottement, la pénétration géométrique et le foot skating. Entraînées sur PHUMA, les politiques de contrôle obtiennent des taux de succès supérieurs à ceux obtenus avec AMASS et Humanoid-X sur les benchmarks de motion tracking standards, et transfèrent en zero-shot vers un Unitree G1 réel. Le code et les données sont disponibles publiquement via davian-robotics.github.io/PHUMA.
Le principal verrou que PHUMA prétend lever est la qualité physique des données d'entraînement pour l'imitation de mouvement humanoide. Les approches par imitation sont attractives parce qu'elles permettent d'acquérir des comportements naturels sans reward engineering fastidieux, mais leur efficacité dépend directement de la cohérence physique des données sources. Les artefacts présents dans les datasets basés sur des vidéos internet (comme Humanoid-X) se propagent dans les politiques entraînées, produisant des robots qui glissent ou oscillent de façon instable. La démonstration de transfert zero-shot sur un Unitree G1 physique est le point le plus concret : elle suggère que le filtrage physique en amont réduit effectivement le sim-to-real gap, sans fine-tuning additionnel sur hardware. Reste à qualifier l'ampleur du gain : les métriques de benchmarks internes ne se substituent pas à des comparaisons en conditions réelles standardisées.
AMASS, publié en 2019, est resté longtemps la référence en motion capture humanoide, mais sa taille limitée et son coût d'acquisition ont freiné la scalabilité des approches data-driven. Humanoid-X a tenté de combler ce vide en exploitant des vidéos YouTube à grande échelle, au prix d'une dégradation qualitative. PHUMA s'inscrit dans une dynamique plus large où plusieurs équipes cherchent à constituer des datasets de locomotion humanoide à la fois volumineux et physiquement valides, en parallèle des travaux de Figure AI (Figure 03), Boston Dynamics, et des équipes derrière GR00T N2 chez NVIDIA. La prochaine étape logique serait de tester PHUMA sur d'autres plateformes humanoïdes commerciales (H1, Digit) et d'élargir les tâches au-delà de la locomotion simple vers la manipulation en déplacement.
Le dataset PHUMA étant en accès libre, les équipes de recherche européennes en locomotion humanoïde (INRIA, CEA-List, LAAS-CNRS) peuvent l'intégrer directement dans leurs pipelines d'entraînement sans coût d'acquisition.
Dans nos dossiers




