
Humanoid-GPT : mise à l'échelle des données et de la structure pour le suivi de mouvement zéro-shot
Une équipe de chercheurs présente Humanoid-GPT, un Transformer de style GPT avec attention causale, entraîné sur un corpus de 2 milliards de frames de capture de mouvement pour le contrôle du corps entier de robots humanoïdes. Publiée en juin 2026 sur arXiv (preprint, non encore évaluée par les pairs), l'étude décrit un pré-entraînement sur un corpus retargeté qui unifie l'ensemble des jeux de données mocap publics majeurs et des enregistrements internes à grande échelle. L'objectif central est la généralisation zero-shot: le modèle doit suivre des mouvements hautement dynamiques et s'adapter à des tâches de contrôle inédites sans réentraînement spécifique.
L'approche s'attaque au compromis agility-generalization qui bride les trackers MLP peu profonds, architecture dominante jusqu'ici mais limitée par la rareté des données d'entraînement. En scalant simultanément les données et la capacité du modèle, Humanoid-GPT prétend résoudre ces deux dimensions avec un unique modèle génératif. Si ces résultats se confirment à la validation indépendante, le résumé restant vague sur les benchmarks exacts et les conditions expérimentales, cela réduirait concrètement le coût de déploiement pour les intégrateurs de systèmes humanoïdes qui doivent aujourd'hui entraîner des politiques séparées pour chaque tâche ou morphologie de robot.
Cette contribution s'inscrit dans la tendance au scaling des politiques de contrôle humanoïde: NVIDIA avec GR00T N2, Physical Intelligence avec pi-0 et pi-0.5, ou Berkeley Humanoid ont chacun montré que les Transformers absorbent massivement des données de démonstration pour produire des politiques plus généralisables. Humanoid-GPT se positionne spécifiquement sur le motion tracking en amont des pipelines d'action, plutôt que sur la manipulation de bout en bout. L'absence d'affiliation institutionnelle visible dans le résumé et la nature preprint du document invitent à la prudence sur les affirmations de "new performance frontier"; les benchmarks comparatifs et la revue par les pairs seront déterminants pour l'adoption dans la communauté.
Dans nos dossiers




