HumanoidUMI : relier les démonstrations sans robot à la manipulation corps entier des humanoïdes
HumanoidUMI est un framework de collecte de données de démonstration pour robots humanoïdes, déposé le 27 juin 2026 sur arXiv (arXiv:2606.27239v1). Le système permet de capturer des comportements de manipulation corps-entier sans nécessiter l'accès au robot physique pendant la collecte. Concrètement, un opérateur humain équipé d'un casque VR léger et de pinces inspirées du Universal Manipulation Interface (UMI) enregistre des trajectoires creuses de points-clés corporels (keypoints), des images depuis les poignets, et des actions de préhension. Ces démonstrations entraînent une politique de haut niveau qui prédit les keypoints futurs, retargétés en références motrices corps-entier et exécutés par un contrôleur dédié. La méthode a été validée dans cinq scénarios réels de manipulation.
Le goulot d'étranglement majeur dans l'apprentissage de compétences pour humanoïdes reste la collecte de données de qualité. Les méthodes actuelles par télé-opération robot exigent un accès matériel coûteux, des opérateurs spécialisés, et souffrent d'un débit limité. En découplant la collecte de données de l'accès au robot, HumanoidUMI ouvre la voie à une scalabilité inédite : n'importe quel opérateur équipé d'un VR grand public peut générer des démonstrations transférables. C'est particulièrement significatif pour la manipulation corps-entier, qui coordonne perception, locomotion et manipulation simultanément, une capacité que l'UMI original, conçu pour les bras seuls, ne couvrait pas. Les résultats sur cinq scénarios réels suggèrent que le retargeting cinématique depuis des keypoints humains peut effectivement réduire le demo-to-real gap.
HumanoidUMI s'inscrit dans la filiation directe de l'UMI (Universal Manipulation Interface), développé par des chercheurs de Stanford et Columbia pour la manipulation bras-seul. L'extension aux comportements corps-entier arrive dans un marché sous forte tension : Figure AI (Figure 03, politique Helix), Tesla (Optimus Gen 3), 1X Technologies (NEO) et Physical Intelligence (Pi-0) cherchent tous à réduire le coût de collecte de données pour leurs pipelines d'imitation learning. Les approches VLA (Vision-Language-Action) comme GR00T N2 de NVIDIA ciblent le même objectif via la généralisation zero-shot, faisant de la collecte de données le facteur discriminant de la course humanoïde. Il s'agit pour l'instant d'un preprint académique non encore évalué par des pairs, sans déploiement industriel annoncé, mais la portabilité du dispositif VR laisse entrevoir une adoption rapide dans des pipelines de recherche appliquée.
Dans nos dossiers




