Robot humanoïde à partir de vidéos humaines : apprentissage zéro-shot avec des corps alignés sur l'humain
Des chercheurs présentent Human-as-Humanoid, un système qui permet d'entraîner des robots humanoïdes directement à partir de vidéos humaines, sans passer par la téléopération classique. Le framework s'appuie sur PrimeU, un humanoïde à 60 degrés de liberté (DoF) pour le haut du corps conçu pour reproduire l'anatomie humaine. La méthode combine des vidéos synchronisées en vue égocentrique (depuis les yeux du démonstrateur) et exocentrique (vue extérieure) : la première fournit une observation alignée sur ce que "verra" le robot en déploiement, la seconde permet de reconstruire précisément le mouvement humain. Ce mouvement est ensuite converti, via une cinématique inverse (IK) en plusieurs étapes, en séquences d'actions directement exploitables par le contrôleur du robot, avant d'entraîner un modèle vision-langage-action (VLA) avec une supervision tenant compte de la cinématique directe (FK) pour préserver la géométrie du poignet et des doigts. Les auteurs rapportent un gain de débit de collecte de données de 4,8 à 7,2 fois supérieur à la téléopération humanoïde classique.
L'enjeu dépasse le simple gain de vitesse : la vraie difficulté pour les VLA humanoïdes à haut DoF, c'est le manque chronique de données action-observation de qualité, la téléopération restant lente et coûteuse à grande échelle. En montrant que des politiques entraînées uniquement sur des vidéos humaines converties généralisent à un déploiement réel sans démonstration robotique dédiée à la tâche cible, cette étude appuie l'hypothèse que le goulot d'étranglement des données humanoïdes peut être contourné par les vidéos humaines abondantes sur le web, plutôt que résolu uniquement par plus de téléopération ou plus de simulation.
Ce travail s'inscrit dans une lignée de recherches (Pi-0, GR00T N2, Helix) qui cherchent à exploiter des sources de données hétérogènes pour les VLA robotiques, l'originalité ici étant l'alignement explicite entre morphologie humaine et robot via PrimeU. Les auteurs valident leur chaîne de conversion à trois niveaux (récupération du mouvement, espace d'action du robot, déploiement réel), mais les résultats restent circonscrits à quelques tâches de manipulation testées en laboratoire, sans indication de volumes de déploiement industriel à ce stade.
Dans nos dossiers




