
EgoHumanoid : la manipulation locomotrice en environnement réel grâce aux démonstrations égocentriques sans robot
EgoHumanoid, publié sur arXiv (identifiant 2602.10106), propose un framework pour entraîner des robots humanoïdes à la loco-manipulation, c'est-à-dire la coordination simultanée de la locomotion et de la manipulation d'objets, en exploitant des démonstrations humaines égocentrées plutôt que de la télé-opération robotique classique. L'architecture co-entraîne une politique VLA (vision-language-action) sur un corpus mixte composé de larges volumes de vidéos humaines en vue à la première personne, complétés par un volume limité de données robot. Pour réduire le fossé morphologique entre humains et robots, les auteurs ont développé un système portable de collecte de données et deux modules d'alignement : un alignement de vue corrigeant les différences de hauteur et de perspective entre caméra humaine et capteur robot, et un alignement d'action transposant les mouvements humains vers un espace cinématiquement réalisable par le robot. Les expériences en environnements réels montrent que l'ajout des données égocentrées humaines dépasse les baselines entraînées sur données robot seules de 51 %, avec un gain particulièrement marqué sur des environnements non vus lors de l'entraînement.
La loco-manipulation humanoïde est l'un des problèmes les plus gourmands en données de la robotique moderne : le robot doit simultanément planifier ses déplacements et interagir avec des objets dans des espaces non structurés. EgoHumanoid valide l'hypothèse que la diversité des démonstrations humaines compense la différence morphologique, à condition de résoudre correctement les alignements de vue et d'action. Pour les intégrateurs et décideurs industriels, cela signale une voie de scaling de la donnée nettement moins chère que la télé-opération spécialisée, sans dépendre de simulateurs dont le transfert sim-to-real reste incertain.
La démonstration humaine pour les robots manipulateurs d'établis est une pratique établie, mais son extension aux humanoïdes en loco-manipulation restait peu explorée. EgoHumanoid se positionne directement face aux pipelines de collecte adoptés par les grands acteurs, notamment Figure AI avec Helix, Physical Intelligence avec Pi-0 et NVIDIA avec GR00T N2, qui s'appuient tous sur des approches intensives en télé-opération ou en simulation. Il s'agit d'une publication académique, sans annonce de produit ni déploiement commercial associé. Les suites logiques seraient une validation à plus grande échelle du protocole de collecte humaine et une intégration dans des frameworks VLA existants pour tester la montée en charge sur des tâches industrielles réelles.
Dans nos dossiers




