Human2Any : transfert humain-robot via planification compositionnelle avec contraintes
Une équipe de chercheurs a publié en juin 2026 Human2Any, un framework d'apprentissage conçu pour transférer des démonstrations humaines vers des robots sans nécessiter de données d'entraînement collectées directement sur le robot cible. Le principe central repose sur l'extraction de priors d'interaction centrés sur les objets à partir de vidéos de mains humaines, en représentant la manipulation non pas par les mouvements du bras, mais par la relation cinématique entre objets, ce qui change dans la scène, indépendamment de qui ou quoi produit ce changement. Ces priors sont ensuite composés avec un module de raisonnement de faisabilité côté robot et un planificateur de mouvement, permettant l'adaptation à différentes morphologies robotiques, géométries de scène et configurations de tâches. Les expériences réelles ont été menées sur deux plateformes distinctes : un bras Franka Emika en configuration tabletop, et un robot humanoïde mobile RBY-1, tous deux opérant sur des tâches de manipulation sans avoir reçu d'exemples robot dans le contexte cible.
Ce résultat est significatif parce qu'il attaque directement le goulot d'étranglement le plus coûteux du pipeline robotique actuel : la collecte de données de démonstration sur le robot réel. Les approches VLA (Vision-Language-Action) dominantes, comme celles de Physical Intelligence (pi0) ou de Google DeepMind, s'appuient sur des téléopérations massives ou des simulations intensives pour construire des datasets robot-specific. Human2Any propose une voie alternative : lever l'hypothèse que les priors doivent être ancrés dans l'embodiment. La capacité démontrée à transférer vers un humanoïde mobile comme le RBY-1, dont la cinématique et les degrés de liberté diffèrent radicalement d'un bras fixe, suggère une généralisation inter-embodiment qui, si elle se confirme à plus grande échelle, réduirait les barrières à l'entrée pour les intégrateurs sans accès à des flottes de robots pour la collecte.
Sur le plan académique, Human2Any s'inscrit dans un courant de recherche en plein essor autour du retargeting humain-robot, aux côtés de travaux comme UMI (Universal Manipulation Interface) de Stanford ou OKAMI et HumanPlus de Berkeley, qui exploitent tous la vidéo humaine comme signal de supervision bon marché. La distinction revendiquée ici est l'abstraction complète de l'embodiment via la représentation objet-objet, plutôt qu'un retargeting cinématique direct. Le projet est disponible sur human2any.github.io. La prochaine étape logique sera de mesurer si ces priors tiennent face à une plus grande diversité d'objets, de saisies, et de configurations de scène non vues à l'entraînement.
L'utilisation du bras Franka Emika (fabricant allemand) comme plateforme de validation confère une pertinence marginale pour les intégrateurs européens, mais l'impact concret reste limité à la veille académique pour les équipes R&D robotique en France et en UE.
Dans nos dossiers




