
Imagine2Real : vers l'interaction robot humanoïde-objet sans apprentissage préalable grâce aux priors génératifs vidéo
Une équipe de chercheurs présente Imagine2Real, un framework zéro-shot pour la manipulation humanoïde d'objets, publié sur arXiv en mai 2026. L'Humanoid-Object Interaction (HOI) en corps entier, soit la capacité d'un humanoïde à interagir physiquement avec des objets en coordonnant l'ensemble de ses degrés de liberté, reste historiquement freinée par la rareté des données 3D haute fidélité. Imagine2Real contourne cette limitation en s'appuyant sur des vidéos génératives comme priors de mouvement, sans recourir à des modèles CAO explicites. Les déplacements du robot et des objets sont formalisés comme des trajectoires 4D en points discrets. Un module appelé Keypoints Tracker suit uniquement trois repères critiques (base, mains, objet), court-circuitant le retargeting morphologique, source classique d'amplification d'erreurs. Pour maintenir des allures naturelles malgré ces signaux épars, le système exploite l'espace latent d'un Behavior Foundation Model (BFM), un modèle de fondation entraîné sur des comportements locomoteurs. Une stratégie d'entraînement progressive complète le pipeline, permettant un déploiement physique zéro-shot en environnement de capture de mouvement (mocap).
Le travail s'attaque à deux verrous documentés dans la littérature : le "Representation Misalignment", décalage entre les priors géométriques et la réalité physique du robot, et la "Retargeting Complexity", difficulté d'adapter des mouvements humains à une morphologie robotique différente. En réduisant le retargeting à trois points-clés et en supprimant la dépendance aux modèles CAO, Imagine2Real compresse le pipeline de données nécessaire pour générer de nouveaux comportements. Le zéro-shot démontré en déploiement physique, et non uniquement en simulation, distingue la contribution des approches antérieures. Pour un intégrateur ou un décideur industriel, l'enjeu est clair : bootstrapper de nouvelles compétences de manipulation sans dataset 3D dédié ni séquences mocap par tâche.
Imagine2Real s'inscrit dans un courant de recherche exploitant les video diffusion models comme source de connaissance pour la robotique, en parallèle des travaux de Physical Intelligence (pi0, pi0-FAST), de NVIDIA (GR00T N2) et des approches VLA de Google DeepMind. La distinction revendiquée est l'abandon des priors géométriques là où les méthodes concurrentes les jugent incontournables. Aucun partenaire industriel ni calendrier de déploiement réel n'est mentionné dans ce preprint : il s'agit d'une contribution de recherche fondamentale, dont les suites naturelles incluront l'extension à des catégories d'objets plus larges et une validation hors environnement mocap contrôlé.
Dans nos dossiers




