RecherchearXiv cs.RO6sem

Imagine2Real : vers l'interaction robot humanoïde-objet sans apprentissage préalable grâce aux priors génératifs vidéo

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs présente Imagine2Real, un framework zéro-shot pour la manipulation humanoïde d'objets, publié sur arXiv en mai 2026. L'Humanoid-Object Interaction (HOI) en corps entier, soit la capacité d'un humanoïde à interagir physiquement avec des objets en coordonnant l'ensemble de ses degrés de liberté, reste historiquement freinée par la rareté des données 3D haute fidélité. Imagine2Real contourne cette limitation en s'appuyant sur des vidéos génératives comme priors de mouvement, sans recourir à des modèles CAO explicites. Les déplacements du robot et des objets sont formalisés comme des trajectoires 4D en points discrets. Un module appelé Keypoints Tracker suit uniquement trois repères critiques (base, mains, objet), court-circuitant le retargeting morphologique, source classique d'amplification d'erreurs. Pour maintenir des allures naturelles malgré ces signaux épars, le système exploite l'espace latent d'un Behavior Foundation Model (BFM), un modèle de fondation entraîné sur des comportements locomoteurs. Une stratégie d'entraînement progressive complète le pipeline, permettant un déploiement physique zéro-shot en environnement de capture de mouvement (mocap).

Le travail s'attaque à deux verrous documentés dans la littérature : le "Representation Misalignment", décalage entre les priors géométriques et la réalité physique du robot, et la "Retargeting Complexity", difficulté d'adapter des mouvements humains à une morphologie robotique différente. En réduisant le retargeting à trois points-clés et en supprimant la dépendance aux modèles CAO, Imagine2Real compresse le pipeline de données nécessaire pour générer de nouveaux comportements. Le zéro-shot démontré en déploiement physique, et non uniquement en simulation, distingue la contribution des approches antérieures. Pour un intégrateur ou un décideur industriel, l'enjeu est clair : bootstrapper de nouvelles compétences de manipulation sans dataset 3D dédié ni séquences mocap par tâche.

Imagine2Real s'inscrit dans un courant de recherche exploitant les video diffusion models comme source de connaissance pour la robotique, en parallèle des travaux de Physical Intelligence (pi0, pi0-FAST), de NVIDIA (GR00T N2) et des approches VLA de Google DeepMind. La distinction revendiquée est l'abandon des priors géométriques là où les méthodes concurrentes les jugent incontournables. Aucun partenaire industriel ni calendrier de déploiement réel n'est mentionné dans ce preprint : il s'agit d'une contribution de recherche fondamentale, dont les suites naturelles incluront l'extension à des catégories d'objets plus larges et une validation hors environnement mocap contrôlé.

Dans nos dossiers

NVIDIA GR00T Physical Intelligence — π0 arXiv cs.RO

À lire aussi

1arXiv cs.RO

EgoInfinity : moteur de données 4D d'interaction main-objet pour le reciblage robot et l'apprentissage vidéo-vers-action

EgoInfinity est un moteur de données 4D présenté en juin 2026 dans un article arXiv (2606.17385), conçu pour convertir automatiquement des vidéos RGB de manipulation humaine en données d'entraînement exploitables par des robots. Son architecture modulaire enchaîne perception, segmentation, reconstruction 3D, raffinement contextuel et reciblage cinématique. À partir d'une vidéo ordinaire, le système produit des représentations 4D indépendantes de l'agent : trajectoires de main, poses d'objets à 6 degrés de liberté (6-DoF) et états de contact. Un module de reciblage de mouvement compile ensuite ces données en trajectoires articulaires exécutables pour n'importe quelle morphologie de robot, à partir de tout angle de vue ou cadrage, même lorsque le corps humain n'est que partiellement visible. Le pipeline a été validé sur des tâches de préhension, coupe, essuyage et versage en conditions réelles. L'enjeu industriel est direct : les données de manipulation collectées en laboratoire ou en usine restent rares, coûteuses et peu diversifiées, plafonnant la généralisation des systèmes d'apprentissage par imitation. EgoInfinity ouvre théoriquement l'accès à Internet comme réservoir de données à l'échelle du web, sans annotation humaine dans la boucle. Le raffinement dit "interaction-aware" (conscient des contacts) corrige les dérives métriques et incohérences de contact fréquentes dans les reconstructions purement visuelles, problème récurrent dans les pipelines sim-to-real. Pour un intégrateur ou un COO industriel, l'argument clé est la portabilité : un même pipeline produit des trajectoires pour des morphologies différentes, sans re-collecte de données. Ce travail s'inscrit dans une compétition intense autour de la donnée pour robots manipulateurs. Les approches concurrentes incluent les datasets collaboratifs comme Open X-Embodiment, les données téléopérées de Physical Intelligence (Pi-0) ou 1X Technologies, et les efforts open-source de HuggingFace (Paris) avec LeRobot, qui cible précisément la démocratisation de la collecte de données à faible coût. L'originalité d'EgoInfinity est d'exploiter des vidéos "in the wild" plutôt que des démonstrations contrôlées, une approche qui reste à valider à grande échelle : les résultats publiés portent sur des tâches isolées, et le passage à des scénarios industriels complexes n'est pas documenté.

UEConcurrence directe pour HuggingFace/LeRobot (Paris) sur le segment de la démocratisation des données de manipulation robotique à faible coût.

RechercheOpinion

1 source

2arXiv cs.RO

SPACE : apprentissage inter-robots vers des politiques généralistes

Une équipe de chercheurs a publié le 24 juin 2026 sur arXiv (arXiv:2606.24049) un article introduisant SPACE (State Prediction and Adaptive Command Execution), un cadre d'apprentissage conçu pour entraîner des politiques robotiques généralisables à partir de données hétérogènes collectées sur différents robots. Le problème central est le suivant : en behavior cloning, les actions enregistrées lors de démonstrations sont couplées à la dynamique du robot utilisé, ce qui empêche leur réutilisation directe sur d'autres plateformes. SPACE résout cela en adoptant le delta d'état cartésien comme représentation d'action universelle, indépendante du matériel. Le framework repose sur deux composants : une politique prédisant le déplacement géométrique de l'effecteur terminal (end-effector), et un Action Adapter qui convertit ces prédictions en commandes spécifiques à chaque robot. Les expériences démontrent que SPACE surpasse significativement les politiques entraînées à prédire directement des commandes de contrôle, que ce soit entre morphologies différentes ou entre unités matérielles d'une même plateforme. La robustesse est également validée face aux variations dynamiques en déploiement : changements de fréquence de contrôle, de masse des objets manipulés ou de gains de contrôleur. L'enjeu est structurant pour la robotique industrielle à grande échelle. Agréger des démonstrations issues de parcs hétérogènes sans dégradation de performance est un verrou majeur pour constituer les grands jeux de données dont la robotique généraliste a besoin, à l'image d'ImageNet pour la vision par ordinateur. SPACE découple la représentation de l'action de son exécution matérielle, ouvrant la voie à des politiques capables de fonctionner sur des flottes diversifiées sans ré-entraînement complet. Pour un intégrateur ou un COO industriel opérant des robots de plusieurs générations, la robustesse aux shifts dynamiques en production est un argument concret, pas seulement académique. Ce travail s'inscrit dans le courant dominant du robot learning, qui cherche à reproduire pour la robotique le scaling des grands modèles de langage. Des travaux comme RT-2, Octo ou pi-0 (Physical Intelligence) ont déjà exploré l'apprentissage multi-robot, mais l'alignement des espaces d'action reste un problème ouvert. SPACE apporte une réponse modulaire, sans imposer de modifications architecturales majeures à la politique principale, ce qui facilite l'intégration avec des architectures VLA existantes. Le code et la page projet sont disponibles publiquement. Il s'agit pour l'instant d'un preprint non encore soumis à peer review, et les prochaines étapes naturelles incluront des validations à plus grande échelle et sur des scènes de manipulation plus complexes.

RechercheOpinion

1 source

3arXiv cs.RO

AGILE : reconstruction des interactions main-objet à partir de vidéo par génération à base d'agents

Une équipe de chercheurs a présenté AGILE (arXiv:2602.04672v3), un framework de reconstruction d'interactions dynamiques main-objet à partir de vidéos monoculaires, ciblant deux applications majeures : la collecte de données pour la manipulation dextère en robotique et la création de jumeaux numériques pour la simulation et la réalité virtuelle. La méthode s'attaque à deux verrous techniques qui paralysent les approches existantes : d'une part, le rendu neuronal classique produit sous forte occultation des géométries fragmentées, inutilisables directement en simulation physique ; d'autre part, l'initialisation par Structure-from-Motion (SfM) est notoriellement fragile sur des vidéos captées en conditions réelles. AGILE bascule du paradigme de reconstruction vers ce que les auteurs appellent une "génération agentique" : un Vision-Language Model (VLM) pilote un modèle génératif pour synthétiser un mesh objet complet, fermé (watertight) et texturé haute fidélité, sans dépendre du contenu vidéo occulté. Une stratégie dite "anchor-and-track" initialise la pose de l'objet sur une unique frame d'interaction via un modèle fondation, puis propage cette pose temporellement en exploitant la similarité visuelle entre l'asset généré et les frames vidéo. Une optimisation finale dite contact-aware intègre des contraintes sémantiques, géométriques et de stabilité d'interaction pour garantir la plausibilité physique. Sur les benchmarks HO3D, DexYCB et ARCTIC, AGILE surpasse les baselines en précision géométrique globale. L'intérêt industriel de cette approche réside dans la production d'assets directement exploitables en simulation, une propriété validée par les auteurs via du retargeting real-to-sim pour des applications robotiques. C'est précisément le point de friction qui freinait l'adoption des pipelines de reconstruction vidéo dans les boucles d'entraînement de politiques de manipulation : les meshes obtenus par NeRF ou reconstruction multi-vues classique nécessitaient un travail de remaillage manuel avant d'être injectables dans un moteur physique comme MuJoCo ou Isaac Sim. En contournant le SfM, AGILE devient également utilisable sur des données de terrain non contrôlées, ce qui ouvre la voie à la collecte passive de démos humaines à grande échelle, un prérequis pour les approches VLA (Vision-Language-Action) qui peinent encore à obtenir suffisamment de trajectoires dextères annotées. Le problème de la reconstruction main-objet est étudié depuis plusieurs années, avec des datasets de référence comme HO-3D (2020) et DexYCB (2021), et des méthodes basées sur les modèles paramétriques MANO pour la main. L'originalité d'AGILE est de déporter la reconstruction de l'objet vers une génération guidée, plutôt que de l'estimer directement depuis le signal vidéo dégradé. Les concurrents directs sont les méthodes NeRF-based adaptées aux scènes dynamiques (D-NeRF, HO-NeRF) et les pipelines SfM+MVS classiques, tous sensibles aux occultations. Du côté des acteurs industriels, cette direction intéresse directement les équipes travaillant sur la télé-opération et l'imitation learning pour bras robotiques dextères, notamment chez Dexterous Robotics, Physical Intelligence (Pi) ou les labos académiques proches de Figure et Apptronik. Le projet dispose d'une page dédiée (agile-hoi.github.io) ; aucun code ni dataset supplémentaire n'est annoncé à ce stade.

RecherchePaper

1 source

4arXiv cs.RO

Rhythm : apprentissage du contrôle interactif corps entier pour deux robots humanoïdes

Des chercheurs ont publié en mars 2026 sur arXiv un framework baptisé Rhythm, conçu pour piloter simultanément deux robots humanoïdes Unitree G1 en interaction physique directe. Le système repose sur trois composants : un module IAMR (Interaction-Aware Motion Retargeting) qui génère des références de mouvement réalistes à partir de captures de données humaines, une politique d'apprentissage par renforcement IGRL (Interaction-Guided Reinforcement Learning) qui modélise les dynamiques de contact couplées via des récompenses basées sur des graphes, et un pipeline de transfert sim-to-real permettant de déployer ces comportements sur robots physiques. Les comportements validés incluent l'accolade et la danse synchronisée entre deux G1, transférés de simulation vers le monde réel. Il s'agit d'un travail académique, pas d'un produit commercialisé. L'intérêt technique est dans la résolution du problème de contact couplé multi-corps : quand deux humanoïdes se touchent, les efforts mécaniques se propagent en boucle entre les deux chaînes cinématiques, rendant le contrôle instable. Rhythm aborde ce problème par des récompenses graph-based qui capturent explicitement l'interaction entre les deux agents, plutôt que de traiter chaque robot indépendamment. Pour un intégrateur ou un ingénieur robotique, c'est une validation que le sim-to-real fonctionne même pour des dynamiques de contact bilatérales, un verrou qui bloquait la plupart des approches multi-robots à manipulation physique. Cela ouvre la voie à des tâches collaboratives exigeant une coordination fine, comme le port de charges lourdes à deux, le transfert d'objets ou l'assemblage bimanuel étendu. Le robot Unitree G1 est une plateforme commerciale accessible (environ 16 000 dollars), ce qui donne à ces résultats une reproductibilité supérieure aux travaux sur robots propriétaires. Dans la course aux humanoïdes, les acteurs comme Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) et Boston Dynamics se concentrent sur des déploiements unitaires en environnement industriel ; la coordination physique entre deux humanoïdes reste un espace peu exploré commercialement. Rhythm ne s'inscrit pas encore dans une roadmap produit annoncée, mais la disponibilité du code sur arXiv et le choix du G1 suggèrent une communauté de recherche qui converge vers la standardisation des plateformes, préfigurant des pilotes industriels à horizon 18-36 mois.

RecherchePaper

1 source