
Demo-JEPA : architecture prédictive à enchâssement conjoint pour l'imitation inter-robots en une seule démonstration
Une équipe de chercheurs publie Demo-JEPA (arXiv:2605.20811, mai 2026), un cadre d'imitation robotique inter-morphologies fondé sur une architecture prédictive à représentation jointe (JEPA). L'approche s'attaque au problème du "cross-embodiment" : permettre à un robot d'apprendre depuis des démonstrations réalisées par un humain ou un robot aux cinématiques radicalement différentes. Plutôt que de copier les actions du démonstrateur, Demo-JEPA infère l'état cible que celui-ci cherchait à atteindre. Le système traduit des démonstrations visuelles brutes en trajectoires latentes futures dans un espace de représentation partagé ; l'agent cible planifie ensuite vers ces sous-objectifs via sa propre dynamique forward apprise par interaction. Les évaluations sur le benchmark RLBench et des tâches de manipulation réelles montrent que Demo-JEPA égale des planificateurs entraînés sur la même morphologie et généralise à des configurations inédites où les méthodes antérieures échouent.
L'impact pour les équipes de robotique est potentiellement significatif. Les approches d'imitation existantes requièrent soit un espace d'action commun, soit des heuristiques de retargeting cinématique, soit de larges corpus multi-morphologies cotraînés, comme ceux mobilisés par Physical Intelligence pour pi-0 ou par NVIDIA pour GR00T N2. Demo-JEPA ramène le problème à deux ingrédients : des vidéos de démonstration (humain ou autre robot) et l'expérience propre de l'agent cible. L'aspect "one-shot" revendiqué mérite une nuance : il s'agit d'une seule démonstration par tâche, pas d'un système zéro-shot sans calibration préalable. Reste que la capacité à généraliser à des morphologies non vues lors de l'entraînement représente un pas concret vers des pipelines plus flexibles, où un même corpus vidéo pourrait alimenter des flottes hétérogènes.
L'architecture JEPA est issue des travaux de Yann LeCun chez Meta : au lieu de prédire des pixels, elle prédit des représentations latentes compressées, ce qui la rend plus robuste aux détails visuels non pertinents pour la tâche. Dans le paysage du cross-embodiment, les approches dominantes sont actuellement la coformation à grande échelle (RDT-1B, OpenVLA) et le retargeting cinématique par heuristiques. Demo-JEPA propose une troisième voie, plus frugale en données supervisées. L'article demeure un preprint non validé par les pairs, sans partenariat industriel ni timeline de déploiement annoncés.
Dans nos dossiers




