
Phantom : entraîner des robots sans robots, uniquement avec des vidéos humaines
Une équipe de chercheurs a publié Phantom (arXiv:2503.00779), un framework d'entraînement de politiques de manipulation robotique n'utilisant aucune donnée robot : uniquement des vidéos de démonstrations humaines. Le pipeline extrait les trajectoires via estimation de pose des mains (hand pose estimation), efface le bras humain par inpainting, puis superpose un rendu 3D du robot cible pour produire des paires observation-action directement exploitables. Déployé en zero-shot sur matériel réel sans fine-tuning, le système atteint jusqu'à 92 % de taux de réussite sur des tâches de manipulation d'objets déformables, de balayage multi-objets et d'insertion de composants. Les politiques supportent l'exécution en boucle fermée (closed-loop) et généralisent à des environnements inédits non vus à l'entraînement.
L'enjeu est la scalabilité des données. La téléopération, méthode dominante chez Figure, 1X ou Physical Intelligence, exige du matériel disponible, des opérateurs qualifiés et des sessions d'enregistrement coûteuses. En substituant des vidéos humaines à ces démos, Phantom compresse drastiquement le coût d'acquisition du dataset. Si les taux de réussite annoncés se confirment en dehors des conditions contrôlées du laboratoire, cela représenterait un argument solide contre le "reality gap" classique entre simulation et déploiement industriel. La capacité à généraliser sans fine-tuning, point souvent problématique pour les modèles VLA (Visual Language Action), mérite toutefois une validation sur des environnements plus variés que ceux présentés dans le papier.
Le problème des données hors-robot n'est pas nouveau : DexMV, ACT et les travaux autour de GR00T N2 de NVIDIA ont exploré des voies comparables, et Physical Intelligence avec pi-0 a parié sur la diversité massive de données multi-embodiment. Les approches sim-to-real via IsaacLab ou Genesis constituent les concurrents méthodologiques directs, contournant le même obstacle par la simulation plutôt que par la vidéo humaine. Phantom se distingue par sa légèreté : pas de flotte de robots nécessaire pour constituer le dataset initial. Le travail reste à ce stade une preuve de concept académique, sans partenariat ni déploiement industriel annoncé. La prochaine étape attendue serait une validation sur des morphologies robotiques variées et des tâches à précision sub-millimétrique.




