
LUCID : modèles d'intention agnostiques au morphotype, acquisition dextérique à l'échelle depuis des vidéos humaines
Des chercheurs ont publié LUCID (arXiv:2606.11628, juin 2026), un framework en deux étapes qui apprend des compétences de manipulation dextère à partir de vidéos humaines non étiquetées issues d'internet, sans démonstrations robotiques coûteuses. LUCID découple l'apprentissage en un modèle d'intention, qui prédit à court horizon ce qui doit se passer ensuite dans la scène en boucle fermée, et une politique sensorimorale spécifique à chaque effecteur, chargée de convertir cette intention en actions concrètes. Ce découplage permet au même modèle d'intention d'opérer sur des effecteurs différents, de la main dextère multi-doigts au préhenseur parallèle à deux mâchoires, sans réentraînement. Le système a été validé sur cinq tâches réelles : mélange, essuyage et tri en bac, supervisés par des vidéos internet uniquement avec transfert zéro-shot vers de nouveaux objets et scènes, et push-T et routage de câbles, supervisés chacun par une heure de vidéo smartphone collectée par les auteurs.
Ce résultat s'attaque au principal goulot d'étranglement du robot learning industriel : la dépendance à des démonstrations coûteuses et liées à un embodiment précis. Les pipelines actuels, qu'ils reposent sur la télé-opération (Figure AI, 1X), l'imitation structurée (ACT, Diffusion Policy) ou les VLA end-to-end, exigent tous des données robotiques spécifiques à l'effecteur. LUCID substitue à cela des vidéos humaines à l'échelle web pour la compréhension de tâche, et de la simulation massivement parallèle pour le contrôle moteur. Si le paradigme passe à l'échelle, il réduit significativement les coûts d'intégration pour chaque nouvel effecteur, argument directement adressé aux intégrateurs industriels qui gèrent des parcs de bras multi-marques.
LUCID se positionne face à pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, qui privilégient des architectures end-to-end. La principale différenciation est l'interface d'intention agnostique à l'embodiment, apprise depuis des données internet non étiquetées, ce qui constitue une direction distincte de la course à la collecte massive de démonstrations robotiques. Le preprint ne mentionne ni partenaire industriel ni feuille de route commerciale ; les résultats restent en environnement laboratoire sur des tâches de complexité modérée, et le passage à des contextes industriels non contraints reste à démontrer.
Dans nos dossiers




