
Transformer des modèles vidéo en politiques robotiques généralistes
Des chercheurs du MIT CSAIL ont publié fin mai 2026 un preprint (arXiv:2605.27817) présentant VERA, pour Video-to-Embodied Robot Action Model, une architecture qui transforme des modèles vidéo génératifs en politiques robotiques généralisables. L'idée centrale est de découpler deux composants qui, dans les approches récentes, sont souvent entraînés conjointement : un planificateur vidéo, qui prédit des séquences d'images représentant la complétion d'une tâche, et un modèle de dynamique inverse (IDM, Inverse Dynamics Model) spécifique à l'effecteur, qui traduit ces images en commandes motrices concrètes. L'IDM est conçu à partir du Jacobien cinématique du robot, ce qui le rend à la fois efficient en données et extensible aux espaces d'action de haute dimension. L'équipe démontre VERA sur deux configurations : manipulation zero-shot d'un bras Panda 7-DOF et réorientation de cube en dextérité avec une main Allegro à 16 degrés de liberté, sur des benchmarks simulés et réels.
Ce découplage constitue une alternative architecturale directe aux fondations robotiques qui co-entraînent prédiction d'observations et prédiction d'actions sur des données étiquetées (action-labeled), comme le proposent Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. L'avantage opérationnel est concret : le planificateur vidéo reste agnostique à l'effecteur et peut être partagé entre plusieurs robots en changeant uniquement l'IDM associé, sans réentraîner le backbone vidéo. L'IDM peut lui-même être entraîné sur des données de self-play facilement disponibles, ce qui réduit la dépendance aux démonstrations humaines coûteuses. Les résultats zero-shot sur des tâches de manipulation réelle renforcent la thèse que le gap sim-to-real peut être atténué par une modélisation géométrique rigoureuse de l'effecteur.
La course aux VLA (Vision-Language-Action models) et aux politiques cross-embodiment est aujourd'hui dominée par des laboratoires bien capitalisés : Physical Intelligence avec Pi-0 et Pi-0.5, NVIDIA avec GR00T N2, Figure AI avec Helix, et 1X Technologies. VERA positionne le MIT CSAIL dans ce paysage avec une approche plus modulaire que les architectures monolithiques en vogue. Il s'agit pour l'instant d'un preprint de recherche, sans déploiement industriel annoncé ni partenariat hardware mentionné. Les résultats sont disponibles sur vera.csail.mit.edu, et la prochaine étape naturelle serait une évaluation sur des effecteurs plus variés ou des environnements non structurés pour valider la généralisation à plus grande échelle.
Dans nos dossiers




