
IA incarnée : DVG-WM génère des vidéos découplées pour un modèle du monde efficace en manipulation robotique
Le laboratoire à l'origine de ces travaux (non précisé dans le résumé, arXiv:2506.32028) présente DVG-WM (Disentangled Video Generation World Model), un modèle du monde vidéo destiné à la manipulation robotique. Le problème ciblé est un compromis connu dans les "world models" embodied: modéliser précisément la dynamique physique nécessite un raisonnement temporel fin image par image, alors que produire des vidéos haute résolution exige une synthèse visuelle coûteuse pilotée par la sémantique globale. Jusqu'ici, les deux étaient entremêlés dans un seul réseau, forçant un choix entre inférence rapide et prédictions grossières, ou rendu détaillé mais trop lent pour de la planification itérative. DVG-WM sépare explicitement les deux tâches: à partir d'une observation initiale et d'une instruction en langage naturel, le modèle génère d'abord une séquence d'états visuels intermédiaires prévisualisant l'interaction physique, puis les raffine en vidéos haute fidélité. Le mécanisme clé est un cascading efficace où le flow matching relie directement la dynamique aux latents vidéo, complété par un mécanisme de dégradation latente qui régénère les détails riches en contacts (préhension, collisions). Testé sur le benchmark LIBERO et sur plateformes réelles, DVG-WM améliore la qualité vidéo tout en accélérant l'inférence jusqu'à 3,97 fois.
Pour l'industrie robotique, ce résultat s'attaque directement à un goulot d'étranglement connu des architectures VLA (vision-langage-action) basées sur la prédiction vidéo: la latence d'inférence, rédhibitoire pour du contrôle en boucle fermée temps réel. Un gain de facteur 4 sur la vitesse, sans sacrifier la précision des interactions de contact, rapproche ces world models vidéo d'un usage réellement embarqué plutôt que d'une simple démonstration hors ligne, un point sensible pour les intégrateurs qui évaluent la viabilité de ces approches face aux politiques d'action plus directes.
Ce travail s'inscrit dans la lignée des world models vidéo pour la robotique (dans la continuité d'approches type UniPi, iVideoGPT ou GR00T-Dreams), dont la promesse est d'apprendre la physique à partir de vidéo brute plutôt que de simulateurs coûteux à construire. La contribution spécifique de DVG-WM, la désentanglement dynamique/synthèse, ouvre la voie à des variantes combinant d'autres backbones de génération vidéo ou à une extension vers des tâches multi-étapes plus longues, une direction que les auteurs identifient comme suite naturelle de ces travaux.
Dans nos dossiers




