
ImageWAM : les modèles action-monde ont-ils vraiment besoin de génération vidéo, ou seulement d'édition d'images ?
Une équipe de chercheurs publie ImageWAM sur arXiv le 19 juin 2026 (arXiv:2606.19531), un cadre WAM (World Action Model) qui substitue la génération vidéo par l'édition d'images pour prédire les actions robotiques. L'argument central : les WAMs vidéo génèrent des tokens denses sur plusieurs trames futures, consomment de la capacité sur des détails sans rapport avec l'action, et propagent des erreurs lors des prédictions à longue portée. ImageWAM réoriente des modèles d'édition d'image préentraînés pour modéliser uniquement la transformation visuelle entre état courant et état cible. À l'inférence, le système ne décode pas la frame cible : il conditionne un expert d'action par flow-matching sur les caches KV produits pendant le débruitage de l'image éditée. Résultats mesurés : FLOPs réduits à 1/6 et latence à 1/4 par rapport aux WAMs vidéo, avec des performances supérieures aux baselines VLA standard et aux WAMs concurrents, sur simulateur comme en conditions réelles, sans préentraînement additionnel de la politique.
Pour la communauté robotique, le résultat questionne une hypothèse fondamentale : la génération vidéo serait indispensable pour que le modèle "comprenne" le monde et déduise des actions pertinentes. ImageWAM montre que l'édition d'image constitue un prior mieux calibré, car elle cible les différences visuelles liées à l'action plutôt que la reconstruction temporelle complète d'une séquence. Les analyses d'attention confirment que les caches se focalisent sur les régions de changement pertinentes pour la tâche, pas sur le fond statique. Pour un intégrateur industriel, l'implication est directe : cycles d'inférence plus rapides et potentiellement matériel embarqué moins coûteux, sans sacrifice de performance selon les expériences rapportées.
Les WAMs s'inscrivent dans la continuité des VLAs (Visual Language Action models), qui combinent perception visuelle, langage naturel et contrôle moteur dans un pipeline unifié. Des modèles comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) misent sur des représentations visuelles denses pour généraliser les comportements robotiques entre tâches. ImageWAM se positionne comme une alternative frugale, réutilisant des capacités d'édition d'image préentraînées sans nécessiter de préentraînement vidéo de grande échelle. Le papier reste pour l'instant dans le domaine expérimental : aucun déploiement industriel ni partenaire terrain n'est mentionné. Les prochaines étapes naturelles seraient une validation sur des plateformes humanoïdes ou de manipulation industrielle, précisément les environnements où la latence d'inférence constitue un critère de qualification déterminant.
Dans nos dossiers




