
Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation
Une équipe de recherche présente Efficient-WAM, un World-Action Model (WAM) d'un milliard de paramètres conçu pour la manipulation robotique en temps réel, dont les résultats sont publiés sur arXiv (2606.10040) en juin 2026. Les WAMs constituent une classe de modèles qui couplent la prédiction visuelle du futur avec la génération d'actions motrices : le robot "imagine" ce que va ressembler la scène dans quelques instants avant de décider quoi faire. Efficient-WAM ramène la latence d'inférence à environ 100 ms par chunk lors du déploiement physique, soit un gain de 30x par rapport aux WAMs existants. Pour y parvenir, trois leviers techniques sont combinés : un expert vidéo compact distillé depuis WAN-2.2-5B (modèle de génération vidéo à 5 milliards de paramètres), des représentations vidéo token-sparse, et un débruitage asymétrique qui alloue moins d'étapes d'échantillonnage à la branche vidéo qu'à la branche action. Les évaluations portent sur le benchmark RoboTwin 2.0 et des tâches de manipulation en conditions réelles.
Le résultat central est contre-intuitif : Efficient-WAM maintient des performances d'action compétitives même si ses prédictions visuelles sont visiblement grossières, ce qui invalide l'hypothèse implicite que la fidélité photorealiste de l'imagination future est nécessaire au contrôle. Pour un intégrateur ou un responsable robotique, cela signifie que le goulot d'étranglement computationnel des WAMs n'est pas une fatalité architecturale mais un problème de design résolu ici par une re-priorisation : la vidéo future n'est plus un objectif visuel mais un signal de guidage compact pour la génération d'actions. À 100 ms par chunk, le modèle entre dans la fenêtre de faisabilité pour des boucles de contrôle sur manipulateurs industriels ou cobots, là où les WAMs précédents restaient confinés à la démonstration labo.
Les WAMs s'inscrivent dans une compétition dense avec les Vision-Language-Action models (VLAs) comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, qui traitent directement la génération d'actions sans passer par la prédiction vidéo explicite. L'argument des WAMs est que l'imagination du futur améliore la robustesse en dehors de la distribution d'entraînement, mais leur coût computationnel a jusqu'ici limité leur adoption. Efficient-WAM rééquilibre ce trade-off. La distillation depuis WAN-2.2-5B, un modèle de génération vidéo généraliste, suggère une stratégie de transfer learning inter-domaine qui pourrait s'étendre à d'autres architectures. Les prochaines étapes naturelles sont l'évaluation sur des plateformes humanoïdes complètes et des déploiements en environnements semi-structurés, deux dimensions absentes de ce papier.




