
WAM4D : modèle d'action du monde 4D rapide via des tokens de registre spatial
Une équipe de chercheurs a publié fin juin 2026 sur arXiv (arXiv:2606.14048) WAM4D, un modèle d'action mondial (WAM) capable de prédire simultanément vidéo future et actions robotiques en espace 4D (3D plus temps). Sa contribution centrale repose sur des spatial register tokens légers, injectés à l'entraînement dans un transformeur causal de type Mixture-of-Transformers pour y distiller des priors géométriques denses, puis supprimés à l'inférence afin de préserver la vitesse de génération d'actions. L'architecture intègre également une attention causale mixte (causal mixture attention) segmentant la visibilité entre tokens vidéo, action et géométrie. Les résultats sont évalués sur le benchmark RoboTwin 2.0 et sur des tâches de manipulation réelle, avec des gains mesurés en cohérence spatiale et en précision de prédiction d'action.
L'intérêt de l'approche tient à un compromis longtemps bloquant en robotique de manipulation: les WAMs opérant en espace 2D ou latent produisent des rollouts visuellement plausibles mais ignorent les contraintes géométriques 3D et la géométrie de contact occludée, deux facteurs critiques pour la préhension précise. À l'inverse, forcer une représentation 4D dense à l'inférence alourdit le décodage géométrique et ralentit la génération d'actions causales. WAM4D dissocie les deux phases en apprenant la géométrie à l'entraînement via les register tokens, sans répercuter ce coût à l'inférence, une stratégie comparable au token pruning dans les Vision Transformers. Ce découplage entraînement/inférence pourrait représenter un levier concret pour les équipes robotiques cherchant à intégrer des priors 3D dans des politiques fonctionnant en temps réel.
Les WAMs s'inscrivent dans une tendance plus large visant à doter les robots de politiques génératives capables de simuler leurs propres conséquences avant d'agir, un domaine en concurrence directe avec UniSim et Genie 2 (Google DeepMind), ainsi que les Visual Language Action models comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. WAM4D se distingue de ces approches par son ancrage explicite en géométrie 4D, là où la majorité des VLAs raisonnent en espace de features visuelles 2D ou latentes. Le paper ne mentionne ni déploiement industriel ni partenariat commercial; il s'agit d'une contribution académique dont les suites naturelles seraient une validation sur des benchmarks standardisés comme Open X-Embodiment ou des tests sur des plateformes commerciales (Franka, UR, xArm).
Dans nos dossiers




