
MemoryWAM : modélisation monde-action efficace avec mémoire persistante
La manipulation robotique longue durée exige une mémoire procédurale que la majorité des modèles actuels ne possèdent pas. MemoryWAM, un modèle monde-action (WAM, world action model) présenté en préprint arXiv (réf. 2506.20562, juin 2026), propose une architecture de mémoire hybride pour combler ce manque. Le système repose sur trois niveaux : des trames récentes pour le contexte immédiat, des trames ancres positionnées aux frontières d'événements clés de la séquence, et des gist tokens, des représentations compressées résumant l'historique long terme. Un mécanisme d'attention sur mesure permet d'interroger simultanément ces trois niveaux, conjuguant précision à court terme et cohérence à long terme. Les auteurs reportent des performances supérieures aux baselines VLA (vision-language-action) et WAM sur des tâches de manipulation à long horizon, en simulation et en environnement réel, avec une latence d'inférence et une consommation mémoire GPU réduites.
Le verrou adressé est structurel : les WAM actuels choisissent entre fenêtre d'observation bornée, efficace mais aveugle au passé, et historique complet, précis mais dont le coût en temps et en VRAM croit avec la longueur de la séquence. Dans les environnements non-markoviens, c'est-à-dire lorsque la décision optimale dépend d'événements situés hors de la fenêtre courante, situation fréquente dans les tâches d'assemblage ou de pick-and-place multi-étapes, ce compromis devient rédhibitoire. La stratégie des gist tokens propose une alternative : comprimer sélectivement plutôt que stocker exhaustivement, ce qui maintient des performances d'inférence compatibles avec un déploiement embarqué. Pour les intégrateurs robotiques et les équipes R&D industrielles, l'enjeu est double : des robots capables de réagir à un historique long sans multiplier les ressources GPU, et une voie vers des VLA plus robustes hors des conditions de laboratoire.
Les modèles monde-action s'inscrivent dans une lignée qui cherche à dépasser les VLA purs en ajoutant une modélisation dynamique visuelle, la prédiction de frames futures servant de signal de supervision auxiliaire. Des travaux comme UniSim ou DreamerV3 ont exploré cette direction en contexte général ; MemoryWAM l'applique spécifiquement à la manipulation longue durée. Ses concurrents directs incluent des VLA à contexte court tels que Pi-0 de Physical Intelligence, OpenVLA ou RoboFlamingo, qui peinent sur les séquences avec dépendances temporelles distantes. Le papier reste un preprint sans code ni poids publiés, et ses benchmarks proviennent de protocoles internes, ce qui limite la portée immédiate pour les praticiens. Une comparaison sur des jeux de données standardisés comme LIBERO ou RLBench sera nécessaire pour évaluer la généralisation réelle de l'approche. Ni partenariat industriel ni calendrier de déploiement ne sont mentionnés.




