DIM-WAM : modélisation monde-action avec mémoire d'événements historiques diversifiés
Des chercheurs du CASIA (Institute of Automation de l'Académie des sciences chinoise) ont publié fin juin 2026 sur arXiv un préprint décrivant DiM-WAM, un modèle de type "world-action model" augmenté d'une mémoire multi-échelle conçue pour les tâches de manipulation robotique à longue séquence. Sur le benchmark RMBench, l'architecture fait passer le taux de succès moyen de 28,4 % (baseline LingBot-VA) à 69,8 %, dépassant nettement la baseline à mémoire explicite Mem-0 qui plafonnait à 42,0 %. Sur quatre tâches réelles exécutées sur bras Franka, DiM-WAM améliore le succès par étape de 70,7 % à 91,5 % et le succès complet de tâche de 52,5 % à 80,0 %, soit un gain absolu de 27,5 points.
Ce résultat est notable car il attaque directement l'un des points d'échec systématiques des modèles vision-langage-action actuels : l'oubli des événements antérieurs lors de séquences longues. Contrairement aux architectures VLA classiques qui se limitent à un contexte court (quelques frames récentes), DiM-WAM maintient plusieurs banques mémoire mises à jour par fusion basée sur la similarité, et conditionne conjointement la dénoisation vidéo et la génération d'action sur ce contexte historique long. Un signal d'entraînement inédit, la "progress supervision", pousse les tokens mémoire à encoder non seulement les événements passés mais aussi l'étape courante de la tâche et ses implications sur la suite. Pour un intégrateur industriel, cela adresse un prérequis concret : permettre à un robot de reprendre une séquence après une interruption ou de conditionner une action sur un état observé plusieurs secondes plus tôt.
Les world-action models constituent une évolution récente des VLA, inspirée des travaux sur la prédiction vidéo (world models) appliqués à la robotique, avec des architectures comme celles de Physical Intelligence (Pi-0) ou DreamerV3 adaptés au contrôle. DiM-WAM se positionne dans ce champ en ajoutant la dimension mémoire longue, un problème que le domaine reconnaît mais peu de travaux ont quantifié en conditions réelles. La validation sur Franka, robot académique standard à 7 DOF, reste modeste en échelle (quatre tâches, environnement contrôlé), et le preprint n'annonce pas de déploiement industriel ni de partenariat commercial. Les prochaines étapes probables incluent une évaluation sur des benchmarks plus larges comme SimplerEnv ou des plateformes humanoïdes, et une ouverture du code source évoquée via la page projet.




