Aller au contenu principal
IA physiquearXiv cs.RO2h

DIM-WAM : modélisation monde-action avec mémoire d'événements historiques diversifiés

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs du CASIA (Institute of Automation de l'Académie des sciences chinoise) ont publié fin juin 2026 sur arXiv un préprint décrivant DiM-WAM, un modèle de type "world-action model" augmenté d'une mémoire multi-échelle conçue pour les tâches de manipulation robotique à longue séquence. Sur le benchmark RMBench, l'architecture fait passer le taux de succès moyen de 28,4 % (baseline LingBot-VA) à 69,8 %, dépassant nettement la baseline à mémoire explicite Mem-0 qui plafonnait à 42,0 %. Sur quatre tâches réelles exécutées sur bras Franka, DiM-WAM améliore le succès par étape de 70,7 % à 91,5 % et le succès complet de tâche de 52,5 % à 80,0 %, soit un gain absolu de 27,5 points.

Ce résultat est notable car il attaque directement l'un des points d'échec systématiques des modèles vision-langage-action actuels : l'oubli des événements antérieurs lors de séquences longues. Contrairement aux architectures VLA classiques qui se limitent à un contexte court (quelques frames récentes), DiM-WAM maintient plusieurs banques mémoire mises à jour par fusion basée sur la similarité, et conditionne conjointement la dénoisation vidéo et la génération d'action sur ce contexte historique long. Un signal d'entraînement inédit, la "progress supervision", pousse les tokens mémoire à encoder non seulement les événements passés mais aussi l'étape courante de la tâche et ses implications sur la suite. Pour un intégrateur industriel, cela adresse un prérequis concret : permettre à un robot de reprendre une séquence après une interruption ou de conditionner une action sur un état observé plusieurs secondes plus tôt.

Les world-action models constituent une évolution récente des VLA, inspirée des travaux sur la prédiction vidéo (world models) appliqués à la robotique, avec des architectures comme celles de Physical Intelligence (Pi-0) ou DreamerV3 adaptés au contrôle. DiM-WAM se positionne dans ce champ en ajoutant la dimension mémoire longue, un problème que le domaine reconnaît mais peu de travaux ont quantifié en conditions réelles. La validation sur Franka, robot académique standard à 7 DOF, reste modeste en échelle (quatre tâches, environnement contrôlé), et le preprint n'annonce pas de déploiement industriel ni de partenariat commercial. Les prochaines étapes probables incluent une évaluation sur des benchmarks plus larges comme SimplerEnv ou des plateformes humanoïdes, et une ouverture du code source évoquée via la page projet.

À lire aussi

MemoryWAM : modélisation monde-action efficace avec mémoire persistante
1arXiv cs.RO 

MemoryWAM : modélisation monde-action efficace avec mémoire persistante

La manipulation robotique longue durée exige une mémoire procédurale que la majorité des modèles actuels ne possèdent pas. MemoryWAM, un modèle monde-action (WAM, world action model) présenté en préprint arXiv (réf. 2506.20562, juin 2026), propose une architecture de mémoire hybride pour combler ce manque. Le système repose sur trois niveaux : des trames récentes pour le contexte immédiat, des trames ancres positionnées aux frontières d'événements clés de la séquence, et des gist tokens, des représentations compressées résumant l'historique long terme. Un mécanisme d'attention sur mesure permet d'interroger simultanément ces trois niveaux, conjuguant précision à court terme et cohérence à long terme. Les auteurs reportent des performances supérieures aux baselines VLA (vision-language-action) et WAM sur des tâches de manipulation à long horizon, en simulation et en environnement réel, avec une latence d'inférence et une consommation mémoire GPU réduites. Le verrou adressé est structurel : les WAM actuels choisissent entre fenêtre d'observation bornée, efficace mais aveugle au passé, et historique complet, précis mais dont le coût en temps et en VRAM croit avec la longueur de la séquence. Dans les environnements non-markoviens, c'est-à-dire lorsque la décision optimale dépend d'événements situés hors de la fenêtre courante, situation fréquente dans les tâches d'assemblage ou de pick-and-place multi-étapes, ce compromis devient rédhibitoire. La stratégie des gist tokens propose une alternative : comprimer sélectivement plutôt que stocker exhaustivement, ce qui maintient des performances d'inférence compatibles avec un déploiement embarqué. Pour les intégrateurs robotiques et les équipes R&D industrielles, l'enjeu est double : des robots capables de réagir à un historique long sans multiplier les ressources GPU, et une voie vers des VLA plus robustes hors des conditions de laboratoire. Les modèles monde-action s'inscrivent dans une lignée qui cherche à dépasser les VLA purs en ajoutant une modélisation dynamique visuelle, la prédiction de frames futures servant de signal de supervision auxiliaire. Des travaux comme UniSim ou DreamerV3 ont exploré cette direction en contexte général ; MemoryWAM l'applique spécifiquement à la manipulation longue durée. Ses concurrents directs incluent des VLA à contexte court tels que Pi-0 de Physical Intelligence, OpenVLA ou RoboFlamingo, qui peinent sur les séquences avec dépendances temporelles distantes. Le papier reste un preprint sans code ni poids publiés, et ses benchmarks proviennent de protocoles internes, ce qui limite la portée immédiate pour les praticiens. Une comparaison sur des jeux de données standardisés comme LIBERO ou RLBench sera nécessaire pour évaluer la généralisation réelle de l'approche. Ni partenariat industriel ni calendrier de déploiement ne sont mentionnés.

IA physiqueOpinion
1 source
WALL-WM : modélisation des actions du monde aux points d'articulation d'événements
2arXiv cs.RO 

WALL-WM : modélisation des actions du monde aux points d'articulation d'événements

Une équipe de chercheurs a publié le 2 juin 2026 sur arXiv (arXiv:2606.01955) les travaux portant sur WALL-WM, un World Action Model (WAM) qui propose de repenser la manière dont les modèles Vision-Language-Action (VLA) sont entraînés pour la robotique généraliste. Là où les approches dominantes, comme celles exploitées par Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2), optimisent des "chunks" d'actions à longueur fixe conditionnés sur l'observation courante, WALL-WM substitue à cette unité temporelle arbitraire l'événement sémantique : une séquence d'actions cohérente du point de vue du sens (attraper un objet, ouvrir un tiroir), extraite automatiquement par des légendes au niveau événementiel et un échantillonnage cluster-balancé. Le modèle expose deux modes d'inférence : un mode "event" qui consomme des descriptions de l'événement suivant et produit des chunks à longueur variable, et un mode "unified" qui applique un mécanisme baptisé Staircase Decoding pour conserver une inférence à longueur fixe tout en maintenant un chemin VLA à gradient continu. Le tout est entraîné à grande échelle via l'optimiseur Muon, et les auteurs revendiquent des performances état de l'art sur une évaluation de généralisation en monde réel à large échelle, sans préciser les benchmarks ni les données de déploiement. L'intérêt de l'approche réside dans le diagnostic qu'elle formule : le désalignement de granularité entre langage (objectifs sémantiques), vision (dynamique de scène continue) et actions (timescales de contrôle) transforme l'entraînement VLA classique en simple fitting de corrélations à court horizon, ce qui explique les difficultés de généralisation observées hors distribution. En traitant l'événement comme unité atomique d'apprentissage, WALL-WM offre une piste sérieuse pour réduire le sim-to-real gap et améliorer le transfer sur des tâches et des scènes non vues, deux verrous majeurs qui bloquent le passage à l'échelle industrielle des robots manipulateurs. Il convient cependant de rester prudent : il s'agit d'un preprint sans revue par les pairs, sans données de déploiement terrain, et sans détail sur les benchmarks précis utilisés pour établir la supériorité annoncée. WALL-WM s'inscrit dans une vague de recherche sur les WAMs qui a pris de l'ampleur depuis 2024, portée notamment par Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec RT-2 et ses successeurs, et NVIDIA avec GR00T N2 pour les humanoïdes. Ces modèles partagent l'ambition de pré-entraîner des politiques robotiques générales sur des données hétérogènes avant de les affiner par tâche. La contribution de WALL-WM est théoriquement propre et l'infrastructure Muon suggère un effort de calcul significatif, mais l'absence de résultats quantitatifs détaillés dans le résumé limite l'évaluation externe. Les prochaines étapes attendues sont une publication complète avec benchmarks reproduisibles (LIBERO, OpenVLA-OFT, RoboMimic) et, idéalement, des partenariats industriels pour validation en environnement de production.

IA physiqueOpinion
1 source
Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions
3arXiv cs.RO 

Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions

Des chercheurs présentent WLA (World-Language-Action), une nouvelle classe de modèles de fondation incarnés pour la robotique, dans un preprint arXiv publié début juin 2026. Le modèle prototype WLA-0, fort de 2 milliards de paramètres actifs, prend en entrée des instructions textuelles, des images et l'état du robot pour générer simultanément des sous-tâches textuelles, des images de sous-objectifs et des commandes motrices. Sur l'NVIDIA RTX 5090, le temps d'inférence est de 40 ms par cycle, ce qui reste dans les plages acceptables pour le contrôle temps réel. Les évaluations atteignent 92,94 % de taux de succès sur le benchmark RoboTwin2.0 Clean et 56,5 % sur RMBench, deux protocoles de référence pour les tâches multi-objets et longue portée. L'intérêt architectural réside dans la fusion de deux paradigmes jusqu'ici distincts : le world modeling, qui consiste à apprendre une représentation prédictive du monde à partir de vidéos égocentrées, et le language reasoning propre aux modèles VLA (Vision-Language-Action) tels que Pi-0 ou OpenVLA. WLA opte pour un backbone Transformer autorégressif plutôt que le Transformer de diffusion bidirectionnel utilisé dans les WAM (World-Action Models), ce qui permet de prédire l'état suivant en deux niveaux complémentaires : intention sémantique textuelle d'un côté, dynamiques physiques fines de l'autre. Un mécanisme de meta-queries rend l'influence du world modeling implicite à l'inférence, mais peut être activé pour du test-time scaling, technique qui améliore le contrôle en allouant davantage de calcul à l'exécution. La capacité annoncée d'apprendre de nouvelles tâches à partir de vidéos cross-embodiment sans annotations d'actions est notable, mais reste à valider sur des robots hétérogènes en dehors d'environnements simulés. WLA s'inscrit dans une course dense à l'unification des modèles robotiques. Face à Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui misent chacun sur des architectures diffusion ou VLA, WLA propose une troisième voie autoregressive combinant génération de sous-objectifs visuels et raisonnement linguistique. L'article reste un preprint non validé par les pairs, sans déploiement industriel annoncé. Les prochaines étapes naturelles seraient une évaluation sur des plateformes physiques variées et des benchmarks réels, les performances simulées étant connues pour surestimer les capacités en conditions d'exploitation. Aucun acteur européen n'est impliqué dans ces travaux.

IA physiqueOpinion
1 source
World Pilot : piloter les modèles VLA avec des a priori monde-action
4arXiv cs.RO 

World Pilot : piloter les modèles VLA avec des a priori monde-action

Une équipe de chercheurs a publié World Pilot (arXiv:2606.12403, juin 2026), un framework conçu pour combler une lacune structurelle des modèles Vision-Language-Action (VLA). Ces modèles, comme Pi-0 de Physical Intelligence ou RT-2 de Google Robotics, tirent leur force d'un préentraînement sur de vastes corpus image-texte, mais ce préentraînement s'appuie sur des paires statiques, alors que la manipulation robotique est un processus continu et riche en contacts dont la dynamique leur échappe. World Pilot introduit un World-Action Model (WAM) qui injecte deux types de priors dans la chaîne de décision : le Latent Steering conditionne la couche de perception sur un latent d'évolution de scène, et l'Action Steering fournit une trajectoire anticipée comme prior de mouvement au générateur d'actions. Sur le benchmark LIBERO-Plus en configuration zero-shot out-of-distribution (OOD), le système atteint 84,7 % de taux de succès global et affiche les meilleurs résultats sur quatre tâches de manipulation en environnement réel, avec des marges significatives lors de variations de point de vue, de géométrie d'objets, d'état déformable et de pose. L'intérêt principal de cette approche est de renforcer la robustesse des VLA face aux écarts de distribution sans réentraînement massif. Fait notable : le prior d'évolution de scène reste efficace même lorsqu'il provient d'un world model préentraîné sur vidéo uniquement, sans post-entraînement sur des données d'action, ce qui rend l'augmentation de VLA existants nettement plus accessible. Pour les équipes de déploiement industriel, cela signifie potentiellement moins de données de fine-tuning pour adapter un modèle à un contexte visuel inédit. Le benchmark zero-shot OOD reste l'un des indicateurs les plus exigeants du domaine, là où la majorité des politiques robotiques s'effondrent dès qu'elles sortent de leur distribution d'entraînement. World Pilot s'inscrit dans un courant actif qui vise à doter les politiques robotiques d'un modèle interne du monde, une direction explorée par DeepMind avec DreamerV3 et par Meta via l'architecture JEPA de Yann LeCun. Les VLA ont démontré des capacités de généralisation sémantique prometteuses, mais leur fragilité face aux variations physiques de l'environnement constituait un frein structurel au déploiement industriel. La question ouverte est de savoir si les marges observées sur LIBERO-Plus se maintiendront sur des benchmarks plus larges comme Open-X-Embodiment et sur des plateformes commerciales telles que les bras Franka Robotics ou Universal Robots, étapes nécessaires pour valider la portée industrielle de l'approche.

UESi les résultats se confirment sur Franka Robotics (allemand) et Universal Robots (danois), plateformes dominantes en Europe, cette approche pourrait réduire le coût d'adaptation des VLA aux lignes industrielles européennes sans données d'action supplémentaires.

💬 Le résultat qui compte vraiment, c'est pas les 84% sur le benchmark, c'est que le prior de scène fonctionne avec un world model entraîné sur vidéo uniquement, zéro donnée d'action. Ça veut dire qu'on peut augmenter un Pi-0 ou un RT-2 sans repartir en fine-tuning robotique de zéro, ce qui était le vrai blocage jusqu'ici. Reste à voir si ça tient sur un Franka en prod, mais c'est le genre de papier qu'on garde sous le coude.

IA physiqueOpinion
1 source