Flash-WAM : distillation sensible aux modalités…

Tactile-WAM : modèle d'action du monde sensible au toucher avec attention asymétrique tactile

42

1arXiv cs.RO

Tactile-WAM : modèle d'action du monde sensible au toucher avec attention asymétrique tactile

Des chercheurs ont publié sur arXiv (référence 2606.26663) un modèle de manipulation robotique intégrant le retour tactile dans le cadre des World Action Models (WAMs), une famille d'architectures qui génèrent simultanément des actions et une prédiction de l'état futur du monde. Baptisé Tactile-WAM, ce système introduit un mécanisme d'attention asymétrique nommé TAAM (Tactile Asymmetric Attention Mechanism) pour combiner flux vidéo et signaux tactiles sans dégradation mutuelle. Sur le benchmark ManiFeel, spécialisé dans les tâches de manipulation au contact, Tactile-WAM améliore le taux de succès moyen de 38,9 % toutes tâches confondues, et de 86 % sur les tâches à fort contact, insertion, assemblage, recherche d'alignement et réorientation, où les caméras seules restent aveugles aux micro-glissements, aux blocages mécaniques (jamming) et aux erreurs d'alignement millimétrique. Le verrou identifié par les auteurs est ce qu'ils nomment la "pollution tactile" : injecter des tokens tactiles dans un modèle de dynamique visuelle force l'architecture à absorber des signaux locaux, épars et événementiels, ce qui perturbe à la fois la prédiction vidéo et la génération d'actions. La solution TAAM sépare les flux via un masque VideoClean, qui bloque l'accès des requêtes vidéo aux tokens tactiles tout en les conservant disponibles pour les requêtes d'action, tandis qu'un biais touch-aware, dérivé des variations tactiles prédites, module dynamiquement l'attention pendant la phase de débruitage. Ce résultat intéresse directement les intégrateurs industriels : il démontre qu'un modèle d'action peut exploiter des capteurs tactiles pour des tâches d'insertion fine en conditions réelles, sans sacrifier les performances visuelles du pipeline. Les WAMs s'inscrivent dans la continuité des modèles VLA (Vision-Language-Action) et des architectures monde telles que Dreamer, mais ciblent le contrôle robotique basse latence. La manipulation tactile est un axe de recherche actif dans plusieurs laboratoires, notamment autour des capteurs visuotactiles GelSight (MIT CSAIL) et des politiques de diffusion appliquées au contrôle fin. Tactile-WAM se distingue en traitant l'intégration multimodale au niveau de l'attention plutôt que par fusion post-hoc des modalités. Il s'agit d'un preprint arXiv non encore évalué par des pairs, sans code publié ni déploiement industriel annoncé : les résultats sur ManiFeel devront être répliqués sur des capteurs et géométries variés pour valider la généralisation en conditions de production réelles.

RechercheOpinion

1 source

EA-WM : modèles du monde sensibles aux événements pour la manipulation à long horizon

36

2arXiv cs.RO

EA-WM : modèles du monde sensibles aux événements pour la manipulation à long horizon

Des chercheurs ont soumis EA-WM (Event-Aware World Model) sur arXiv le 12 juin 2026 (arXiv:2606.13053), un cadre de planification robotique pour la manipulation à long horizon. Le système articule deux couches : une dynamique en espace de caractéristiques visuelles gelée (pretrained visual features) sur laquelle vient se greffer un module de prédiction et vérification d'événements ancré dans la spécification de tâche. EA-WM déroule des futurs candidats dans cet espace, les décode en états d'événements structurés (objet déplacé, état de contact changé, prédicat de placement satisfait), puis les score selon quatre critères : progression de la tâche, cohérence sémantique, faisabilité physique et incertitude. Le vérificateur guide l'exploration par échantillonnage et filtre les actions candidates. Dans le benchmark LIBERO, scénario wine-rack sensible aux contacts, il sélectionne parmi des propositions générées par PPO (Proximal Policy Optimization). Les évaluations couvrent navigation, manipulation d'objets déformables, contraintes murales et instructions en langage naturel. L'apport principal est de combler un angle mort structurel des modèles du monde visuels : prédire un futur visuellement plausible ne garantit pas qu'il satisfasse des conditions relationnelles de tâche (prédicats du type "le tiroir est ouvert", "l'objet est posé à l'emplacement cible"). En ajoutant une vérification explicite au niveau événementiel, EA-WM rend les modèles du monde en espace latent à la fois plus interprétables et mieux alignés avec la progression réelle des tâches, sans exiger de nouvelles données de démonstration massives. Pour un intégrateur ou un ingénieur robotique, cela ouvre un potentiel de planification robuste sans dépendre exclusivement de politiques bout-en-bout coûteuses à entraîner. Les modèles du monde en robotique connaissent une accélération depuis DreamerV3 (Google DeepMind) et les architectures VLA comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA. EA-WM se positionne dans un créneau intermédiaire : il ne remplace pas les politiques d'action mais renforce la phase de planification amont, en s'appuyant sur LIBERO comme benchmark multi-tâches désormais standard dans la communauté. À noter que ces résultats restent entièrement en simulation ; la validation sur du matériel réel et le sim-to-real transfer, points encore ouverts dans le domaine, constitueraient l'étape suivante naturelle pour démontrer une applicabilité industrielle effective.

RechercheOpinion

1 source

VT-WAM : modèle du monde et action visuo-tactile pour la manipulation à contacts riches

38

3arXiv cs.RO

VT-WAM : modèle du monde et action visuo-tactile pour la manipulation à contacts riches

Des chercheurs présentent VT-WAM, un modèle de manipulation robotique combinant vision et toucher, décrit dans un article déposé sur arXiv (2607.02503v1) et accompagné d'un site dédié (vt-wam.github.io). Le système, un "Visual-Tactile World Action Model", apprend simultanément trois choses dans un même cadre de flow matching : prédire les images visuelles futures, prédire la déformation tactile future, et prédire l'action à exécuter. Deux mécanismes techniques soutiennent cette approche : une attention "Asymmetric Mixture-of-Transformers" (MoT) qui relie une première image de référence à la dynamique tactile dans le temps, et un module nommé AVTAG (Action-Visual-Tactile Attention Guidance) qui force le modèle à s'appuyer davantage sur le signal tactile pendant les phases de contact. Sur six tâches de manipulation en conditions réelles impliquant un contact physique important, VT-WAM atteint un taux de réussite moyen de 71,67%, contre des scores inférieurs de 26,67 points pour Fast-WAM et de 35,84 points pour OmniVTLA, deux modèles de référence utilisés en comparaison. L'enjeu dépasse la simple performance chiffrée : les politiques visuo-tactiles existantes se contentent généralement d'injecter le signal tactile brut dans la prédiction d'action, sans modéliser comment cette déformation évolue dans le temps. Or c'est précisément sur les tâches à fort contact (insertion, préhension d'objets déformables, gestion du glissement) que les modèles purement visuels ou de type VLA (vision-language-action) échouent le plus souvent, malgré des démonstrations impressionnantes en environnement contrôlé. Pour les intégrateurs industriels qui cherchent à automatiser des opérations d'assemblage fin, ce travail illustre une piste concrète pour combler l'écart entre démonstration et fiabilité réelle. Le papier s'inscrit dans la lignée des "world models" appliqués à la robotique, dont Fast-WAM constitue un prédécesseur direct servant de base de comparaison, aux côtés de familles de modèles VLA comme OmniVTLA. Il s'agit toutefois d'une publication académique, sans acteur industriel identifié ni date de déploiement annoncée : les résultats restent circonscrits à six tâches de laboratoire, et les auteurs eux-mêmes soulignent via leurs ablations que la modélisation de la dynamique tactile reste un problème ouvert plutôt qu'une solution définitivement close.

RecherchePaper

1 source

HiMem-WAM : modèles d'action-monde à mémoire hiérarchique pour la manipulation robotique

38

4arXiv cs.RO

HiMem-WAM : modèles d'action-monde à mémoire hiérarchique pour la manipulation robotique

Une équipe de recherche a déposé sur arXiv (2606.10363v1) HiMem-WAM, un nouveau modèle d'action hiérarchique pour la manipulation robotique. L'architecture s'attaque à une limitation persistante des World Action Models (WAM) existants : leur incapacité à maintenir une mémoire de tâche cohérente sur des séquences longues, typiques des manipulations multi-étapes. HiMem-WAM combine trois mécanismes : des actions latentes centrées sur le mouvement (niveau bas), des latents de compétences de haut niveau, et une porte mémoire déclenchée aux transitions de compétences prédites. Ce verrou mémoire écrit des états compacts à des moments-clés, permettant l'inférence causale sans génération vidéo ni estimation de flux optique au moment du test. Le modèle a été évalué sur les benchmarks LIBERO, LIBERO-PLUS et RMBench, ainsi que sur des tâches en conditions réelles. La contribution principale est d'ordre systémique : la structuration hiérarchique améliore la robustesse sous perturbations lors du déploiement, là où la plupart des architectures VLA actuelles échouent dès qu'un événement imprévu survient en milieu de séquence. Pour un décideur industriel, c'est un signal pertinent : le module mémoire apporte, selon les auteurs, un gain substantiel sur les tâches longues dépendantes de l'historique d'action. Éviter la génération vidéo en temps d'inférence réduit également la latence et la charge computationnelle, deux freins réels au déploiement embarqué. Ces résultats restent toutefois issus d'un preprint non peer-reviewed, et les performances sur benchmarks standardisés ne garantissent pas les mêmes gains en environnement de production non contrôlé. Les World Action Models constituent un paradigme récent qui apprend les dynamiques visuelles pertinentes pour l'action, distinct des architectures VLA classiques comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, lesquelles s'appuient sur des transformers multimodaux de grande taille. La manipulation longue-horizon reste un défi ouvert pour l'ensemble du secteur : ni les diffusion-policies ni les modèles language-conditioned n'ont résolu le maintien du contexte sur des séquences dépassant une dizaine de sous-tâches. HiMem-WAM propose une piste architecturale concrète, mais sans intégration hardware annoncée ni timeline de déploiement, ce qui en fait pour l'instant une contribution de recherche fondamentale.

RechercheOpinion

1 source

Flash-WAM : distillation sensible aux modalités pour les modèles monde-action

À lire aussi

Tactile-WAM : modèle d'action du monde sensible au toucher avec attention asymétrique tactile

EA-WM : modèles du monde sensibles aux événements pour la manipulation à long horizon

VT-WAM : modèle du monde et action visuo-tactile pour la manipulation à contacts riches

HiMem-WAM : modèles d'action-monde à mémoire hiérarchique pour la manipulation robotique