VT-WAM : modèle du monde et action visuo-tactile pour la manipulation à contacts riches
Des chercheurs présentent VT-WAM, un modèle de manipulation robotique combinant vision et toucher, décrit dans un article déposé sur arXiv (2607.02503v1) et accompagné d'un site dédié (vt-wam.github.io). Le système, un "Visual-Tactile World Action Model", apprend simultanément trois choses dans un même cadre de flow matching : prédire les images visuelles futures, prédire la déformation tactile future, et prédire l'action à exécuter. Deux mécanismes techniques soutiennent cette approche : une attention "Asymmetric Mixture-of-Transformers" (MoT) qui relie une première image de référence à la dynamique tactile dans le temps, et un module nommé AVTAG (Action-Visual-Tactile Attention Guidance) qui force le modèle à s'appuyer davantage sur le signal tactile pendant les phases de contact. Sur six tâches de manipulation en conditions réelles impliquant un contact physique important, VT-WAM atteint un taux de réussite moyen de 71,67%, contre des scores inférieurs de 26,67 points pour Fast-WAM et de 35,84 points pour OmniVTLA, deux modèles de référence utilisés en comparaison.
L'enjeu dépasse la simple performance chiffrée : les politiques visuo-tactiles existantes se contentent généralement d'injecter le signal tactile brut dans la prédiction d'action, sans modéliser comment cette déformation évolue dans le temps. Or c'est précisément sur les tâches à fort contact (insertion, préhension d'objets déformables, gestion du glissement) que les modèles purement visuels ou de type VLA (vision-language-action) échouent le plus souvent, malgré des démonstrations impressionnantes en environnement contrôlé. Pour les intégrateurs industriels qui cherchent à automatiser des opérations d'assemblage fin, ce travail illustre une piste concrète pour combler l'écart entre démonstration et fiabilité réelle.
Le papier s'inscrit dans la lignée des "world models" appliqués à la robotique, dont Fast-WAM constitue un prédécesseur direct servant de base de comparaison, aux côtés de familles de modèles VLA comme OmniVTLA. Il s'agit toutefois d'une publication académique, sans acteur industriel identifié ni date de déploiement annoncée : les résultats restent circonscrits à six tâches de laboratoire, et les auteurs eux-mêmes soulignent via leurs ablations que la modélisation de la dynamique tactile reste un problème ouvert plutôt qu'une solution définitivement close.
Dans nos dossiers




