Tactile-WAM : modèle d'action du monde sensible au toucher avec attention asymétrique tactile
Des chercheurs ont publié sur arXiv (référence 2606.26663) un modèle de manipulation robotique intégrant le retour tactile dans le cadre des World Action Models (WAMs), une famille d'architectures qui génèrent simultanément des actions et une prédiction de l'état futur du monde. Baptisé Tactile-WAM, ce système introduit un mécanisme d'attention asymétrique nommé TAAM (Tactile Asymmetric Attention Mechanism) pour combiner flux vidéo et signaux tactiles sans dégradation mutuelle. Sur le benchmark ManiFeel, spécialisé dans les tâches de manipulation au contact, Tactile-WAM améliore le taux de succès moyen de 38,9 % toutes tâches confondues, et de 86 % sur les tâches à fort contact, insertion, assemblage, recherche d'alignement et réorientation, où les caméras seules restent aveugles aux micro-glissements, aux blocages mécaniques (jamming) et aux erreurs d'alignement millimétrique.
Le verrou identifié par les auteurs est ce qu'ils nomment la "pollution tactile" : injecter des tokens tactiles dans un modèle de dynamique visuelle force l'architecture à absorber des signaux locaux, épars et événementiels, ce qui perturbe à la fois la prédiction vidéo et la génération d'actions. La solution TAAM sépare les flux via un masque VideoClean, qui bloque l'accès des requêtes vidéo aux tokens tactiles tout en les conservant disponibles pour les requêtes d'action, tandis qu'un biais touch-aware, dérivé des variations tactiles prédites, module dynamiquement l'attention pendant la phase de débruitage. Ce résultat intéresse directement les intégrateurs industriels : il démontre qu'un modèle d'action peut exploiter des capteurs tactiles pour des tâches d'insertion fine en conditions réelles, sans sacrifier les performances visuelles du pipeline.
Les WAMs s'inscrivent dans la continuité des modèles VLA (Vision-Language-Action) et des architectures monde telles que Dreamer, mais ciblent le contrôle robotique basse latence. La manipulation tactile est un axe de recherche actif dans plusieurs laboratoires, notamment autour des capteurs visuotactiles GelSight (MIT CSAIL) et des politiques de diffusion appliquées au contrôle fin. Tactile-WAM se distingue en traitant l'intégration multimodale au niveau de l'attention plutôt que par fusion post-hoc des modalités. Il s'agit d'un preprint arXiv non encore évalué par des pairs, sans code publié ni déploiement industriel annoncé : les résultats sur ManiFeel devront être répliqués sur des capteurs et géométries variés pour valider la généralisation en conditions de production réelles.
Dans nos dossiers




