Aller au contenu principal
RecherchearXiv cs.RO2h

Tactile-WAM : modèle d'action du monde sensible au toucher avec attention asymétrique tactile

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2606.26663) un modèle de manipulation robotique intégrant le retour tactile dans le cadre des World Action Models (WAMs), une famille d'architectures qui génèrent simultanément des actions et une prédiction de l'état futur du monde. Baptisé Tactile-WAM, ce système introduit un mécanisme d'attention asymétrique nommé TAAM (Tactile Asymmetric Attention Mechanism) pour combiner flux vidéo et signaux tactiles sans dégradation mutuelle. Sur le benchmark ManiFeel, spécialisé dans les tâches de manipulation au contact, Tactile-WAM améliore le taux de succès moyen de 38,9 % toutes tâches confondues, et de 86 % sur les tâches à fort contact, insertion, assemblage, recherche d'alignement et réorientation, où les caméras seules restent aveugles aux micro-glissements, aux blocages mécaniques (jamming) et aux erreurs d'alignement millimétrique.

Le verrou identifié par les auteurs est ce qu'ils nomment la "pollution tactile" : injecter des tokens tactiles dans un modèle de dynamique visuelle force l'architecture à absorber des signaux locaux, épars et événementiels, ce qui perturbe à la fois la prédiction vidéo et la génération d'actions. La solution TAAM sépare les flux via un masque VideoClean, qui bloque l'accès des requêtes vidéo aux tokens tactiles tout en les conservant disponibles pour les requêtes d'action, tandis qu'un biais touch-aware, dérivé des variations tactiles prédites, module dynamiquement l'attention pendant la phase de débruitage. Ce résultat intéresse directement les intégrateurs industriels : il démontre qu'un modèle d'action peut exploiter des capteurs tactiles pour des tâches d'insertion fine en conditions réelles, sans sacrifier les performances visuelles du pipeline.

Les WAMs s'inscrivent dans la continuité des modèles VLA (Vision-Language-Action) et des architectures monde telles que Dreamer, mais ciblent le contrôle robotique basse latence. La manipulation tactile est un axe de recherche actif dans plusieurs laboratoires, notamment autour des capteurs visuotactiles GelSight (MIT CSAIL) et des politiques de diffusion appliquées au contrôle fin. Tactile-WAM se distingue en traitant l'intégration multimodale au niveau de l'attention plutôt que par fusion post-hoc des modalités. Il s'agit d'un preprint arXiv non encore évalué par des pairs, sans code publié ni déploiement industriel annoncé : les résultats sur ManiFeel devront être répliqués sur des capteurs et géométries variés pour valider la généralisation en conditions de production réelles.

À lire aussi

Flash-WAM : distillation sensible aux modalités pour les modèles monde-action
1arXiv cs.RO 

Flash-WAM : distillation sensible aux modalités pour les modèles monde-action

Des chercheurs ont publié Flash-WAM (arXiv:2606.05254v1), une méthode de distillation conçue pour accélérer les "world-action models" (WAMs), des architectures de diffusion qui génèrent simultanément une prédiction vidéo du futur et les commandes robot associées. Le verrou que Flash-WAM tente de lever : ces modèles nécessitent des dizaines de passes de débruitage par chunk d'actions, aboutissant à une latence de 8,1 secondes par chunk sur GPU NVIDIA L40S, ce qui exclut tout contrôle en temps réel. En compressant l'inférence à une seule étape par modalité via une distillation par consistance adaptée, Flash-WAM ramène cette latence à 348 ms, soit un facteur 23x. Appliqué au modèle LingBot-VA, il atteint 85,5% de succès sur le benchmark RoboTwin 2.0, 95,7% sur LIBERO, et 60% en moyenne sur un humanoïde réel Unitree G1. L'originalité de Flash-WAM réside dans le traitement asymétrique des deux modalités. Le flux action et le flux vidéo dans un WAM opèrent sur des schedules de bruit fondamentalement différents (SNR-shifted noise schedules) : appliquer une seule paramétrisation à l'ensemble dégrade les performances de façon sévère, la distillation naïve par consistance chutant à 24% de succès en conditions réelles. Flash-WAM contourne ce problème avec une paramétrisation linéaire à gradient scalé pour le flux action (régime faible bruit) et une paramétrisation variance-preserving pour le flux vidéo (régime fort bruit). Ce résultat valide l'idée qu'un robot peut boucler en temps réel sur ses prédictions de monde sans matériel exotique, à condition d'adapter la distillation à la nature propre de chaque signal. Les WAMs s'inscrivent dans une tendance récente fusionnant prédiction vidéo et politique robot dans un modèle de diffusion unifié, une approche portée par des travaux comme GR00T N2 de NVIDIA, Pi-0.5 de Physical Intelligence, ou les VLAs (vision-language-action models) au sens large. LingBot-VA est l'un de ces modèles joints récents sur lequel Flash-WAM est instancié. Le sim-to-real gap demeure visible dans les résultats (60% en réel contre 85,5% en simulation sur RoboTwin 2.0), mais le gain de 36 points sur la distillation naïve confirme la pertinence de l'approche pour des déploiements futurs sur manipulateurs industriels ou humanoïdes à usage général.

RechercheOpinion
1 source
WAM-Nav : modélisation monde-action asymétrique en espace latent pour la navigation visuelle unifiée
2arXiv cs.RO 

WAM-Nav : modélisation monde-action asymétrique en espace latent pour la navigation visuelle unifiée

Des chercheurs ont publié WAM-Nav (Latent World-Action Model for Navigation), un système de navigation visuelle incarnée qui couple la génération d'actions et la prévision visuelle dans un seul modèle, déposé sur arXiv en juin 2026 (réf. 2606.04907). L'architecture repose sur un Diffusion Transformer partagé qui effectue une diffusion jointe asymétrique : il génère simultanément des actions à long horizon et une anticipation visuelle à court horizon, sans recourir aux rollouts autorégressifs multi-étapes qui alourdissent la latence d'inférence. Un mécanisme de conditionnement contextuel à double flux intègre l'historique d'ego-motion à l'échelle de l'épisode et les observations visuelles séquentielles, favorisant des trajectoires lisses et cohérentes. Un module d'alignement d'objectif unifié permet à WAM-Nav de gérer trois modes dans une seule politique : Image-Goal, Point-Goal et exploration libre (No-Goal). Sur les benchmarks ClutterScenes et InternScenes, le système améliore les taux de réussite de 15,7 % en Image-Goal et de 3,3 % en Point-Goal. En déploiement réel, WAM-Nav atteint 85 % de taux de succès moyen sur des environnements intérieurs et extérieurs variés, sans fine-tuning, soit un transfert sim-to-real zéro-shot. Ce résultat intéresse directement les intégrateurs de robotique mobile pour deux raisons concrètes. D'abord, la résolution simultanée de l'action et de l'imagination visuelle dans un seul réseau réduit l'accumulation d'erreurs typique des architectures modulaires, où le prédicteur de scène et le module de politique sont entraînés séparément et se propagent mutuellement leurs erreurs. Ensuite, un taux de 85 % en zéro-shot sur des environnements variés représente un indicateur sérieux, même si les conditions de test (densité d'obstacles, vitesses, types de sols) ne sont pas détaillées dans le résumé et méritent d'être examinées dans le papier complet. Pour un COO ou un décideur B2B, cette architecture suggère des robots de navigation capables de s'adapter à de nouveaux scénarios sans collecte de données coûteuse sur site. Le sim-to-real gap reste l'un des blocages majeurs de la robotique mobile autonome depuis des années : les politiques entraînées en simulation échouent souvent au contact du monde réel en raison des différences de rendu, de dynamique et de bruit des capteurs. WAM-Nav s'inscrit dans une vague de travaux qui combinent modèles de diffusion pour la génération d'actions et représentations latentes du monde, dans la lignée des World Models de type RSSM ou des VLA comme Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA. Sur le plan concurrentiel, des approches comme NoMaD, ViNT ou les stacks Nav2/ROS 2 restent des références opérationnelles sur AMR commerciaux, et WAM-Nav devra être comparé à ces systèmes dans des conditions contrôlées identiques pour confirmer sa supériorité pratique. L'étape suivante naturelle serait une validation sur des plateformes matérielles réelles en conditions industrielles, dont aucun partenariat ni timeline n'est annoncé à ce stade.

RecherchePaper
1 source
Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts
3arXiv cs.RO 

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts

Des chercheurs ont publié le 9 juin 2026 sur arXiv (arXiv:2606.08737) Dream-Tac, un modèle d'action mondial unifié intégrant la modalité tactile pour la manipulation robotique en contact. L'architecture joint trois dimensions simultanément : la génération d'actions, la prédiction d'observations visuelles futures et la dynamique tactile. Deux contributions techniques structurent le système : une fusion visuotactile à déclenchement par contact ("contact-gated visuotactile fusion"), qui intègre sélectivement les signaux tactiles uniquement lors des phases d'interaction physique effective, et un biais d'attention conscient du contact ("contact-aware attention bias") régulant les échanges cross-modaux. Pour rendre le modèle déployable en temps réel, les auteurs introduisent une stratégie d'accélération à deux niveaux : reformulation du biais lors de l'entraînement pour préserver les chemins d'attention fusionnés, et accélération de la diffusion par cache à l'inférence. Résultat annoncé : entraînement 2,9 fois plus rapide, inférence 1,8 fois plus rapide. Sur six tâches de manipulation en contact riche, Dream-Tac améliore la précision des actions de 31,7 % en moyenne. Le code est publié sur GitHub. Le résultat le plus significatif n'est pas le chiffre brut des 31,7 %, mais ce qu'il révèle sur une limitation structurelle des modèles d'action mondiaux (world action models) actuels : ces architectures, qui héritent la capacité prédictive des world models pour guider la génération d'actions, s'appuient quasi exclusivement sur la vision. Or, la vision seule est insuffisante pour les tâches à fort contact (assemblage de pièces, vissage, insertion de connecteurs, manipulation d'objets souples) où les signaux critiques sont d'ordre haptique. Dream-Tac adresse directement ce "reality gap" tactile, en montrant que l'intégration conditionnelle de la modalité tactile dans le pipeline de diffusion améliore substantiellement la robustesse. Pour les intégrateurs industriels et les équipes robotique travaillant sur des cellules d'assemblage ou de finishing, c'est un signal clair que les VLA (Vision-Language-Action models) ne suffisent pas seuls pour les cas d'usage à contact. Le contexte est celui d'une compétition intense entre laboratoires sur la manipulation dextère. Physical Intelligence (pi0, pi0-FAST), Boston Dynamics, Figure AI et Agility Robotics investissent massivement dans des pipelines de manipulation généralisable, principalement visuels. Côté recherche académique, des travaux comme DexDiffuser ou UniDexGrasp ont posé les bases de la manipulation dextère par diffusion, mais sans intégration tactile unifiée. Dream-Tac s'inscrit dans une tendance émergente visant à enrichir ces pipelines avec des capteurs de contact (GelSight, Digit, BubbleGripper), encore peu intégrés dans les architectures de world models. Il s'agit ici d'un article de recherche arXiv, pas d'un produit ou d'un déploiement industriel : les six tâches de validation sont des benchmarks contrôlés en laboratoire, et la généralisation à des environnements réels non structurés reste à démontrer. Les prochaines étapes naturelles seraient une validation sur des plateformes hardware commerciales (UR, Franka, ou bras dextre humanoïde) et une extension à des gripper tactiles standardisés disponibles sur le marché.

RechercheOpinion
1 source
Being-H0.7 : un modèle du monde-action en perspective égocentrique
4arXiv cs.RO 

Being-H0.7 : un modèle du monde-action en perspective égocentrique

Being-H0.7, un modèle de contrôle robotique publié sur arXiv début mai 2026 (référence 2605.00078), introduit une architecture dite "latent world-action model" pour les politiques robotiques généralisées. Le système repose sur une conception à double branche : une branche "prior" déployable en production, qui infère des états latents à partir de l'observation courante, et une branche "posterior" réservée à l'entraînement, qui enrichit ces états avec des embeddings issus d'observations futures. À l'inférence, seule la branche prior est active, sans génération de frames vidéo. Évalué sur six benchmarks de simulation standard et des tâches en environnement réel, Being-H0.7 atteint des performances à l'état de l'art ou comparables aux meilleurs modèles du moment. Le problème central que résout cette architecture est bien documenté dans la communauté VLA (Visual-Language-Action) : une supervision trop sparse sur les actions pousse les modèles à apprendre des correspondances raccourcies, sans représentation interne des dynamiques physiques, des contacts ni de la progression de la tâche. Les tentatives antérieures d'intégrer des world models au contrôle robotique passaient par la prédiction en espace pixel, ce qui multiplie le coût computationnel à l'entraînement et à l'inférence, et oblige le modèle à modéliser des détails visuels sans valeur pour la décision motrice. Being-H0.7 contourne ce goulot en imposant le raisonnement futur dans un espace latent compact, via des "latent queries" apprises intercalées entre le module de perception et la tête d'action. Le résultat est un modèle qui raisonne comme un world model pendant l'entraînement, mais se déploie avec la latence d'une politique VLA directe. Les VLA généralisés ont connu une accélération significative depuis 2023, portée par RT-2 (Google DeepMind), OpenVLA (UC Berkeley) et Pi-0 (Physical Intelligence). Sur le front des world models appliqués à la robotique, des approches comme Dreamer ou les travaux de NVIDIA autour de GR00T N2 ont exploré la prédiction de trajectoires, au prix d'une complexité d'inférence élevée. Being-H0.7, dont l'affiliation institutionnelle n'est pas précisée dans l'abstract, se positionne dans cet espace avec un compromis différent : intégrer la connaissance du futur sans jamais le générer. Le suffixe "H" suggère un ciblage humanoïde, mais l'absence de métriques opérationnelles détaillées dans la prépublication invite à attendre la version complète avant toute comparaison chiffrée définitive.

RechercheOpinion
1 source