Aller au contenu principal
RecherchearXiv cs.RO36min

VT-WAM : modèle du monde et action visuo-tactile pour la manipulation à contacts riches

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs présentent VT-WAM, un modèle de manipulation robotique combinant vision et toucher, décrit dans un article déposé sur arXiv (2607.02503v1) et accompagné d'un site dédié (vt-wam.github.io). Le système, un "Visual-Tactile World Action Model", apprend simultanément trois choses dans un même cadre de flow matching : prédire les images visuelles futures, prédire la déformation tactile future, et prédire l'action à exécuter. Deux mécanismes techniques soutiennent cette approche : une attention "Asymmetric Mixture-of-Transformers" (MoT) qui relie une première image de référence à la dynamique tactile dans le temps, et un module nommé AVTAG (Action-Visual-Tactile Attention Guidance) qui force le modèle à s'appuyer davantage sur le signal tactile pendant les phases de contact. Sur six tâches de manipulation en conditions réelles impliquant un contact physique important, VT-WAM atteint un taux de réussite moyen de 71,67%, contre des scores inférieurs de 26,67 points pour Fast-WAM et de 35,84 points pour OmniVTLA, deux modèles de référence utilisés en comparaison.

L'enjeu dépasse la simple performance chiffrée : les politiques visuo-tactiles existantes se contentent généralement d'injecter le signal tactile brut dans la prédiction d'action, sans modéliser comment cette déformation évolue dans le temps. Or c'est précisément sur les tâches à fort contact (insertion, préhension d'objets déformables, gestion du glissement) que les modèles purement visuels ou de type VLA (vision-language-action) échouent le plus souvent, malgré des démonstrations impressionnantes en environnement contrôlé. Pour les intégrateurs industriels qui cherchent à automatiser des opérations d'assemblage fin, ce travail illustre une piste concrète pour combler l'écart entre démonstration et fiabilité réelle.

Le papier s'inscrit dans la lignée des "world models" appliqués à la robotique, dont Fast-WAM constitue un prédécesseur direct servant de base de comparaison, aux côtés de familles de modèles VLA comme OmniVTLA. Il s'agit toutefois d'une publication académique, sans acteur industriel identifié ni date de déploiement annoncée : les résultats restent circonscrits à six tâches de laboratoire, et les auteurs eux-mêmes soulignent via leurs ablations que la modélisation de la dynamique tactile reste un problème ouvert plutôt qu'une solution définitivement close.

À lire aussi

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts
1arXiv cs.RO 

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts

Des chercheurs ont publié le 9 juin 2026 sur arXiv (arXiv:2606.08737) Dream-Tac, un modèle d'action mondial unifié intégrant la modalité tactile pour la manipulation robotique en contact. L'architecture joint trois dimensions simultanément : la génération d'actions, la prédiction d'observations visuelles futures et la dynamique tactile. Deux contributions techniques structurent le système : une fusion visuotactile à déclenchement par contact ("contact-gated visuotactile fusion"), qui intègre sélectivement les signaux tactiles uniquement lors des phases d'interaction physique effective, et un biais d'attention conscient du contact ("contact-aware attention bias") régulant les échanges cross-modaux. Pour rendre le modèle déployable en temps réel, les auteurs introduisent une stratégie d'accélération à deux niveaux : reformulation du biais lors de l'entraînement pour préserver les chemins d'attention fusionnés, et accélération de la diffusion par cache à l'inférence. Résultat annoncé : entraînement 2,9 fois plus rapide, inférence 1,8 fois plus rapide. Sur six tâches de manipulation en contact riche, Dream-Tac améliore la précision des actions de 31,7 % en moyenne. Le code est publié sur GitHub. Le résultat le plus significatif n'est pas le chiffre brut des 31,7 %, mais ce qu'il révèle sur une limitation structurelle des modèles d'action mondiaux (world action models) actuels : ces architectures, qui héritent la capacité prédictive des world models pour guider la génération d'actions, s'appuient quasi exclusivement sur la vision. Or, la vision seule est insuffisante pour les tâches à fort contact (assemblage de pièces, vissage, insertion de connecteurs, manipulation d'objets souples) où les signaux critiques sont d'ordre haptique. Dream-Tac adresse directement ce "reality gap" tactile, en montrant que l'intégration conditionnelle de la modalité tactile dans le pipeline de diffusion améliore substantiellement la robustesse. Pour les intégrateurs industriels et les équipes robotique travaillant sur des cellules d'assemblage ou de finishing, c'est un signal clair que les VLA (Vision-Language-Action models) ne suffisent pas seuls pour les cas d'usage à contact. Le contexte est celui d'une compétition intense entre laboratoires sur la manipulation dextère. Physical Intelligence (pi0, pi0-FAST), Boston Dynamics, Figure AI et Agility Robotics investissent massivement dans des pipelines de manipulation généralisable, principalement visuels. Côté recherche académique, des travaux comme DexDiffuser ou UniDexGrasp ont posé les bases de la manipulation dextère par diffusion, mais sans intégration tactile unifiée. Dream-Tac s'inscrit dans une tendance émergente visant à enrichir ces pipelines avec des capteurs de contact (GelSight, Digit, BubbleGripper), encore peu intégrés dans les architectures de world models. Il s'agit ici d'un article de recherche arXiv, pas d'un produit ou d'un déploiement industriel : les six tâches de validation sont des benchmarks contrôlés en laboratoire, et la généralisation à des environnements réels non structurés reste à démontrer. Les prochaines étapes naturelles seraient une validation sur des plateformes hardware commerciales (UR, Franka, ou bras dextre humanoïde) et une extension à des gripper tactiles standardisés disponibles sur le marché.

RechercheOpinion
1 source
TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense
2arXiv cs.RO 

TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense

Des chercheurs ont publié sur arXiv (référence 2606.11184) TacForeSight, un framework léger d'anticipation tactile guidée par la force pour la manipulation en contact riche. Le système repose sur deux composants : TacForceWM, un modèle du monde tactile qui prédit les dynamiques latentes tactiles à court horizon à partir de capteurs bi-doigts conditionnés par les signaux de force et de couple au poignet à haute fréquence, et une politique conditionnée par l'anticipation tactile (Predictive Tactile-Conditioned Policy) qui exploite ces prédictions comme priors de contact, modélise l'évolution tactile courante-vers-future via cross-attention, et fusionne les features visuo-tactiles via un module de gating adaptatif. Les expériences portent sur cinq tâches représentatives de manipulation sur robot réel et trois scénarios de perturbation en cours de manipulation, avec des résultats supérieurs aux baselines existantes dans tous les cas, notamment sous perturbations de contact dynamiques. Le code et les datasets seront mis à disposition publiquement sur tacforesight.github.io. L'apport technique central est de modéliser explicitement les rôles asymétriques de la force globale au poignet (basse résolution spatiale, haute fréquence) et du toucher local bi-doigts (haute résolution spatiale, dynamique plus lente), distinction que la plupart des méthodes d'imitation learning actuelles ignorent. En opérant entièrement dans un espace latent compact, le framework permet un raisonnement de contact proactif compatible avec le contrôle haute fréquence, là où les approches réactives échouent sous perturbations imprévues. Pour les intégrateurs industriels et les équipes travaillant sur l'assemblage ou le conditionnement robotisé, c'est une démonstration concrète que la fusion force+tactile dans un world model améliore la robustesse réelle sans alourdir l'inférence en temps réel. Ce travail s'inscrit dans une vague de recherche combinant world models et retour tactile pour la manipulation dextre, aux côtés d'approches comme Pi-0 (Physical Intelligence) ou les travaux sur GR00T N2 de NVIDIA qui intègrent également des politiques tactile-aware. Aucun concurrent français ou européen direct n'est identifié sur ce créneau précis, bien que des acteurs comme Pollen Robotics ou Enchanted Tools s'appuient aussi sur la manipulation fine. Il s'agit ici d'un preprint non encore évalué par les pairs, sans déploiement industriel ni partenaire annoncé : les résultats, bien que prometteurs sur cinq tâches de laboratoire, devront être reproduits sur des géométries et conditions de contact plus variées avant de valider la généralisation à l'échelle industrielle.

UEImpact indirect : le code open-source prévu sur tacforesight.github.io pourrait être exploité par des équipes européennes travaillant sur la manipulation fine, comme Pollen Robotics ou les labos CEA-List, mais aucun acteur FR/EU n'est impliqué dans ce travail.

RecherchePaper
1 source
VibeCheck : détection tactile acoustique active pour la manipulation riche en contacts
3arXiv cs.RO 

VibeCheck : détection tactile acoustique active pour la manipulation riche en contacts

Des chercheurs du ROAM Lab présentent VibeCheck, un préhenseur de robot équipé de deux doigts piézoélectriques : l'un émet une vibration acoustique à travers l'objet saisi, l'autre la reçoit. Cette configuration de captation acoustique active permet d'extraire, en temps réel, des informations sur l'état de l'objet, ses propriétés matérielles, la position de saisie, la pose de structures internes, et la nature des contacts extrinsèques que l'objet entretient avec son environnement. Le système a été validé sur un bras UR5, en prenant le retour acoustique comme unique feedback sensoriel, sur la tâche d'insertion de goupille (peg insertion), un benchmark classique de manipulation dite contact-riche. Les travaux sont disponibles sur arXiv (2504.15535v2). L'intérêt principal de cette approche est d'offrir une modalité sensorielle tactile qui ne repose ni sur la vision (contrairement à GelSight ou DIGIT), ni sur un capteur force-couple classique, souvent coûteux et fragile. Le fait d'inférer le type de contact extrinsèque uniquement par signature acoustique, et d'en dériver une politique d'imitation learning robuste aux prédictions imparfaites du classificateur, suggère une voie sérieuse vers des manipulateurs capables de réagir à des contacts non planifiés sans percevoir explicitement la scène. La résilience de la politique à l'imperfection du signal est un point notable : elle a été entraînée sur un modèle de transition simulé calibré sur les performances réelles du capteur, ce qui réduit partiellement le sim-to-real gap habituel dans ce type de pipelines. L'acoustique active en robotique n'est pas nouvelle, des travaux comme SonicSense ou les approches vibrotactiles en exploration de matériaux existent depuis plusieurs années, mais son intégration dans un préhenseur commercialement plausible (doigts piézoélectriques standard) pour des tâches longue-durée reste rare. Côté concurrence, les capteurs vision-based (GelSight de MIT, DIGIT de Meta/CMU) dominent la recherche en tactile, tandis que des startups comme Touchlab ou Xela Robotics misent sur d'autres modalités. VibeCheck se distingue par sa capacité à fonctionner à travers l'objet, pas seulement à sa surface. Les prochaines étapes probables incluent l'extension à des géométries d'objets variées et l'intégration à des systèmes multi-modaux combinant acoustique et vision.

RecherchePaper
1 source
HiMem-WAM : modèles d'action-monde à mémoire hiérarchique pour la manipulation robotique
4arXiv cs.RO 

HiMem-WAM : modèles d'action-monde à mémoire hiérarchique pour la manipulation robotique

Une équipe de recherche a déposé sur arXiv (2606.10363v1) HiMem-WAM, un nouveau modèle d'action hiérarchique pour la manipulation robotique. L'architecture s'attaque à une limitation persistante des World Action Models (WAM) existants : leur incapacité à maintenir une mémoire de tâche cohérente sur des séquences longues, typiques des manipulations multi-étapes. HiMem-WAM combine trois mécanismes : des actions latentes centrées sur le mouvement (niveau bas), des latents de compétences de haut niveau, et une porte mémoire déclenchée aux transitions de compétences prédites. Ce verrou mémoire écrit des états compacts à des moments-clés, permettant l'inférence causale sans génération vidéo ni estimation de flux optique au moment du test. Le modèle a été évalué sur les benchmarks LIBERO, LIBERO-PLUS et RMBench, ainsi que sur des tâches en conditions réelles. La contribution principale est d'ordre systémique : la structuration hiérarchique améliore la robustesse sous perturbations lors du déploiement, là où la plupart des architectures VLA actuelles échouent dès qu'un événement imprévu survient en milieu de séquence. Pour un décideur industriel, c'est un signal pertinent : le module mémoire apporte, selon les auteurs, un gain substantiel sur les tâches longues dépendantes de l'historique d'action. Éviter la génération vidéo en temps d'inférence réduit également la latence et la charge computationnelle, deux freins réels au déploiement embarqué. Ces résultats restent toutefois issus d'un preprint non peer-reviewed, et les performances sur benchmarks standardisés ne garantissent pas les mêmes gains en environnement de production non contrôlé. Les World Action Models constituent un paradigme récent qui apprend les dynamiques visuelles pertinentes pour l'action, distinct des architectures VLA classiques comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, lesquelles s'appuient sur des transformers multimodaux de grande taille. La manipulation longue-horizon reste un défi ouvert pour l'ensemble du secteur : ni les diffusion-policies ni les modèles language-conditioned n'ont résolu le maintien du contexte sur des séquences dépassant une dizaine de sous-tâches. HiMem-WAM propose une piste architecturale concrète, mais sans intégration hardware annoncée ni timeline de déploiement, ce qui en fait pour l'instant une contribution de recherche fondamentale.

RechercheOpinion
1 source