TAP-VLA : annotation tactile pour les modèles vision-langage-action (VLA)
Des chercheurs ont publié sur arXiv (réf. 2606.29089) une méthode appelée TAP-VLA (Tactile Annotation Prompting for Vision-Language-Action models) visant à doter les modèles vision-langage-action du sens du toucher sans modifier leur architecture. Sur quatre tâches de manipulation à contacts complexes (vissage, insertion, assemblage de précision), TAP-VLA atteint un taux de succès de 78 %, contre moins de 50 % pour un fine-tuning purement visuel et pour les approches alternatives de fusion tactile, certaines de ces baselines ne faisant pas mieux qu'un résultat aléatoire. Le principe repose sur des capteurs visuo-tactiles capables de mesurer les champs de cisaillement (shear fields) à la surface de contact ; ces champs sont ensuite superposés sous forme de vecteurs spatialement alignés directement sur les images RGB multi-vues que le modèle consomme déjà, sans ajouter de modalité d'entrée distincte.
L'enjeu est réel : les VLAs de génération actuelle, comme π0 de Physical Intelligence, OpenVLA ou RT-2 de Google DeepMind, offrent un raisonnement robuste sur les variations visuelles, sémantiques et spatiales grâce à leur pré-entraînement à grande échelle, mais restent aveugles aux forces de contact, pourtant centrales dans toute manipulation industrielle sérieuse (emboîtement de précision, vissage, gestion d'objets déformables). Intégrer le toucher comme nouvelle modalité d'entrée détériore précisément ce pré-entraînement, car les données tactiles sont absentes des corpus à grande échelle sur lesquels ces modèles sont construits, un problème de distribution shift bien documenté dans la littérature. TAP-VLA contourne l'obstacle en restant dans l'espace d'observation natif du modèle : pas de modification architecturale, pas de pré-entraînement tactile spécifique, surcoût computationnel négligeable.
Ce travail s'inscrit dans une course active autour de l'embodied AI pour la manipulation de précision, où Physical Intelligence (π0, π0-FAST), Figure AI ou Apptronik cherchent à étendre les capacités de leurs humanoïdes et bras industriels au-delà du pick-and-place visuel. La question du sim-to-real pour les contacts reste l'un des derniers verrous majeurs avant un déploiement industriel à l'échelle. En évitant la refonte architecturale, TAP-VLA propose une voie d'intégration compatible avec les VLAs existants, ce qui simplifie son adoption par des équipes qui travaillent à partir de modèles déjà entraînés. La publication sur arXiv sans conférence associée indique que ce travail est encore en cours d'évaluation par les pairs ; aucun déploiement réel ou pilote industriel n'est annoncé à ce stade.
Dans nos dossiers




