Transformateur tactile hétérogène
Des chercheurs ont déposé le 30 juin 2026 sur arXiv (référence 2606.29948) le Heterogeneous Tactile Transformer (HTT), un framework visant à résoudre un verrou fondamental du toucher artificiel : l'hétérogénéité des capteurs tactiles. Un modèle entraîné sur un capteur visuotactile de type GelSight ne peut aujourd'hui pas être réutilisé sur un capteur matriciel résistif sans réentraînement complet, ce qui empêche toute mutualisation des données à grande échelle. HTT propose une architecture composée d'encodeurs spécifiques à chaque capteur couplés à un tronc transformer partagé, pré-entraîné par reconstruction masquée par modalité et alignement cross-modal entre paires de capteurs. Ce pré-entraînement s'appuie sur un nouveau dataset baptisé Heterogeneous Paired Tactile (HPT), compilant 1,6 million de frames synchronisées issues de quatre capteurs : deux visuels (vision-based) et deux matriciels (array-based). Les expériences montrent que HTT produit des représentations transférables à de nouvelles tâches et à des capteurs jamais vus à l'entraînement.
Ce verrou est réel et coûteux pour les équipes robotique. Contrairement à la vision, où des modèles pré-entraînés comme ViT ou CLIP se transfèrent facilement d'une caméra à une autre, le tactile est resté un silo par capteur, forçant chaque projet à recollecte ses propres données de contact. Si HTT généralise correctement, cela ouvre la voie à des datasets tactiles fédérés, analogue à ce qu'Open X-Embodiment a réalisé pour la manipulation visuo-motrice, et potentiellement à des politiques contact-rich entraînées sur des données hétérogènes issues de plusieurs fournisseurs. Pour un intégrateur ou un COO industriel, l'enjeu est concret : pouvoir changer de capteur tactile sans tout réentraîner représente un gain de temps et de coût significatif sur les lignes d'assemblage précis.
Ce travail succède à des approches comme T3 (Transferable Tactile Transformers, 2024) et UniTouch, qui avaient amorcé la représentation cross-capteur mais restaient limitées à une ou deux modalités. Sur le marché, GelSight et ses dérivés (DIGIT, GelSight Mini) dominent la recherche académique, tandis qu'Xela Robotics et Contactile misent davantage sur les grilles résistives ou piézoélectriques. L'article est présenté comme preprint et n'a pas encore été soumis à revue par les pairs ; le code, les poids de modèle et le dataset HPT seront publiés à la parution définitive, ce qui permettra une évaluation indépendante des performances revendiquées. L'étape suivante naturelle sera l'intégration de HTT dans des pipelines VLA (Vision-Language-Action) pour doter les mains humanoïdes d'un retour haptique fiable et généralisable à l'échelle.
Dans nos dossiers




