UniTac : modèle multimodal unifié pour la compréhension et la génération tactiles multi-capteurs
Une équipe de recherche présente UniTac, décrit comme le premier modèle multimodal unifié (UMM) conçu spécifiquement pour la compréhension et la génération de données tactiles, dans un article publié sur arXiv (2606.31451v1). Le système modélise le processus tactile comme une transition entre l'absence de contact et le contact, via une représentation à deux niveaux qui encode à la fois les attributs du capteur utilisé et ceux de l'objet touché. Pour la compréhension, UniTac introduit deux tâches inédites : la description des propriétés physiques d'un objet et l'identification du capteur à l'origine du signal. Pour la génération, les auteurs proposent un entraînement en deux étapes, reconstruction puis alignement, complété par une stratégie d'échantillonnage basée sur les caractéristiques propres à chaque capteur afin de simuler des contacts réalistes. Entraîné sur des jeux de données tactiles multi-capteurs à grande échelle, le modèle revendique des performances état de l'art en compréhension tactile et une capacité à générer des signaux tactiles crédibles quel que soit le capteur d'origine.
L'enjeu principal touche à la fragmentation du capteur tactile en robotique : les technologies existantes (capteurs optiques type GelSight ou DIGIT, capteurs magnétiques comme ReSkin, etc.) produisent des signaux de formats incompatibles, ce qui oblige généralement à ré-entraîner un modèle par type de capteur. Un modèle unifié capable à la fois d'interpréter et de générer du signal tactile à travers différents capteurs ouvrirait la voie à un transfert d'apprentissage sans recollecte massive de données, et à une augmentation synthétique des jeux de données tactiles pour l'entraînement de politiques de manipulation. C'est un pas potentiel vers l'intégration du toucher dans les modèles vision-langage-action (VLA) qui structurent aujourd'hui la robotique humanoïde, où la perception reste très majoritairement centrée sur la vision.
Ce travail s'inscrit dans la continuité des modèles multimodaux unifiés développés pour l'image et le texte, ici transposés au domaine tactile encore largement sous-exploré selon les auteurs. Il ne s'agit à ce stade que d'une publication de recherche, sans capteur commercial ni intégration robotique annoncée : l'article ne précise ni partenariat industriel, ni calendrier de déploiement, ce qui en fait une contribution méthodologique plutôt qu'un produit prêt à l'emploi.
Dans nos dossiers




