TacGen : le toucher comme dimension essentielle de la représentation physique, avec alignement vision-tactile et génération de données
Des chercheurs ont publié sur arXiv (arXiv:2606.29173, juin 2026) TacGen, un système de représentation multimodale vision-toucher conçu pour pallier la rareté des données tactiles dans l'apprentissage automatique appliqué à la robotique. Le système combine un alignement contrastif vision+toucher (V+T) avec un générateur résiduel MLP en espace latent qui synthétise des représentations tactiles directement depuis des images RGB. Entraîné sur le backbone DINOv2, TacGen surpasse les approches vision seule sur l'estimation de masse (ΔR²=+0,570), de densité (Δacc=+0,067), de dureté (+0,117) et d'étiquettes de force (ΔR²=+0,281). Sur la tâche de manipulation TACTO, les performances passent de 0,246 à 0,979 ; le scaling du modèle vision seul n'explique que 4,5 % de cet écart, le canal tactile en représentant 95,5 %.
Ce résultat remet en cause une hypothèse dominante du domaine : que la vision, suffisamment mise à l'échelle, peut approximer les propriétés physiques de contact. TacGen montre que la compliance, la texture et la masse nécessitent un canal sensoriel dédié, que les auteurs qualifient de dimension "nécessaire" de la représentation du monde physique. Pour les équipes déployant des manipulateurs industriels, cela justifie l'investissement dans les capteurs tactiles (peaux électroniques, capteurs force/couple en bout de bras) plutôt qu'une dépendance exclusive à la vision embarquée. Le générateur de latents tactiles atteint un score cross-seed de +0,589, les données synthétiques étant statistiquement équivalentes aux données réelles sur l'entraînement aval.
La rareté des données tactiles est structurelle : collecter des images RGB est trivial, instrumenter un objet pour mesurer forces et déformations reste coûteux et peu scalable. TacGen s'inscrit dans une lignée de travaux qui comprend DIGIT (Meta AI Research), GelSight (MIT) et les recherches de Lerrel Pinto (NYU) sur l'apprentissage visuotactile. La validation repose sur cinq seeds reproductibles (benchmarks SSVTP/TVL), un transfert YCB-Sight, trois vérifications de backbone et des contrôles de permutation, ce qui constitue une rigueur expérimentale supérieure à la moyenne des prépublications arXiv dans ce domaine. Le travail reste cantonné à la simulation TACTO ; sa généralisation à des robots réels en environnement non contrôlé constitue l'étape critique non encore franchie.
Dans nos dossiers




