
TacVerse : un jeu de données et benchmark multi-capteurs pour la perception tactile visuelle entre capteurs
Une équipe de chercheurs a publié TacVerse, un jeu de données multi-capteurs et benchmark destiné à évaluer la perception tactile par vision (vision-based tactile sensors, VBTS) à travers des capteurs de designs hétérogènes. Le dataset compile 106 800 images tactiles issues de sept capteurs VBTS distincts, couvrant trois tâches cibles : classification de formes, classification de réseaux de rainures (grating), et régression de force. Les expériences sont conduites selon trois protocoles expérimentaux : entraînement intra-capteur, transfert zéro-shot inter-capteurs, et adaptation few-shot. L'article, déposé sur arXiv (2606.25877), ne mentionne pas de financement industriel ni de partenaire de déploiement terrain ; il s'agit d'une contribution académique à visée benchmark, sans produit commercialisé associé.
Le résultat le plus structurant pour les intégrateurs robotiques est le gouffre de généralisation inter-capteurs : si les performances intra-capteur sont solides sur les trois tâches, le transfert direct zéro-shot vers un capteur inconnu dégrade significativement les résultats, surtout pour la régression de force et la classification de réseaux de rainures. La classification de forme se révèle comparativement plus robuste face au changement de capteur. L'adaptation few-shot améliore la régression de force sur des capteurs cibles non vus, sans toutefois atteindre les performances intra-capteur. Ce résultat implique qu'un modèle entraîné sur un VBTS donné ne peut pas être déployé tel quel sur un autre design sans dégradation mesurable, ce qui complexifie les stratégies de standardisation des pipelines de perception tactile dans l'industrie.
Les capteurs VBTS (type GelSight, DIGIT, Tactip et variantes) ont connu un essor marqué depuis 2018, portés par des labos comme MIT CSAIL et des acteurs industriels comme Meta AI (DIGIT). TacVerse s'inscrit dans un effort de standardisation de l'évaluation, comparable à ce que ImageNet a représenté pour la vision classique. L'étude révèle également que le préentraînement par MAE (Masked Autoencoder) offre les gains les plus constants sur l'ensemble des tâches et des capteurs, suggérant une piste d'architecture prioritaire pour les travaux futurs. Aucun concurrent direct de benchmark tactile multi-capteurs à cette échelle n'est cité dans l'abstract ; TacVerse vise à combler ce vide méthodologique pour la communauté sim-to-real et apprentissage auto-supervisé en perception haptique.
Dans nos dossiers




