RCT : un jeu de données tactiles vision-langage collecté par robot pour la généralisation du toucher
Des chercheurs du Faerber Lab publient RCT (Robotic Contact Tactile), un jeu de données touch-vision-language collecté par robot pour évaluer la généralisation tactile des systèmes robotiques. Le dataset comprend 29 279 frames tactiles issues de pressions complètes effectuées par un bras robotique sur 122 matériaux de référence industriels répartis en 7 catégories, enregistrées à l'aide de trois capteurs DIGIT positionnés à plusieurs points de contact. Particularité méthodologique : RCT conserve chaque pression comme une séquence de contact continue plutôt que comme des frames isolées, ce qui permet des évaluations "held-out" rigoureuses par matériau, catégorie, capteur, position de contact ou séquence entière. Les auteurs démontrent que les frames issues d'une même pression sont fortement corrélées entre elles : un découpage aléatoire des frames (frame-random split), pratique courante dans le domaine, place des observations quasi-identiques de la même interaction physique à la fois dans les jeux d'entraînement et de test. En supprimant ce chevauchement de séquences, le score de Recall@1 en correspondance tactile-texte chute de 17,7 points de pourcentage à encodeur fixe. Lorsque les matériaux sont également exclus à l'entraînement, la performance s'effondre davantage, avec un Recall@1 de seulement 25,1 % (± 6,1 %) en moyenne sur trois tirages de matériaux non vus. Le jeu de données est open source, disponible sur faerber-lab.github.io/RCT.
Cette étude expose un biais méthodologique qui gonflait artificiellement les résultats publiés sur la perception tactile robotique. En analysant le split public TVL/HCT, référence largement utilisée dans le domaine, les auteurs montrent que chaque séquence de contact du jeu de test apparaît déjà dans l'entraînement : une simple recherche du plus proche voisin en pixels bruts, sans aucun apprentissage, retrouve la bonne séquence dans 98,3 % des cas. Autrement dit, les benchmarks existants mesurent en grande partie de la mémorisation plutôt que de la généralisation réelle. Pour les équipes qui développent des systèmes de manipulation tactile destinés à des environnements ouverts (tri de déchets, logistique, inspection de pièces), cela signifie que des modèles annoncés comme performants pourraient largement sous-performer face à des matériaux jamais rencontrés. L'étude montre aussi une piste corrective concrète : échantillonner uniformément les frames au sein d'une pression, plutôt que de façon aléatoire, améliore l'entraînement contrastif, et les embeddings entraînés sur RCT améliorent les probes de catégorisation sur des matériaux inédits.
Le travail s'inscrit dans la lignée des jeux de données touch-vision-language existants comme TVL (Touch-Vision-Language) et HCT, dont RCT réutilise la structure de split pour illustrer le problème de fuite de données. Le choix des capteurs DIGIT, développés initialement par Meta AI et largement adoptés en recherche tactile académique, ancre RCT dans l'écosystème matériel dominant du secteur plutôt que dans des capteurs propriétaires. Aucun acteur français ou européen n'est mentionné dans cette publication, qui reste un travail de recherche fondamentale plutôt qu'une annonce produit. Les prochaines étapes attendues pour le domaine concernent l'adoption de protocoles d'évaluation "contact-sequence-aware" par les équipes travaillant sur la manipulation tactile, ainsi que l'extension de ce type de benchmark held-out-material à d'autres modalités sensorielles combinées, à mesure que les architectures VLA (vision-language-action) intègrent de plus en plus le retour tactile comme signal de contrôle.



