Aller au contenu principal
TacVerse : un jeu de données et benchmark multi-capteurs pour la perception tactile visuelle entre capteurs
RecherchearXiv cs.RO3h

TacVerse : un jeu de données et benchmark multi-capteurs pour la perception tactile visuelle entre capteurs

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié TacVerse, un jeu de données multi-capteurs et benchmark destiné à évaluer la perception tactile par vision (vision-based tactile sensors, VBTS) à travers des capteurs de designs hétérogènes. Le dataset compile 106 800 images tactiles issues de sept capteurs VBTS distincts, couvrant trois tâches cibles : classification de formes, classification de réseaux de rainures (grating), et régression de force. Les expériences sont conduites selon trois protocoles expérimentaux : entraînement intra-capteur, transfert zéro-shot inter-capteurs, et adaptation few-shot. L'article, déposé sur arXiv (2606.25877), ne mentionne pas de financement industriel ni de partenaire de déploiement terrain ; il s'agit d'une contribution académique à visée benchmark, sans produit commercialisé associé.

Le résultat le plus structurant pour les intégrateurs robotiques est le gouffre de généralisation inter-capteurs : si les performances intra-capteur sont solides sur les trois tâches, le transfert direct zéro-shot vers un capteur inconnu dégrade significativement les résultats, surtout pour la régression de force et la classification de réseaux de rainures. La classification de forme se révèle comparativement plus robuste face au changement de capteur. L'adaptation few-shot améliore la régression de force sur des capteurs cibles non vus, sans toutefois atteindre les performances intra-capteur. Ce résultat implique qu'un modèle entraîné sur un VBTS donné ne peut pas être déployé tel quel sur un autre design sans dégradation mesurable, ce qui complexifie les stratégies de standardisation des pipelines de perception tactile dans l'industrie.

Les capteurs VBTS (type GelSight, DIGIT, Tactip et variantes) ont connu un essor marqué depuis 2018, portés par des labos comme MIT CSAIL et des acteurs industriels comme Meta AI (DIGIT). TacVerse s'inscrit dans un effort de standardisation de l'évaluation, comparable à ce que ImageNet a représenté pour la vision classique. L'étude révèle également que le préentraînement par MAE (Masked Autoencoder) offre les gains les plus constants sur l'ensemble des tâches et des capteurs, suggérant une piste d'architecture prioritaire pour les travaux futurs. Aucun concurrent direct de benchmark tactile multi-capteurs à cette échelle n'est cité dans l'abstract ; TacVerse vise à combler ce vide méthodologique pour la communauté sim-to-real et apprentissage auto-supervisé en perception haptique.

Dans nos dossiers

À lire aussi

Un jeu de données imprimable en 3D pour évaluer et comparer objectivement les capteurs tactiles
1arXiv cs.RO 

Un jeu de données imprimable en 3D pour évaluer et comparer objectivement les capteurs tactiles

Des chercheurs ont publié sur arXiv (arXiv:2606.25886, juin 2026) un jeu de données ouvert de textures imprimables en 3D, conçu spécifiquement pour évaluer et comparer les capteurs tactiles de manière reproductible. Le dataset comprend six motifs de surface générés paramétriquement à partir de combinaisons de fonctions sinusoïdales et de séries de Fourier, offrant une variation contrôlée en fréquence spatiale, amplitude et structure directionnelle. Ces textures ont été évaluées sur trois imprimantes 3D grand public et plusieurs types de filaments, en mesurant la variance des empreintes capturées par un capteur optique TacTip sous conditions de contact contrôlées. Des expériences de classification ont ensuite été menées avec des réseaux de neurones et des modèles PCA. Le problème que ce travail cherche à résoudre est fondamental pour la communauté de la robotique haptique : jusqu'ici, les benchmarks de perception tactile dépendaient des lectures d'un capteur spécifique interagissant avec des surfaces disponibles en laboratoire, rendant toute comparaison inter-capteurs structurellement biaisée. Ce dataset brise ce verrou en définissant les textures de manière mathématique plutôt que physique, ce qui permet leur fabrication indépendante dans n'importe quel laboratoire équipé d'une imprimante FDM. Les résultats montrent toutefois une limite importante : la généralisation intra-imprimante est robuste, mais la généralisation inter-imprimantes reste difficile en raison d'inconsistances géométriques liées à la qualité d'impression, notamment la netteté des pics et le phénomène de "stringing". Les imprimantes haut de gamme produisent des signatures tactiles significativement plus cohérentes. La perception tactile reste l'un des sens les moins standardisés en robotique, contrairement à la vision où des benchmarks comme YCB ou LINEMOD sont devenus des références universelles. Des plateformes comme le TacTip (Bristol Robotics Lab) ou le GelSight (MIT) ont chacune développé leurs propres protocoles d'évaluation, sans base commune. Ce dataset constitue, selon les auteurs, le premier benchmark tactile physiquement reproductible et ouvertement disponible. Les prochaines étapes naturelles concernent l'extension à des matériaux aux propriétés mécaniques variées (rigidité, élasticité) et l'intégration à des pipelines de manipulation robotique où la discrimination de texture conditionne la stratégie de saisie.

UELes laboratoires français et européens travaillant sur la perception haptique (INRIA, CEA-List, laboratoires universitaires) peuvent adopter ce benchmark ouvert pour standardiser leurs évaluations de capteurs tactiles, mais aucun acteur européen n'est directement impliqué dans ce travail.

RecherchePaper
1 source
TouchAnything : jeu de données et framework pour l'estimation tactile bimanuelle en vidéo égocentrique
2arXiv cs.RO 

TouchAnything : jeu de données et framework pour l'estimation tactile bimanuelle en vidéo égocentrique

Une équipe de chercheurs a publié EgoTouch (arXiv 2605.13083), un dataset égocentrique à grande échelle combinant vidéo multi-vues et supervision tactile dense pour l'interaction bimanuelle main-objet. Le jeu de données couvre 208 tâches de manipulation réparties en 1 891 épisodes collectés en environnements intérieurs et extérieurs variés, synchronisés avec trois flux RGB simultanés (une caméra montée sur la tête et deux caméras fixées aux poignets), une estimation 3D de la pose des deux mains et des cartes de pression continues issues de capteurs tactiles portables. Sur cette base, les auteurs proposent TouchAnything, un modèle de prédiction vision-to-touch qui utilise la vue égocéntrique comme entrée principale et intègre optionnellement les vues poignet à l'inférence. Les gains mesurés atteignent 5,0% en Contact IoU et 6,1% en Volumetric IoU par rapport à la vue égocentrique seule. Le dataset, le code et un benchmark seront publiés en open source, sans date précise annoncée. L'absence de modalité tactile dans les datasets égocentriques existants constitue un frein reconnu à l'apprentissage de représentations physiquement ancrées : la vidéo seule ne transmet pas les signaux de contact, de force ou de pression nécessaires pour modéliser les dynamiques réelles d'interaction avec les objets. EgoTouch adresse ce verrou en montrant qu'il est possible d'inférer le retour tactile depuis la seule observation visuelle, ouvrant la voie à une supervision tactile scalable sans déploiement coûteux de matériel instrumenté. Pour les équipes travaillant sur des robots manipulateurs ou des politiques de saisie, cela représente une voie d'entraînement potentiellement peu onéreuse pour des comportements sensibles au contact, problème central dans l'assemblage délicat, le tri de pièces fragiles ou la manipulation de souples. Ce travail prolonge l'essor des datasets égocentriques type Ego4D (Meta, 2022), qui ont établi la valeur des flux vidéo à la première personne pour l'apprentissage embodied. Les datasets tactiles antérieurs, notamment autour de GelSight (MIT) ou DIGIT (Meta), restaient de petite échelle et difficiles à généraliser hors contexte de doigts robotiques instrumentés. TouchAnything se positionne comme une alternative scalable via des capteurs portables grand public. Les concurrents directs incluent les équipes travaillant sur le transfert tactile sim-to-real chez Meta AI et MIT CSAIL, ainsi que les projets VLA tels que pi0 de Physical Intelligence ou OpenVLA, qui intègrent progressivement la modalité tactile dans leurs pipelines d'apprentissage par imitation. Aucun acteur français ou européen n'est impliqué dans ce preprint.

RecherchePaper
1 source
ProteusVPR : reconnaissance visuelle de lieux multi-scènes pour la perception maritime et l'inspection de cabines
3arXiv cs.RO 

ProteusVPR : reconnaissance visuelle de lieux multi-scènes pour la perception maritime et l'inspection de cabines

Des chercheurs ont déposé le 24 juin 2026 sur arXiv (2606.24234) ProteusVPR, un système de reconnaissance visuelle de lieu (VPR, Visual Place Recognition) conçu pour les robots d'inspection en milieu maritime. Le problème de fond : à bord d'un navire, un robot doit naviguer entre deux environnements visuellement antagonistes, les ponts extérieurs aux textures rares et aux variations d'éclairage sévères, et les cabines intérieures aux structures répétitives générant de fortes ambiguïtés. ProteusVPR répond avec une architecture à deux étapes : une première phase de récupération d'images via n'importe quel backbone VPR standard, suivie d'un réseau d'estimation géométrico-visuelle qui fusionne l'image récupérée avec deux trames temporellement précédentes, intégrant des descripteurs géométriques, un système de coordonnées affines locales et un encodage de l'azimut caméra. Les auteurs introduisent également le dataset XHZ, jeu de données panoramiques 8K collecté sur un navire en opération, couvrant des structures multi-niveaux de cabines, des zones de transition pont-intérieur et une séparation stricte requête-base de données. Sur ce benchmark, ProteusVPR réduit l'erreur de localisation moyenne de plus de 60 % par rapport aux backbones classiques testés. Ce résultat pèse parce que les méthodes VPR actuelles, conçues pour l'urbain ou l'indoor, échouent systématiquement à généraliser sur des scènes aussi hétérogènes au sein d'un même parcours. En inspection navale autonome, une localisation dégradée invalide un cycle d'audit entier ou génère de fausses alertes sur l'état de la coque ou des espaces confinés. La modularité de ProteusVPR est son argument commercial le plus fort : son deuxième étage s'intègre au-dessus de tout pipeline VPR existant, ce qui réduit le coût d'adoption pour les équipes qui disposent déjà d'une infrastructure de localisation visuelle. La VPR est un problème actif depuis vingt ans, de NetVLAD aux approches transformers récentes, mais son application maritime reste marginale, la plupart des systèmes embarqués s'appuyant sur LiDAR ou GNSS, peu fiables sous pont. Des acteurs comme SeaRobotics, Voyis ou Greensea Systems couvrent l'inspection de coque et sous-marine, mais le créneau ponts-cabines demeure peu industrialisé. L'équipe ne mentionne ni partenaire industriel ni calendrier de déploiement : ProteusVPR reste pour l'heure une contribution académique (preprint arXiv), sans produit embarqué démontré en conditions réelles.

RecherchePaper
1 source
Optimisation par données des configurations de capteurs tactiles pour la manipulation dextérique
4arXiv cs.RO 

Optimisation par données des configurations de capteurs tactiles pour la manipulation dextérique

Des chercheurs ont publié sur arXiv (arXiv:2409.20473v3) un cadre méthodologique permettant, pour la première fois, de quantifier la contribution individuelle de chaque capteur tactile à la performance d'une politique d'apprentissage par renforcement profond (DRL) appliquée à la manipulation dextère. L'étude cible la Shadow Hand, une main robotique à 24 degrés de liberté équipée de 92 capteurs tactiles. En deux étapes, les auteurs réduisent ce réseau dense à 14 capteurs tout en conservant plus de 90 % de la performance initiale sur trois tâches de manipulation standardisées (bloc, oeuf, stylo). La première phase, empirique, écrête le nombre de capteurs de 92 à 21 en maintenant 93 % des performances. La seconde phase, plus fine, combine une régression par processus gaussiens (GPR) et une régression Lasso pour classer l'importance fonctionnelle de chaque capteur restant. Le résultat le plus saillant contredit l'intuition habituelle en robotique : les capteurs du doigt médius contribuent négativement à l'apprentissage, dégradant activement la politique DRL plutôt que de l'améliorer. À l'inverse, le pouce, l'annulaire et l'auriculaire concentrent l'essentiel de l'information utile au contrôle de contact. Pour les intégrateurs et les équipes de R&D en manipulation robotique, cela signifie qu'une réduction drastique du nombre de capteurs n'est pas seulement possible sans sacrifier les performances, elle peut même les améliorer en éliminant des signaux redondants ou antagonistes. Des expériences de transfert zéro-shot sur deux nouveaux objets et une validation croisée sur l'Allegro Hand et la Leap Hand confirment que ces classements d'importance se généralisent au-delà de la plateforme d'entraînement. La problématique de placement de capteurs tactiles reste largement non résolue dans la littérature, en l'absence de méthodes systématiques comparables à celles développées pour la vision. Ce travail s'inscrit dans un contexte où plusieurs laboratoires et entreprises, dont Sanctuary AI, Agility Robotics ou encore OpenAI avec Dexterous Manipulation, investissent massivement dans la manipulation fine comme prochain verrou de la robotique humanoïde. Les concurrents directs sur la Shadow Hand incluent des frameworks basés sur le sim-to-real (IsaacGym, MuJoCo), qui peinent encore à modéliser fidèlement le retour tactile dense. Les auteurs proposent leurs critères de déploiement comme des guidelines quantitatifs applicables à d'autres morphologies robotiques, ouvrant la voie à des configurations capteurs optimisées dès la phase de conception mécanique plutôt qu'a posteriori.

RecherchePaper
1 source