Aller au contenu principal
TaCauchy : un framework FEM extensible pour la simulation tactile basée sur la vision
RecherchearXiv cs.RO2j

TaCauchy : un framework FEM extensible pour la simulation tactile basée sur la vision

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié TaCauchy, un cadre de simulation par éléments finis (FEM) conçu pour les capteurs tactiles à vision, intégré directement dans Isaac Sim, la plateforme de simulation GPU d'NVIDIA. Basé sur le solveur UIPC (Unified Incremental Potential Contact), TaCauchy calcule des tenseurs de contrainte de Cauchy à partir de lois constitutives hyperélastiques, puis projette ces contraintes sur les surfaces de contact pour obtenir les forces de traction et les distributions de pression. Il prend en charge trois capteurs courants, GelSight Mini, DIGIT et 9DTact, via une interface modulaire permettant une intégration rapide par simple configuration. Sur le plan des performances, le framework atteint 33,40 FPS en environnement unique et 555 FPS de débit agrégé sur 60 environnements parallèles, avec un overhead d'extraction des contraintes inférieur à 1 ms. La validation physique montre un SSIM supérieur à 0,93 sur une plage de forces allant de 1,26 N à 4,73 N.

L'enjeu principal est le fossé sim-to-real qui pénalise l'entraînement par renforcement des politiques de manipulation tactile. Les approches existantes recourent généralement à des estimations empiriques des champs de contraintes, ce qui introduit des biais difficiles à corriger une fois déployé sur robot réel. TaCauchy propose à la place une vérité terrain mécanique dérivée des premiers principes physiques, ce qui représente un changement de paradigme pour les ingénieurs qui cherchent à entraîner des politiques de préhension fine sans collecter massivement de données réelles. Le débit de 555 FPS en parallèle rend cette précision physique compatible avec les pipelines d'apprentissage par renforcement à grande échelle.

Les capteurs tactiles à vision de type GelSight ont émergé comme une alternative économique aux capteurs de force-couple classiques, mais leur simulation restait un goulot d'étranglement dans les environnements GPU-parallèles comme Isaac Lab ou Orbit. TaCauchy s'inscrit dans une dynamique plus large de "physiques différentiables" qui cherchent à remplacer les proxies heuristiques par des modèles rigoureux directement différenciables. Du côté concurrentiel, des travaux comme Taxim ou DigiTac ont proposé des approches optiques ou basées sur des réseaux de neurones pour la simulation GelSight, mais sans calcul de champ de contraintes FEM intégré à un environnement GPU. La prochaine étape probable pour TaCauchy sera l'intégration avec des politiques de type diffusion ou VLA (Vision-Language-Action) pour des tâches d'assemblage ou de manipulation déformable.

Dans nos dossiers

À lire aussi

FeudalNav : un framework simple pour la navigation visuelle
1arXiv cs.RO 

FeudalNav : un framework simple pour la navigation visuelle

Des chercheurs ont publié sur arXiv (référence 2602.06974) FeudalNav, un cadre hiérarchique de navigation visuelle pour robots mobiles qui ne requiert ni carte métrique, ni GPS, ni données odométriques en phase d'entraînement ou d'inférence. Le système décompose la prise de décision en plusieurs niveaux : un réseau de sélection de sous-objectifs (waypoints) léger et transférable choisit des points intermédiaires, tandis qu'un module de mémoire dans l'espace latent organise les observations visuelles passées par similarité visuelle, utilisée comme proxy de distance. Ce module de mémoire remplace les représentations topologiques classiques basées sur des graphes, sans dégradation notable des performances. Les résultats sont obtenus dans les environnements simulés Habitat AI, un benchmark standard du domaine, et montrent des scores compétitifs face aux méthodes état de l'art. Les auteurs explorent également une modalité d'navigation interactive : ils quantifient la quantité minimale d'intervention humaine nécessaire pour atteindre un taux de succès de 100% sur l'ensemble des trajectoires testées. L'intérêt de FeudalNav réside dans sa sobriété architecturale. Là où la plupart des navigateurs apprenants reposent sur des graphes topologiques coûteux à maintenir ou sur des représentations métriques qui échouent dans des environnements non cartographiés, FeudalNav prouve qu'une mémoire visuelle latente simple suffit pour guider un agent vers un objectif en terrain inconnu. Cette approche réduit les exigences d'infrastructure embarquée (pas de capteur odométrique requis) et améliore la transférabilité entre environnements, deux critères directement pertinents pour les intégrateurs de robots de service ou d'inspection industrielle. La composante interactive est notable : même une intervention humaine minimale et ponctuelle augmente significativement le taux de réussite global, ce qui ouvre la voie à des architectures human-in-the-loop adaptatives. FeudalNav s'inscrit dans un courant de recherche actif visant à dépasser les navigateurs métriques classiques (SLAM, cartographie 2D/3D) en faveur d'approches fondées sur l'apprentissage et la mémoire sémantique, directement inspirées de la cognition spatiale humaine. Le benchmark Habitat AI, développé par Meta AI Research, est devenu la référence pour évaluer ce type de systèmes en simulation. Les méthodes concurrentes incluent les approches à graphes topologiques (NoMaD, ViNT de Berkeley) et les navigateurs basés sur des Vision-Language Models (VLMaps, CoW). FeudalNav se distingue par sa légèreté et l'absence d'odométrie, mais reste pour l'instant cantonné à la simulation, sans validation sur robot physique annoncée dans cet article.

RecherchePaper
1 source
TactileReflex : contrôle réflexe vision-tactile piloté par les statistiques du bruit pour la manipulation sensible à la force
2arXiv cs.RO 

TactileReflex : contrôle réflexe vision-tactile piloté par les statistiques du bruit pour la manipulation sensible à la force

TactileReflex est un contrôleur en boucle fermée à trois canaux pour la manipulation de contenants déformables fragiles, comme des gobelets plastiques remplis de liquide. Publié sur arXiv (2605.23568), il utilise deux capteurs visuo-tactiles pour extraire, à environ 12 Hz, trois métriques image : l'intensité de cisaillement (Sy), l'intensité de contact (Fn) et le centre de pression (C), pilotant en parallèle la suppression du glissement, le relâchement adaptatif au poids et la protection contre les surcharges de force. La calibration est entièrement automatique : les seuils de contrôle sont dérivés du bruit intrinsèque des capteurs via un court protocole de maintien statique et déchargement, sans modèles physiques spécifiques aux matériaux ni réglage manuel par essais-erreurs. Les résultats sont nets : en tests d'ablation sur déformation de contenant, le système complet atteint 5/5 succès contre au maximum 1/5 pour les configurations partielles ; sur une tâche de versement dynamique, les approches à effort fixe échouent 10 fois sur 10, contre 9/10 pour TactileReflex sur deux volumes d'eau distincts. La difficulté de saisir un gobelet plastique tient à une marge de force extrêmement étroite : trop peu de pression entraîne le glissement, trop la déforme irrémédiablement. C'est un angle mort récurrent des politiques VLA (vision-language-action) et de la téléopération sans retour haptique, qui opèrent à l'aveugle face aux variations de rigidité et de poids des objets manipulés. TactileReflex est présenté comme une couche de sécurité "plug-and-play" pouvant s'intercaler sous tout pipeline de manipulation haut niveau. L'absence de calibration externe et l'interprétabilité du contrôleur réduisent le coût d'intégration, un argument concret pour les intégrateurs déployant des bras robotiques polyvalents sur des lignes incluant des produits fragiles ou déformables. Les capteurs visuo-tactiles de type GelSight ou DIGIT permettent depuis plusieurs années d'imager le contact à l'échelle millimétrique, mais leur intégration dans des boucles de contrôle temps réel avec des seuils fiables reste un défi ouvert. Dans la course actuelle à la manipulation généraliste, Figure AI, Physical Intelligence (Pi-0) et Google DeepMind (RT-2) travaillent principalement avec des objets rigides aux marges de force confortables, laissant la manipulation déformable en marge des grandes démonstrations. L'article reste un preprint non évalué par les pairs, sans affiliation institutionnelle clairement identifiée ni partenaire industriel ni timeline de déploiement annoncés. Sa compatibilité revendiquée avec les pipelines VLA et la téléopération VR ouvre néanmoins une voie vers les frameworks de collecte de données robotiques, un terrain où des acteurs européens comme Enchanted Tools (France) sont actifs.

RecherchePaper
1 source
TouchAnything : jeu de données et framework pour l'estimation tactile bimanuelle en vidéo égocentrique
3arXiv cs.RO 

TouchAnything : jeu de données et framework pour l'estimation tactile bimanuelle en vidéo égocentrique

Une équipe de chercheurs a publié EgoTouch (arXiv 2605.13083), un dataset égocentrique à grande échelle combinant vidéo multi-vues et supervision tactile dense pour l'interaction bimanuelle main-objet. Le jeu de données couvre 208 tâches de manipulation réparties en 1 891 épisodes collectés en environnements intérieurs et extérieurs variés, synchronisés avec trois flux RGB simultanés (une caméra montée sur la tête et deux caméras fixées aux poignets), une estimation 3D de la pose des deux mains et des cartes de pression continues issues de capteurs tactiles portables. Sur cette base, les auteurs proposent TouchAnything, un modèle de prédiction vision-to-touch qui utilise la vue égocéntrique comme entrée principale et intègre optionnellement les vues poignet à l'inférence. Les gains mesurés atteignent 5,0% en Contact IoU et 6,1% en Volumetric IoU par rapport à la vue égocentrique seule. Le dataset, le code et un benchmark seront publiés en open source, sans date précise annoncée. L'absence de modalité tactile dans les datasets égocentriques existants constitue un frein reconnu à l'apprentissage de représentations physiquement ancrées : la vidéo seule ne transmet pas les signaux de contact, de force ou de pression nécessaires pour modéliser les dynamiques réelles d'interaction avec les objets. EgoTouch adresse ce verrou en montrant qu'il est possible d'inférer le retour tactile depuis la seule observation visuelle, ouvrant la voie à une supervision tactile scalable sans déploiement coûteux de matériel instrumenté. Pour les équipes travaillant sur des robots manipulateurs ou des politiques de saisie, cela représente une voie d'entraînement potentiellement peu onéreuse pour des comportements sensibles au contact, problème central dans l'assemblage délicat, le tri de pièces fragiles ou la manipulation de souples. Ce travail prolonge l'essor des datasets égocentriques type Ego4D (Meta, 2022), qui ont établi la valeur des flux vidéo à la première personne pour l'apprentissage embodied. Les datasets tactiles antérieurs, notamment autour de GelSight (MIT) ou DIGIT (Meta), restaient de petite échelle et difficiles à généraliser hors contexte de doigts robotiques instrumentés. TouchAnything se positionne comme une alternative scalable via des capteurs portables grand public. Les concurrents directs incluent les équipes travaillant sur le transfert tactile sim-to-real chez Meta AI et MIT CSAIL, ainsi que les projets VLA tels que pi0 de Physical Intelligence ou OpenVLA, qui intègrent progressivement la modalité tactile dans leurs pipelines d'apprentissage par imitation. Aucun acteur français ou européen n'est impliqué dans ce preprint.

RecherchePaper
1 source
RoboEval : un cadre structuré et extensible pour évaluer la manipulation robotique
4arXiv cs.RO 

RoboEval : un cadre structuré et extensible pour évaluer la manipulation robotique

Une équipe de chercheurs a publié RoboEval (arXiv:2507.00435), un cadre d'évaluation structuré et un benchmark dédié à la manipulation robotique. L'outil propose huit tâches bimanuelles assorties de variantes systématiquement contrôlées, plus de trois mille démonstrations expertes, et une plateforme de simulation modulaire conçue pour garantir la reproductibilité des expériences. Chaque tâche est instrumentée avec des métriques standardisées couvrant l'efficacité d'exécution, la coordination entre les deux bras, et la stabilité ou sécurité du mouvement. Le cadre inclut également des mesures de progression par étapes qui permettent de localiser précisément où et pourquoi une politique échoue, plutôt que de simplement enregistrer un échec global. Les expériences ont été conduites sur des politiques visuomotrices de l'état de l'art, en évaluant la stabilité des métriques face aux variations de conditions et leur pouvoir discriminant entre politiques affichant des taux de succès similaires. L'enjeu est méthodologique autant qu'industriel. Aujourd'hui, la majorité des benchmarks de manipulation robotique réduisent la performance à un comptage binaire succès/échec, ce qui efface les différences réelles de qualité d'exécution. Deux politiques peuvent afficher le même taux de réussite tout en présentant des comportements radicalement différents en termes de fluidité, de robustesse aux perturbations, ou de coordination interdigitale. Pour un intégrateur ou un décideur industriel qui doit choisir entre plusieurs VLA (Vision-Language-Action policies) pour déployer un robot en production, cette granularité est critique. RoboEval tente de combler ce fossé en fournissant des métriques intermédiaires qui corrèlent avec le succès final mais révèlent aussi la structure des défaillances, un prérequis pour itérer efficacement sur l'entraînement. Ce travail s'inscrit dans une dynamique plus large de maturation de l'évaluation en robotique apprenable, un domaine qui souffre depuis des années d'une fragmentation des protocoles. Des initiatives comparables comme LIBERO ou RoboVerse ont tenté de standardiser les conditions expérimentales, mais restaient souvent limitées aux tâches unimanuelles ou aux métriques de haut niveau. RoboEval se distingue par son focus bimanuel, directement pertinent pour les applications industrielles d'assemblage ou de logistique, et par la richesse de ses métriques comportementales. La page projet est accessible sur robo-eval.github.io. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné : il s'agit pour l'instant d'une contribution académique, sans validation en environnement réel annoncée.

UEContribution académique ouverte utilisable par tout labo ou intégrateur européen souhaitant évaluer et comparer des politiques VLA bimanuelles sans dépendre de benchmarks propriétaires.

RecherchePaper
1 source