Aller au contenu principal
TacSE3 : estimation SE(3) équivariante sur images visuotactiles à faible texture pour suivi et compensation en préhension
RecherchearXiv cs.RO1j

TacSE3 : estimation SE(3) équivariante sur images visuotactiles à faible texture pour suivi et compensation en préhension

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (identifiant 2605.17929) TacSE3, un pipeline d'estimation de mouvement tactile conçu pour le suivi d'objets en prise de robot. Le système prend en entrée des images visuotactiles à faible texture, les convertit en un champ de force tridimensionnel découplé, puis estime le mouvement rigide incrémental dans SE(3), c'est-à-dire le groupe euclidien spécial à six degrés de liberté combinant trois axes de translation et trois axes de rotation. L'architecture dérive la translation planaire depuis le déplacement du centroïde de contact, et estime la rotation principalement à partir des réponses tactiles de cisaillement (shear). Les expériences s'appuient sur une paire de capteurs visuotactiles DM-Tac montés en configuration bidigitale, sans autre précision sur le matériel robotique hôte ni sur les benchmarks comparatifs utilisés.

L'intérêt industriel réside dans deux propriétés rarement combinées : l'interprétabilité physique du signal et l'absence de ré-entraînement de la politique de base. En manipulation in-hand, l'occlusion visuelle fréquente prive les approches classiques de correspondances stables entre images, qu'il s'agisse de matching géométrique ou de flux optique. TacSE3 contourne ce problème en exploitant uniquement le retour tactile, lequel reste disponible même lorsque la caméra extéroceptive est aveugle. La configuration à deux capteurs réduit l'ambiguïté translation-rotation inhérente à un capteur unique et permet le suivi en rotation sur plusieurs axes et géométries d'objets. Le signal de compensation reste léger et s'intègre en surcouche d'une politique existante, ce qui simplifie l'industrialisation : pas besoin de reprendre l'apprentissage pour améliorer la tolérance aux perturbations.

La manipulation tactile en prise est un axe de recherche actif, porté notamment par les travaux autour des capteurs GelSight (MIT) et des approches vision-language-action (VLA) qui peinent encore sur la finesse des contacts. TacSE3 s'inscrit dans la tendance à enrichir ces pipelines avec un retour proprioceptif interprétable plutôt que de tout déléguer au visuel. Côté concurrence, des équipes comme celles derrière Digit (Meta/GelSight Technologies) ou Soft Robotics travaillent sur des capteurs tactiles embarqués, mais peu proposent une estimation SE(3) sans texture. La preprint ne mentionne pas de partenaire industriel ni de calendrier de déploiement ; les résultats restent à confirmer hors laboratoire, en conditions d'encombrement et de bruit réels.

Dans nos dossiers

À lire aussi

DarkQA : évaluation des modèles vision-langage sur la compréhension visuelle primitive en intérieur faiblement éclairé
1arXiv cs.RO 

DarkQA : évaluation des modèles vision-langage sur la compréhension visuelle primitive en intérieur faiblement éclairé

Une équipe de recherche a publié DarkQA, un benchmark open-source destiné à évaluer les modèles de vision-langage (VLM) dans des conditions de faible éclairage intérieur, selon un prépublication arXiv (2512.24985, version 4). Le benchmark contient 9 400 paires image-question générées de manière déterministe et vérifiable, couvrant cinq familles de primitives visuelles : détection d'objets, estimation de profondeur, lecture de texte, identification de couleur et reconnaissance de forme. La dégradation lumineuse y est modélisée en espace RAW linéaire, simulant une chute physique d'illumination et du bruit capteur via un pipeline de rendu inspiré des pipelines ISP (Image Signal Processing) des appareils photo. Les résultats ont été validés contre des données réelles de caméras en basse lumière. Les auteurs ont évalué plusieurs VLMs représentatifs ainsi que des méthodes de prétraitement Low-Light Image Enhancement (LLIE). Le verdict : les VLMs se dégradent de manière systématique sous faible illumination et bruit capteur, tandis que les méthodes LLIE offrent une récupération partielle mais instable selon la sévérité des conditions. Ce travail comble un angle mort critique dans l'évaluation des agents incarnés. Les benchmarks existants supposent des conditions d'éclairage idéales, alors que le déploiement 24h/24 de robots ou de systèmes de perception autonome implique nécessairement des environnements mal éclairés : entrepôts de nuit, couloirs intérieurs, scènes résidentielles en soirée. Le fait que les LLIE améliore les performances de façon non monotone selon l'intensité de la dégradation est un signal d'alerte pour les intégrateurs qui considèrent ces méthodes comme une solution générique de prétraitement. DarkQA isole les échecs perceptuels avant qu'ils ne soient noyés dans des tâches embodied complexes, ce qui permet d'identifier précisément quel type de primitive visuelle casse en premier. Dans le contexte plus large, cette publication s'inscrit dans une dynamique de maturité des benchmarks pour l'IA incarnée, après des frameworks comme RoboVQA, OpenEQA ou ScanQA qui évaluaient la compréhension de scène sans contrainte photométrique. L'absence d'un tel benchmark laissait les développeurs sans signal clair sur la robustesse réelle de modèles comme GPT-4V, LLaVA ou Gemini Pro Vision en conditions dégradées. La disponibilité du code et du dataset est conditionnée à l'acceptation de l'article en conférence ou journal, ce qui en limite l'usage immédiat. Le site projet (darkqa-benchmark.github.io) est déjà en ligne, et les auteurs indiquent une prochaine mise à disposition publique complète.

RecherchePaper
1 source
Contrôle par assimilation d'intention pour un suivi précis à impédance variable en téléopération
2arXiv cs.RO 

Contrôle par assimilation d'intention pour un suivi précis à impédance variable en téléopération

Une équipe de chercheurs a publié sur arXiv (réf. 2605.07037) un nouveau paradigme de contrôle pour la télé-opération robotique baptisé IAC (Intention Assimilation Control), conçu pour résoudre le compromis fondamental entre précision de suivi et sécurité. Dans les systèmes maître-esclave classiques, le robot suiveur est attiré vers la position du meneur par un effet ressort : une rigidité élevée assure le suivi mais expose l'environnement à des forces dangereuses, tandis qu'une rigidité faible préserve la sécurité au détriment de la précision. IAC contourne ce problème en estimant la position cible du meneur, c'est-à-dire son intention de mouvement, plutôt que sa position instantanée, et en la transmettant au suiveur. L'impédance peut ainsi être ajustée en temps réel par l'opérateur ou modulée automatiquement selon les contraintes de la tâche. Le système a été validé sur deux manipulateurs à 7 degrés de liberté (DOF) au travers de quatre expériences : suivi libre, interaction avec un ballon, insertion cheville-trou (peg insertion) et polissage de surface avec retour de force. Les résultats montrent qu'IAC surpasse la tele-impedance control (TIC) classique sur les trois métriques clés : précision de suivi, taux de complétion des tâches et temps d'exécution. L'enjeu concret est réel pour les intégrateurs opérant en environnements contraints (chirurgie assistée, manipulation de pièces fragiles, intervention en milieu à risque), où la rigidité excessive du robot représente un danger direct. En dissociant la compliance perçue par l'environnement de la fidélité du suivi, IAC permet à l'opérateur de moduler l'impédance selon son intention à chaque instant sans sacrifier la précision du mouvement. Il faut noter que les tâches testées restent relativement simples et que ces résultats proviennent d'un preprint non encore soumis à révision par les pairs. Le contrôle en impédance variable pour la télé-opération est un axe de recherche actif depuis plusieurs décennies, mais la plupart des approches obligent l'opérateur à arbitrer entre précision et compliance. Des laboratoires comme le DLR (Allemagne) et le LIRMM (Montpellier, France) ont contribué significativement à ce domaine. IAC s'inscrit dans la continuité des travaux sur l'estimation d'intention en temps réel, une approche qui gagne du terrain à mesure que les applications avancées se multiplient, notamment en chirurgie robotique et en intervention nucléaire. Aucune entreprise n'est associée à ces travaux, qui relèvent de la recherche académique pure. Les prochaines étapes naturelles concernent la validation sur des tâches industrielles réelles et l'intégration dans des plateformes commerciales de télé-opération existantes.

UELe LIRMM (Montpellier) est cité comme contributeur historique du domaine ; les applications en intervention nucléaire et en chirurgie robotique représentent des débouchés naturels pour les équipes de recherche françaises et européennes actives dans la téléopération.

RecherchePaper
1 source
Système de localisation de contact et de mesure de force par vision pour pinces robotiques compliantes
3arXiv cs.RO 

Système de localisation de contact et de mesure de force par vision pour pinces robotiques compliantes

Des chercheurs ont publié début mai 2026 (arXiv:2605.00307) un système de mesure indirecte de force pour préhenseurs souples, reposant uniquement sur une caméra RGB-D embarquée au poignet du robot. Le dispositif cible les grippers de type fin-ray, une géométrie de doigt déformable à structures entrecroisées fréquemment utilisée pour la manipulation de pièces fragiles. Le système extrait des points-clés structurels depuis les images de déformation du gripper, puis les injecte dans une simulation d'analyse par éléments finis inverse (FEA inverse) développée sous SOFA (Simulation Open Framework Architecture). Un pipeline de reconstruction 3D et d'estimation de pose par deep learning met à jour dynamiquement la position de contact, avec une robustesse déclarée aux occlusions visuelles. Sur banc de test multi-objets, l'erreur quadratique moyenne (RMSE) atteint 0,23 N en phase de charge et 0,48 N sur l'ensemble du cycle de préhension, avec des déviations normalisées (NRMSD) de 2,11 % et 4,34 % respectivement. L'intérêt principal réside dans la généralisation à des objets non vus en entraînement, là où les approches end-to-end par apprentissage profond se révèlent fragiles hors distribution. Pour un intégrateur ou un OEM robotique, l'absence de capteurs dédiés (jauges de contrainte, capteurs capacitifs ou piézorésistifs) réduit le coût et la complexité mécanique du gripper tout en maintenant des performances compatibles avec la manipulation de produits délicats : alimentaire, pharmaceutique, assemblage électronique. Des RMSE inférieurs à 0,5 N sur l'ensemble du cycle de préhension constituent un résultat solide dans le cadre de cette étude, bien que les conditions de test en laboratoire (éclairage contrôlé, objets standardisés) restent éloignées des environnements industriels bruités où l'approche devra être confrontée. Les grippers fin-ray sont commercialisés notamment par FESTO et plusieurs startups de manipulation souple; les doter d'un retour de force sans capteur dédié est un problème ouvert depuis plusieurs années. Les caméras RGB-D de poignet (Intel RealSense, Microsoft Azure Kinect) se standardisent dans les systèmes robotiques de nouvelle génération, ce qui rend cette approche déployable sans modification matérielle sur des architectures existantes. En positionnement concurrent, les capteurs tactiles visuels comme GelSight (MIT) ou Digit (Meta FAIR) suivent une logique similaire mais exigent un contact direct sur une surface instrumentée. L'approche par FEA inverse demeure plus rare dans la littérature; sa latence effective en boucle de contrôle temps-réel n'est pas quantifiée par les auteurs, un paramètre critique pour les applications à haute fréquence de commande.

UEFESTO (Allemagne, principal fabricant de grippers fin-ray visés par l'approche) et le framework SOFA issu de l'INRIA (France) sont au cœur du pipeline, une industrialisation de cette méthode bénéficierait en priorité aux équipementiers et intégrateurs européens de la manipulation souple.

RecherchePaper
1 source
TouchDrive : interface tactile sans électronique pour l'aide à la préhension
4arXiv cs.RO 

TouchDrive : interface tactile sans électronique pour l'aide à la préhension

Des chercheurs ont publié sur arXiv (réf. 2605.06432) TouchDrive, une interface de retour tactile entièrement passive destinée à la préhension robotique assistive. Le système repose sur un clapet pneumatique normalement fermé, un réservoir d'air comprimé, un élément de captation mécanique et un actionneur haptique, sans aucun composant électronique. Le principe est direct : les forces de contact générées lors de la saisie sont converties en pression pneumatique qui actionne le retour haptique vers l'opérateur dans une boucle mécanique unique, sans microcontrôleur, sans firmware, sans couche logicielle intermédiaire. Le système a été validé sur plusieurs plateformes robotiques et testé sur un panel de 20 objets représentatifs, dont des fruits et des articles du quotidien, couvrant à la fois des objets compliants et des objets fragiles. L'intérêt industriel et médical de TouchDrive tient à sa rupture architecturale : là où les interfaces tactiles concurrentes empilent capteurs à résistance variable ou piézoélectriques, unités de traitement embarquées et buses d'actuation pilotées par microcontrôleur, TouchDrive condense sensing, génération de signal et retour haptique dans un seul circuit pneumatique passif. Cette compression de la chaîne de traitement réduit directement le coût de fabrication, la surface de défaillance et les contraintes réglementaires liées aux dispositifs électroniques en milieu médical. Pour un COO qui intègre des bras robotiques dans des environnements sensibles ou à budget contraint, l'absence d'électronique signifie aussi une maintenance simplifiée et une certification potentiellement plus rapide. La capacité à moduler la force de préhension en temps réel via retour tactile est ce qui permet la manipulation précise d'objets déformables, un problème non résolu par les systèmes de contrôle en position pure. Le champ de la manipulation assistive est actuellement dominé par des capteurs tactiles électroniques comme GelSight (MIT), DIGIT (Meta AI) ou les solutions embarquées de Touchlab et Contactile, tous dépendants de GPU ou de microcontrôleurs pour le traitement. TouchDrive se positionne explicitement à contre-courant, en ciblant l'accessibilité et la robustesse plutôt que la densité d'information. Il s'agit pour l'heure d'un prototype de laboratoire publié sous forme de preprint, sans partenaire industriel ni calendrier de commercialisation annoncé. La prochaine étape logique serait une validation sur des tâches à contraintes de force plus strictes et un test en conditions d'usage réelles avec des utilisateurs en situation de handicap moteur.

RecherchePaper
1 source