RecherchearXiv cs.RO6sem

TacSE3 : estimation SE(3) équivariante sur images visuotactiles à faible texture pour suivi et compensation en préhension

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (identifiant 2605.17929) TacSE3, un pipeline d'estimation de mouvement tactile conçu pour le suivi d'objets en prise de robot. Le système prend en entrée des images visuotactiles à faible texture, les convertit en un champ de force tridimensionnel découplé, puis estime le mouvement rigide incrémental dans SE(3), c'est-à-dire le groupe euclidien spécial à six degrés de liberté combinant trois axes de translation et trois axes de rotation. L'architecture dérive la translation planaire depuis le déplacement du centroïde de contact, et estime la rotation principalement à partir des réponses tactiles de cisaillement (shear). Les expériences s'appuient sur une paire de capteurs visuotactiles DM-Tac montés en configuration bidigitale, sans autre précision sur le matériel robotique hôte ni sur les benchmarks comparatifs utilisés.

L'intérêt industriel réside dans deux propriétés rarement combinées : l'interprétabilité physique du signal et l'absence de ré-entraînement de la politique de base. En manipulation in-hand, l'occlusion visuelle fréquente prive les approches classiques de correspondances stables entre images, qu'il s'agisse de matching géométrique ou de flux optique. TacSE3 contourne ce problème en exploitant uniquement le retour tactile, lequel reste disponible même lorsque la caméra extéroceptive est aveugle. La configuration à deux capteurs réduit l'ambiguïté translation-rotation inhérente à un capteur unique et permet le suivi en rotation sur plusieurs axes et géométries d'objets. Le signal de compensation reste léger et s'intègre en surcouche d'une politique existante, ce qui simplifie l'industrialisation : pas besoin de reprendre l'apprentissage pour améliorer la tolérance aux perturbations.

La manipulation tactile en prise est un axe de recherche actif, porté notamment par les travaux autour des capteurs GelSight (MIT) et des approches vision-language-action (VLA) qui peinent encore sur la finesse des contacts. TacSE3 s'inscrit dans la tendance à enrichir ces pipelines avec un retour proprioceptif interprétable plutôt que de tout déléguer au visuel. Côté concurrence, des équipes comme celles derrière Digit (Meta/GelSight Technologies) ou Soft Robotics travaillent sur des capteurs tactiles embarqués, mais peu proposent une estimation SE(3) sans texture. La preprint ne mentionne pas de partenaire industriel ni de calendrier de déploiement ; les résultats restent à confirmer hors laboratoire, en conditions d'encombrement et de bruit réels.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

VBT-MPC : commande prédictive tactile à base de vision pour le suivi de contour

Des chercheurs ont publié sur arXiv (2605.20392) un framework de contrôle prédictif baptisé VBT-MPC (Vision-Based Tactile Model Predictive Control), conçu pour le suivi de contours en manipulation robotique. Le système repose sur un capteur tactile à vision embarquée (VBTS, Vision-Based Tactile Sensor) monté en configuration eye-in-hand, c'est-à-dire fixé au poignet du robot de façon à co-localiser la perception et l'action. La contribution centrale est que le contrôleur MPC opère directement dans l'espace des descripteurs de contour extraits du capteur, sans passer par un module intermédiaire d'estimation de pose ni par une architecture de contrôle en effort dédiée. Les expériences couvrent des objets aux géométries et matériaux variés, évalués à la fois en simulation et en conditions réelles, avec comparaison systématique contre des stratégies de visual servoing adaptées aux features tactiles. Ce travail s'attaque à un verrou concret du suivi de surface industriel : maintenir un contact calibré tout en longeant un contour exige traditionnellement soit un estimateur de pose précis (coûteux en calcul et sensible aux erreurs de modèle), soit un contrôleur en force complexe. En faisant du MPC un contrôleur natif dans l'espace tactile, les auteurs réduisent la chaîne de traitement et potentiellement la latence de réaction. Pour un intégrateur ou un COO industriel, cela pointe vers des applications d'inspection de surface, de meulage ou d'assemblage de précision où la robustesse au glissement et aux irrégularités géométriques est critique. La comparaison avec le visual servoing tactile permet de quantifier le gain du MPC sur l'horizon de prédiction face à une loi de commande réactive pure, ce qui est une donnée utile pour le choix d'architecture. Les capteurs tactiles à vision (GelSight du MIT, DIGIT de Meta/CMU, Allsight, Soft-bubble) ont connu une forte montée en maturité depuis 2019, permettant d'extraire des champs de déformation et des features géométriques à haute résolution sans marqueurs. L'intégration du MPC à ce type de sensing prolonge des travaux antérieurs sur le contrôle en force/contact, mais substitue la mesure de force par une information visuelle riche et moins coûteuse en capteurs. Côté concurrence académique, des équipes comme CMU Robotics, Berkeley AUTOLAB et ETH Zurich RSL explorent des approches comparables (apprentissage par imitation tactile, diffusion policies avec retour haptique). La prochaine étape naturelle pour ce type de framework serait l'intégration dans des pipelines de manipulation généralistes ou des bancs d'inspection automatisée, potentiellement combinée avec des VLA (Vision-Language-Action models) pour la planification de haut niveau.

RecherchePaper

1 source

2arXiv cs.RO

UniTac : modèle multimodal unifié pour la compréhension et la génération tactiles multi-capteurs

Une équipe de recherche présente UniTac, décrit comme le premier modèle multimodal unifié (UMM) conçu spécifiquement pour la compréhension et la génération de données tactiles, dans un article publié sur arXiv (2606.31451v1). Le système modélise le processus tactile comme une transition entre l'absence de contact et le contact, via une représentation à deux niveaux qui encode à la fois les attributs du capteur utilisé et ceux de l'objet touché. Pour la compréhension, UniTac introduit deux tâches inédites : la description des propriétés physiques d'un objet et l'identification du capteur à l'origine du signal. Pour la génération, les auteurs proposent un entraînement en deux étapes, reconstruction puis alignement, complété par une stratégie d'échantillonnage basée sur les caractéristiques propres à chaque capteur afin de simuler des contacts réalistes. Entraîné sur des jeux de données tactiles multi-capteurs à grande échelle, le modèle revendique des performances état de l'art en compréhension tactile et une capacité à générer des signaux tactiles crédibles quel que soit le capteur d'origine. L'enjeu principal touche à la fragmentation du capteur tactile en robotique : les technologies existantes (capteurs optiques type GelSight ou DIGIT, capteurs magnétiques comme ReSkin, etc.) produisent des signaux de formats incompatibles, ce qui oblige généralement à ré-entraîner un modèle par type de capteur. Un modèle unifié capable à la fois d'interpréter et de générer du signal tactile à travers différents capteurs ouvrirait la voie à un transfert d'apprentissage sans recollecte massive de données, et à une augmentation synthétique des jeux de données tactiles pour l'entraînement de politiques de manipulation. C'est un pas potentiel vers l'intégration du toucher dans les modèles vision-langage-action (VLA) qui structurent aujourd'hui la robotique humanoïde, où la perception reste très majoritairement centrée sur la vision. Ce travail s'inscrit dans la continuité des modèles multimodaux unifiés développés pour l'image et le texte, ici transposés au domaine tactile encore largement sous-exploré selon les auteurs. Il ne s'agit à ce stade que d'une publication de recherche, sans capteur commercial ni intégration robotique annoncée : l'article ne précise ni partenariat industriel, ni calendrier de déploiement, ce qui en fait une contribution méthodologique plutôt qu'un produit prêt à l'emploi.

RecherchePaper

1 source

3arXiv cs.RO

DarkQA : évaluation des modèles vision-langage sur la compréhension visuelle primitive en intérieur faiblement éclairé

Une équipe de recherche a publié DarkQA, un benchmark open-source destiné à évaluer les modèles de vision-langage (VLM) dans des conditions de faible éclairage intérieur, selon un prépublication arXiv (2512.24985, version 4). Le benchmark contient 9 400 paires image-question générées de manière déterministe et vérifiable, couvrant cinq familles de primitives visuelles : détection d'objets, estimation de profondeur, lecture de texte, identification de couleur et reconnaissance de forme. La dégradation lumineuse y est modélisée en espace RAW linéaire, simulant une chute physique d'illumination et du bruit capteur via un pipeline de rendu inspiré des pipelines ISP (Image Signal Processing) des appareils photo. Les résultats ont été validés contre des données réelles de caméras en basse lumière. Les auteurs ont évalué plusieurs VLMs représentatifs ainsi que des méthodes de prétraitement Low-Light Image Enhancement (LLIE). Le verdict : les VLMs se dégradent de manière systématique sous faible illumination et bruit capteur, tandis que les méthodes LLIE offrent une récupération partielle mais instable selon la sévérité des conditions. Ce travail comble un angle mort critique dans l'évaluation des agents incarnés. Les benchmarks existants supposent des conditions d'éclairage idéales, alors que le déploiement 24h/24 de robots ou de systèmes de perception autonome implique nécessairement des environnements mal éclairés : entrepôts de nuit, couloirs intérieurs, scènes résidentielles en soirée. Le fait que les LLIE améliore les performances de façon non monotone selon l'intensité de la dégradation est un signal d'alerte pour les intégrateurs qui considèrent ces méthodes comme une solution générique de prétraitement. DarkQA isole les échecs perceptuels avant qu'ils ne soient noyés dans des tâches embodied complexes, ce qui permet d'identifier précisément quel type de primitive visuelle casse en premier. Dans le contexte plus large, cette publication s'inscrit dans une dynamique de maturité des benchmarks pour l'IA incarnée, après des frameworks comme RoboVQA, OpenEQA ou ScanQA qui évaluaient la compréhension de scène sans contrainte photométrique. L'absence d'un tel benchmark laissait les développeurs sans signal clair sur la robustesse réelle de modèles comme GPT-4V, LLaVA ou Gemini Pro Vision en conditions dégradées. La disponibilité du code et du dataset est conditionnée à l'acceptation de l'article en conférence ou journal, ce qui en limite l'usage immédiat. Le site projet (darkqa-benchmark.github.io) est déjà en ligne, et les auteurs indiquent une prochaine mise à disposition publique complète.

RecherchePaper

1 source

4arXiv cs.RO

Vers des modèles vision-langage à faible latence avec prédictions doublement correctes pour la compréhension visuelle égocentrique

Des chercheurs ont publié sur arXiv (réf. 2606.25160v1) une étude sur l'élagage des modèles vision-langage (VLMs) appliqué à la compréhension visuelle égocentrique, c'est-à-dire depuis le point de vue d'un robot ou d'un humain équipé de capteurs embarqués. L'objectif est de réduire la latence d'inférence pour des tâches collaboratives homme-robot (HRC) en temps réel, où chaque milliseconde compte. Les auteurs introduisent le concept de "prédiction doublement correcte" : une sortie du modèle doit être à la fois précise dans sa réponse ET ancrée dans les bonnes preuves visuelles (localisation d'evidence correcte). Leurs expériences montrent un résultat surprenant : les méthodes d'élagage existantes (weight pruning) tendent à préserver la localisation des indices visuels pertinents, mais dégradent la précision de la prédiction finale. Pour corriger cela, ils proposent une stratégie d'élagage informée par le raisonnement (rationale-informed pruning), validée sur des jeux de données vidéo égocentrique, sur lesquels elle surpasse les approches concurrentes en précision et en taux de prédictions doublement correctes. Pour les intégrateurs robotiques et les équipes qui déploient des VLMs sur des robots collaboratifs, ce résultat a des implications directes. La sécurité en HRC exige non seulement que le robot prenne la bonne décision, mais qu'il la prenne pour les bonnes raisons, ce qui est essentiel pour l'auditabilité et la conformité dans des contextes industriels réglementés. La démonstration que les techniques d'élagage standards cassent silencieusement la chaîne preuve-décision est un signal d'alarme pour quiconque compresse des VLMs à des fins de déploiement embarqué sans valider ce couplage. Cette publication s'inscrit dans une vague de travaux visant à rendre les VLMs exploitables sur hardware contraint, en réponse à la montée en puissance des architectures vision-action comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), qui intègrent déjà des capacités de compréhension visuelle pour la manipulation. L'élagage structuré reste une voie active face à la distillation ou la quantification. La prochaine étape naturelle serait de tester cette approche sur des benchmarks de manipulation réelle ou des pipelines de type VLA (Vision-Language-Action), où le gap sim-to-real reste ouvert. Il s'agit pour l'instant d'un preprint non évalué par les pairs.

RechercheOpinion

1 source