Aller au contenu principal
RecherchearXiv cs.RO3h

InvariantCloud : un framework de nuage de points globalement invariant et indexé de manière unique pour le suivi robuste de pose tactile à 6 DOF

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié le 26 mai 2026 sur arXiv (arXiv:2605.25216) un framework de suivi de pose tactile 6-DoF baptisé InvariantCloud, conçu pour les capteurs tactiles visuels, ces dispositifs équipés d'une caméra interne qui observe une surface gel texturée en contact avec un objet. L'approche repose sur l'exploitation de la constellation globale des marqueurs de surface du capteur comme référentiel invariant : plutôt que de suivre localement les déplacements relatifs des marqueurs, InvariantCloud effectue un recalage de nuage de points globalement invariant en une seule passe (one-shot), ce qui supprime l'accumulation de dérive caractéristique des méthodes séquentielles. Les expérimentations montrent des performances supérieures aux benchmarks existants sur la précision du suivi en lacet (rotation autour de l'axe Z) et sur la répétabilité de la relocalisation dans des tâches longues durée.

Le problème de la dérive cumulative dans l'estimation du lacet est notoire dans la littérature sur la perception tactile : les approches incrémentales perdent leur référence absolue sur les longues séquences, rendant les manipulations fines peu fiables. InvariantCloud adresse directement ce point aveugle en ancrant chaque estimation à une référence globale plutôt qu'à l'état précédent, ce qui le rend particulièrement pertinent pour les tâches de manipulation précise en robotique industrielle ou dans les bras téléopérés. La convergence actuelle entre l'apprentissage par imitation (imitation learning) et les modèles vision-langage-action (VLA) crée une demande accrue pour une perception tactile haute fidélité fiable sur des horizons longs, domaine où ce travail apporte une contribution mesurable.

Les capteurs tactiles visuels de référence -- GelSight, DIGIT, Soft-Bubble -- souffrent tous de limitations similaires sur l'estimation du lacet, un problème ouvert depuis plusieurs années. InvariantCloud s'insère dans un écosystème de recherche actif incluant des travaux récents comme TactiFind ou DenseTact, avec lesquels il se compare expérimentalement. Il s'agit à ce stade d'un preprint non encore soumis à peer review, ce qui invite à la prudence sur la généralisation des résultats : les conditions expérimentales précises, la diversité des objets testés et les capteurs supportés ne sont pas détaillés dans le résumé disponible. Des travaux d'intégration dans des pipelines de manipulation open-source constitueraient une prochaine étape naturelle pour valider l'applicabilité industrielle.

À lire aussi

Estimation de pose 6-DOF pour objets inconnus : vers un déploiement robotique à grande échelle
1arXiv cs.RO 

Estimation de pose 6-DOF pour objets inconnus : vers un déploiement robotique à grande échelle

Une équipe de chercheurs a publié en 2025 SinRef-6D, une méthode d'estimation de pose 6-DoF (six degrés de liberté) conçue pour des objets inconnus à partir d'une seule image de référence RGB-D. Contrairement aux approches dominantes qui exigent soit un modèle CAO complet, soit un ensemble dense de vues de référence, SinRef-6D n'utilise qu'un unique cliché annoté capturé pendant la manipulation robotique. Le système a été validé sur six benchmarks académiques standards et intégré dans un système robotique réel pour des tâches de préhension (grasping). Le code source et des démonstrations vidéo sont disponibles publiquement via le site associé à l'article. L'enjeu est significatif pour les intégrateurs industriels : l'absence de dépendance à un modèle CAO ou à une base de données de vues représente un frein majeur au déploiement de la manipulation robotique en environnement non contrôlé. Si la méthode tient ses promesses à l'échelle, elle réduit le coût de mise en service pour des objets nouveaux ou variables, un problème concret dans la logistique, le pick-and-place e-commerce ou l'assemblage à variantes élevées. Le système repose sur des State Space Models (SSMs), une architecture alternative aux Transformers qui offre une complexité linéaire pour la modélisation de dépendances spatiales longue portée à partir d'un seul point de vue. Cela permet de compenser la pauvreté géométrique inhérente à une image unique, via un alignement itératif point-à-point dans un système de coordonnées objet commun. Une nuance s'impose cependant : les démonstrations robotiques présentées restent des scénarios de laboratoire, et aucune donnée de déploiement industriel à grande échelle n'est communiquée. La problématique de la scalabilité en estimation de pose est active depuis plusieurs années, avec des travaux comme FoundPose, FoundPose, Gen6D ou GigaPose qui tentent chacun de réduire la dépendance aux données de référence. SinRef-6D se positionne sur le segment le plus contraint, une seule vue, ce qui le distingue techniquement mais pose la question de la robustesse face aux occlusions partielles ou aux variations d'éclairage importantes, non documentées dans l'abstract. Les prochaines étapes attendues pour ce type de travaux incluent l'intégration dans des pipelines de manipulation généraliste (type pi0 ou RDT-1B), où l'estimation de pose externe peut compléter les approches end-to-end visuomotrices.

RecherchePaper
1 source
TacSE3 : estimation SE(3) équivariante sur images visuotactiles à faible texture pour suivi et compensation en préhension
2arXiv cs.RO 

TacSE3 : estimation SE(3) équivariante sur images visuotactiles à faible texture pour suivi et compensation en préhension

Des chercheurs ont publié sur arXiv (identifiant 2605.17929) TacSE3, un pipeline d'estimation de mouvement tactile conçu pour le suivi d'objets en prise de robot. Le système prend en entrée des images visuotactiles à faible texture, les convertit en un champ de force tridimensionnel découplé, puis estime le mouvement rigide incrémental dans SE(3), c'est-à-dire le groupe euclidien spécial à six degrés de liberté combinant trois axes de translation et trois axes de rotation. L'architecture dérive la translation planaire depuis le déplacement du centroïde de contact, et estime la rotation principalement à partir des réponses tactiles de cisaillement (shear). Les expériences s'appuient sur une paire de capteurs visuotactiles DM-Tac montés en configuration bidigitale, sans autre précision sur le matériel robotique hôte ni sur les benchmarks comparatifs utilisés. L'intérêt industriel réside dans deux propriétés rarement combinées : l'interprétabilité physique du signal et l'absence de ré-entraînement de la politique de base. En manipulation in-hand, l'occlusion visuelle fréquente prive les approches classiques de correspondances stables entre images, qu'il s'agisse de matching géométrique ou de flux optique. TacSE3 contourne ce problème en exploitant uniquement le retour tactile, lequel reste disponible même lorsque la caméra extéroceptive est aveugle. La configuration à deux capteurs réduit l'ambiguïté translation-rotation inhérente à un capteur unique et permet le suivi en rotation sur plusieurs axes et géométries d'objets. Le signal de compensation reste léger et s'intègre en surcouche d'une politique existante, ce qui simplifie l'industrialisation : pas besoin de reprendre l'apprentissage pour améliorer la tolérance aux perturbations. La manipulation tactile en prise est un axe de recherche actif, porté notamment par les travaux autour des capteurs GelSight (MIT) et des approches vision-language-action (VLA) qui peinent encore sur la finesse des contacts. TacSE3 s'inscrit dans la tendance à enrichir ces pipelines avec un retour proprioceptif interprétable plutôt que de tout déléguer au visuel. Côté concurrence, des équipes comme celles derrière Digit (Meta/GelSight Technologies) ou Soft Robotics travaillent sur des capteurs tactiles embarqués, mais peu proposent une estimation SE(3) sans texture. La preprint ne mentionne pas de partenaire industriel ni de calendrier de déploiement ; les résultats restent à confirmer hors laboratoire, en conditions d'encombrement et de bruit réels.

RecherchePaper
1 source
VBT-MPC : commande prédictive tactile à base de vision pour le suivi de contour
3arXiv cs.RO 

VBT-MPC : commande prédictive tactile à base de vision pour le suivi de contour

Des chercheurs ont publié sur arXiv (2605.20392) un framework de contrôle prédictif baptisé VBT-MPC (Vision-Based Tactile Model Predictive Control), conçu pour le suivi de contours en manipulation robotique. Le système repose sur un capteur tactile à vision embarquée (VBTS, Vision-Based Tactile Sensor) monté en configuration eye-in-hand, c'est-à-dire fixé au poignet du robot de façon à co-localiser la perception et l'action. La contribution centrale est que le contrôleur MPC opère directement dans l'espace des descripteurs de contour extraits du capteur, sans passer par un module intermédiaire d'estimation de pose ni par une architecture de contrôle en effort dédiée. Les expériences couvrent des objets aux géométries et matériaux variés, évalués à la fois en simulation et en conditions réelles, avec comparaison systématique contre des stratégies de visual servoing adaptées aux features tactiles. Ce travail s'attaque à un verrou concret du suivi de surface industriel : maintenir un contact calibré tout en longeant un contour exige traditionnellement soit un estimateur de pose précis (coûteux en calcul et sensible aux erreurs de modèle), soit un contrôleur en force complexe. En faisant du MPC un contrôleur natif dans l'espace tactile, les auteurs réduisent la chaîne de traitement et potentiellement la latence de réaction. Pour un intégrateur ou un COO industriel, cela pointe vers des applications d'inspection de surface, de meulage ou d'assemblage de précision où la robustesse au glissement et aux irrégularités géométriques est critique. La comparaison avec le visual servoing tactile permet de quantifier le gain du MPC sur l'horizon de prédiction face à une loi de commande réactive pure, ce qui est une donnée utile pour le choix d'architecture. Les capteurs tactiles à vision (GelSight du MIT, DIGIT de Meta/CMU, Allsight, Soft-bubble) ont connu une forte montée en maturité depuis 2019, permettant d'extraire des champs de déformation et des features géométriques à haute résolution sans marqueurs. L'intégration du MPC à ce type de sensing prolonge des travaux antérieurs sur le contrôle en force/contact, mais substitue la mesure de force par une information visuelle riche et moins coûteuse en capteurs. Côté concurrence académique, des équipes comme CMU Robotics, Berkeley AUTOLAB et ETH Zurich RSL explorent des approches comparables (apprentissage par imitation tactile, diffusion policies avec retour haptique). La prochaine étape naturelle pour ce type de framework serait l'intégration dans des pipelines de manipulation généralistes ou des bancs d'inspection automatisée, potentiellement combinée avec des VLA (Vision-Language-Action models) pour la planification de haut niveau.

RecherchePaper
1 source
TouchAnything : jeu de données et framework pour l'estimation tactile bimanuelle en vidéo égocentrique
4arXiv cs.RO 

TouchAnything : jeu de données et framework pour l'estimation tactile bimanuelle en vidéo égocentrique

Une équipe de chercheurs a publié EgoTouch (arXiv 2605.13083), un dataset égocentrique à grande échelle combinant vidéo multi-vues et supervision tactile dense pour l'interaction bimanuelle main-objet. Le jeu de données couvre 208 tâches de manipulation réparties en 1 891 épisodes collectés en environnements intérieurs et extérieurs variés, synchronisés avec trois flux RGB simultanés (une caméra montée sur la tête et deux caméras fixées aux poignets), une estimation 3D de la pose des deux mains et des cartes de pression continues issues de capteurs tactiles portables. Sur cette base, les auteurs proposent TouchAnything, un modèle de prédiction vision-to-touch qui utilise la vue égocéntrique comme entrée principale et intègre optionnellement les vues poignet à l'inférence. Les gains mesurés atteignent 5,0% en Contact IoU et 6,1% en Volumetric IoU par rapport à la vue égocentrique seule. Le dataset, le code et un benchmark seront publiés en open source, sans date précise annoncée. L'absence de modalité tactile dans les datasets égocentriques existants constitue un frein reconnu à l'apprentissage de représentations physiquement ancrées : la vidéo seule ne transmet pas les signaux de contact, de force ou de pression nécessaires pour modéliser les dynamiques réelles d'interaction avec les objets. EgoTouch adresse ce verrou en montrant qu'il est possible d'inférer le retour tactile depuis la seule observation visuelle, ouvrant la voie à une supervision tactile scalable sans déploiement coûteux de matériel instrumenté. Pour les équipes travaillant sur des robots manipulateurs ou des politiques de saisie, cela représente une voie d'entraînement potentiellement peu onéreuse pour des comportements sensibles au contact, problème central dans l'assemblage délicat, le tri de pièces fragiles ou la manipulation de souples. Ce travail prolonge l'essor des datasets égocentriques type Ego4D (Meta, 2022), qui ont établi la valeur des flux vidéo à la première personne pour l'apprentissage embodied. Les datasets tactiles antérieurs, notamment autour de GelSight (MIT) ou DIGIT (Meta), restaient de petite échelle et difficiles à généraliser hors contexte de doigts robotiques instrumentés. TouchAnything se positionne comme une alternative scalable via des capteurs portables grand public. Les concurrents directs incluent les équipes travaillant sur le transfert tactile sim-to-real chez Meta AI et MIT CSAIL, ainsi que les projets VLA tels que pi0 de Physical Intelligence ou OpenVLA, qui intègrent progressivement la modalité tactile dans leurs pipelines d'apprentissage par imitation. Aucun acteur français ou européen n'est impliqué dans ce preprint.

RecherchePaper
1 source