
GeoTLM : modèles tactile-langage sensibles à la géométrie pour le raisonnement sur l'orientation des contacts d'objets dynamiques
Des chercheurs ont publié GeoTLM sur arXiv (réf. 2606.15909, juin 2026), un modèle de langage tactile guidé par des représentations géométriques physiques, conçu pour la manipulation robotique d'objets en mouvement. Le constat de départ est empirique : les modèles TLM actuels, Sparsh et AnyTouch2, échouent sur des tâches aussi élémentaires que détecter la direction de rotation d'un objet à partir des données d'un capteur GelSight Mini. Pour y remédier, les auteurs proposent le DGR (Differentiable Geometric Representation), un encodeur de seulement 14 000 paramètres qui structure le champ de cisaillement tactile avant le raisonnement linguistique, via un pooling antisymétrique à sept régions motivé par le fait que les contacts rotatifs génèrent des déformations antisymétriques dans le gel du capteur. Les gains mesurés sont significatifs : +14,6 points de précision sur la direction de rotation pour des objets non vus à l'entraînement, et +16,2 points sur la détection de direction de glissement en conditions réelles de capteur, par rapport au même backbone sans encodeur géométrique.
Ce résultat révèle une lacune structurelle des TLM généralistes : construits pour la reconnaissance de textures et de matériaux (tâches statiques), ils manquent de primitives physiques pour raisonner sur des contacts dynamiques tels que le vissage, le glissement contrôlé ou l'assemblage en pression. Injecter des priors géométriques différentiables dans la boucle d'un VLA sans surcoût architectural notable constitue un pas concret vers un raisonnement tactile robuste sur des objets non catalogués au préalable, ce qui réduit directement la dépendance aux datasets spécifiques par référence produit.
La perception tactile robotique s'est longtemps limitée aux propriétés statiques de surface. L'essor des capteurs visuotactiles haute résolution comme le GelSight, conçu au MIT et largement adopté en recherche, et l'intégration des LLM dans la boucle de contrôle depuis 2023 ont ouvert ce champ. Sparsh, publié par Meta FAIR, et AnyTouch2 constituent les références actuelles des TLM généralistes ; GeoTLM se greffe sur ces backbones plutôt qu'il ne les remplace, ce qui facilite une adoption incrémentale. Aucun acteur européen n'est impliqué dans ce travail. La prochaine étape logique reste une validation en boucle fermée sur des tâches de manipulation réelle, au-delà des benchmarks de classification de direction présentés ici.
Dans nos dossiers




