Aller au contenu principal
GeoTLM : modèles tactile-langage sensibles à la géométrie pour le raisonnement sur l'orientation des contacts d'objets dynamiques
RecherchearXiv cs.RO1h

GeoTLM : modèles tactile-langage sensibles à la géométrie pour le raisonnement sur l'orientation des contacts d'objets dynamiques

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié GeoTLM sur arXiv (réf. 2606.15909, juin 2026), un modèle de langage tactile guidé par des représentations géométriques physiques, conçu pour la manipulation robotique d'objets en mouvement. Le constat de départ est empirique : les modèles TLM actuels, Sparsh et AnyTouch2, échouent sur des tâches aussi élémentaires que détecter la direction de rotation d'un objet à partir des données d'un capteur GelSight Mini. Pour y remédier, les auteurs proposent le DGR (Differentiable Geometric Representation), un encodeur de seulement 14 000 paramètres qui structure le champ de cisaillement tactile avant le raisonnement linguistique, via un pooling antisymétrique à sept régions motivé par le fait que les contacts rotatifs génèrent des déformations antisymétriques dans le gel du capteur. Les gains mesurés sont significatifs : +14,6 points de précision sur la direction de rotation pour des objets non vus à l'entraînement, et +16,2 points sur la détection de direction de glissement en conditions réelles de capteur, par rapport au même backbone sans encodeur géométrique.

Ce résultat révèle une lacune structurelle des TLM généralistes : construits pour la reconnaissance de textures et de matériaux (tâches statiques), ils manquent de primitives physiques pour raisonner sur des contacts dynamiques tels que le vissage, le glissement contrôlé ou l'assemblage en pression. Injecter des priors géométriques différentiables dans la boucle d'un VLA sans surcoût architectural notable constitue un pas concret vers un raisonnement tactile robuste sur des objets non catalogués au préalable, ce qui réduit directement la dépendance aux datasets spécifiques par référence produit.

La perception tactile robotique s'est longtemps limitée aux propriétés statiques de surface. L'essor des capteurs visuotactiles haute résolution comme le GelSight, conçu au MIT et largement adopté en recherche, et l'intégration des LLM dans la boucle de contrôle depuis 2023 ont ouvert ce champ. Sparsh, publié par Meta FAIR, et AnyTouch2 constituent les références actuelles des TLM généralistes ; GeoTLM se greffe sur ces backbones plutôt qu'il ne les remplace, ce qui facilite une adoption incrémentale. Aucun acteur européen n'est impliqué dans ce travail. La prochaine étape logique reste une validation en boucle fermée sur des tâches de manipulation réelle, au-delà des benchmarks de classification de direction présentés ici.

À lire aussi

Raisonnement continu pour les modèles vision-langage-action (VLA)
1arXiv cs.RO 

Raisonnement continu pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (2606.00229) une architecture appelée Continuous Reasoning for VLA, qui remplace le langage naturel comme médium de raisonnement pour les politiques robotiques par un espace latent gaussien continu. Le problème est fondamental : le texte opère à la granularité d'une tâche entière, tandis qu'une politique VLA (Vision-Language-Action) doit sélectionner des actions à une échelle temporelle bien plus fine. Le modèle génère d'abord un ensemble structuré de "pensées continues" sous forme de vecteurs gaussiens, puis les réutilise comme contexte partagé pour la génération d'actions par chunks. L'entraînement repose sur un objectif de vérification croisée : un teacher EMA (exponential moving average) doit consommer le raisonnement du modèle étudiant pour prédire les actions cibles, forçant le latent à rester transférable et vérifiable entre instances. Sur robots réels, l'architecture améliore le taux de succès moyen par sous-tâche de 40,4 % sur TX-G2 (variante compatible AgiBot G2) et de 26,3 % sur HSR (Human Support Robot de Toyota), comparé à π0.5 de Physical Intelligence. Ces résultats contredisent une hypothèse répandue : ajouter des tokens de raisonnement textuel via chain-of-thought ou sous-objectifs explicites améliore le contrôle robotique. Les auteurs montrent que ce raisonnement textuel devient facilement un raccourci interne au modèle, efficace sur les comportements vus en entraînement mais peu généralisable. Un médium de raisonnement utile doit être partageable entre instances de modèle et vérifiable via l'amélioration du contrôle aval, deux propriétés que le texte satisfait mal à l'échelle de l'action. La comparaison directe avec π0.5 positionne ce travail en réponse à Physical Intelligence, acteur de référence dans l'espace VLA. Les plateformes testées (AgiBot G2 et HSR) couvrent la robotique de service et industrielle légère, pas uniquement les humanoïdes à fort investissement comme Figure 03 ou Optimus Gen 3. D'autres architectures concurrentes, dont GR00T N2 de NVIDIA et Helix de Figure AI, misent sur des représentations latentes pour améliorer le transfert sim-to-real, mais restent davantage orientées production que recherche fondamentale. Il s'agit pour l'instant d'un résultat académique, sans annonce de pilote commercial ni de déploiement industriel.

RechercheOpinion
1 source
HCSG : raisonnement sémantique-géométrique centré sur l'humain pour la navigation vision-langage
2arXiv cs.RO 

HCSG : raisonnement sémantique-géométrique centré sur l'humain pour la navigation vision-langage

Des chercheurs ont publié en mai 2026 HCSG (Human-Centric Semantic-Geometric Reasoning), un cadre de navigation en langage naturel (VLN) conçu pour les environnements intérieurs dynamiques peuplés de piétons, déposé sur arXiv sous la référence 2605.13321. Contrairement aux approches existantes qui traitent les humains comme de simples obstacles mobiles détectés par indices visuels, HCSG introduit un module unifié de compréhension humaine combinant deux capacités complémentaires : la prévision géométrique, qui anticipe poses et trajectoires futures des personnes, et l'interprétation sémantique, qui exploite un modèle vision-langage (VLM) pour générer des descriptions textuelles des actions et intentions perçues. Ces représentations sont fusionnées dans une carte topologique sur laquelle l'agent planifie ses déplacements en fonction des instructions reçues. Une fonction de perte de distance sociale (social distance loss) contraint le robot à maintenir des distances d'interaction socialement acceptables. Sur le benchmark HA-VLNCE, le framework affiche un gain de 14 % sur le taux de succès et une réduction de 34 % du taux de collision face à l'état de l'art, des chiffres à interpréter avec la prudence habituelle réservée aux préprints non encore évalués en pair-à-pair. Ces résultats pointent un changement de paradigme pertinent pour la robotique de service en espace ouvert. La distinction clé de HCSG est de passer d'un évitement passif (détecter puis contourner) à une compréhension active des comportements : le robot infère si un piéton s'apprête à changer de direction, à s'arrêter ou à interagir, ce qui permet une planification plus fluide. L'intégration d'un VLM est cohérente avec la montée en puissance des architectures vision-langage-action (VLA), mais l'article valide ici leur utilité spécifique pour la navigation sociale, pas seulement la manipulation. Pour les intégrateurs de robots de livraison intérieure ou de guidage hospitalier, c'est un signal que les approches purement géométriques atteignent leurs limites dans des environnements non contrôlés. La navigation VLN a progressé rapidement depuis les benchmarks R2R et REVERIE, portée par les transformers de vision et des modèles comme CLIP. HA-VLNCE, sur lequel HCSG est évalué, est une extension de VLN-CE intégrant des agents humains dynamiques, le rapprochant davantage des conditions de déploiement réelles. Les approches concurrentes en navigation sociale incluent des travaux issus de Stanford, CMU ou MIT, et des frameworks comme NaviSTAR. Côté industriel, les robots de Keenon, Aethon ou Savioke opèrent encore largement dans des couloirs semi-contrôlés précisément pour éviter ces problèmes de cohabitation. HCSG reste une contribution académique sans validation industrielle annoncée, mais une page de projet dédiée laisse entrevoir des travaux futurs sur robot physique.

RechercheOpinion
1 source
Modèles vision-langage-action (VLA) conditionnés par l'état de santé pour un contrôle robotique sensible aux pannes
3arXiv cs.RO 

Modèles vision-langage-action (VLA) conditionnés par l'état de santé pour un contrôle robotique sensible aux pannes

Une équipe de recherche publie sur arXiv (référence 2605.16056) un modèle VLA (Vision-Language-Action) capable d'adapter son comportement à la dégradation physique d'un robot, une problématique distincte des pannes de tâches habituellement ciblées par la littérature. L'approche repose sur l'injection d'un module "Health Projector" dans l'architecture VLA-Adapter : le modèle reçoit en entrée un vecteur de santé encodant l'amplitude articulaire et le couple disponible pour chaque joint. Entraîné sur 128 épisodes téléopérés collectés dans l'environnement de simulation LIBERO (benchmark Libero-Spatial), il parvient à compléter des tâches de manipulation spatiale avec des configurations de joints dégradés où le modèle de référence VLA-Adapter Libero-Spatial-Pro échoue systématiquement. Le code et le jeu de données seront prochainement disponibles sur GitHub (h-arslan/health-aware-vla). L'intérêt industriel est réel : dans les déploiements terrain, les robots accumulent des dégradations mécaniques progressives (usure articulaire, perte de couple, grippage de préhenseur) sans nécessairement déclencher d'alarme critique. Un contrôleur aveugle à cet état physique maintient ses consignes nominales et accumule les erreurs ; un modèle conditionné à la santé peut recalculer ses trajectoires à la volée. La modification proposée est présentée comme légère, ce qui suggère une intégration possible dans des pipelines VLA existants sans refonte complète. Cependant, les résultats restent limités à la simulation LIBERO avec 128 épisodes seulement, un jeu de données particulièrement restreint, et aucune validation sur robot physique n'est présentée, laissant le gap sim-to-real entièrement ouvert. Ce travail s'inscrit dans l'expansion rapide des VLA depuis 2023, portée par des modèles comme pi0 (Physical Intelligence), OpenVLA ou la famille RoboVLMs. VLA-Adapter, utilisé comme base ici, est une variante qui réduit les coûts de fine-tuning en gelant le backbone visio-langagier pour n'entraîner qu'un adaptateur léger. La résilience robotique est jusqu'ici majoritairement traitée côté contrôle bas niveau (détection de fautes, compensation par redondance articulaire) plutôt qu'au niveau de la politique visuo-langagière, ce qui rend l'angle de cette recherche original. Aucun acteur européen n'est impliqué dans cette publication. La prochaine étape logique serait une validation sur hardware réel avec des dégradations induites mécaniquement et un dataset substantiellement élargi pour crédibiliser le passage à l'échelle.

RechercheOpinion
1 source
Représentations statiques et dynamiques pour l'estimation de l'angle de contact tactile avec des capteurs à événements
4arXiv cs.RO 

Représentations statiques et dynamiques pour l'estimation de l'angle de contact tactile avec des capteurs à événements

Des chercheurs ont publié le 3 juin 2026 un preprint (arXiv:2606.03545) évaluant trois méthodes de représentation des données issues du NeuroTac, un capteur tactile neuromorphique event-based, pour l'estimation de l'angle de contact. Les flux d'événements générés lors du contact physique sont transformés en contours spatiaux selon trois approches : une représentation dynamique capturant l'activité événementielle la plus récente, une représentation statique reconstituant un état de contact persistant, et leur combinaison. Sur tous les scénarios de mouvement testés, les trois pipelines maintiennent une latence de traitement P99 inférieure à 10 ms, quel que soit l'intervalle d'échantillonnage utilisé. La représentation statique surpasse marginalement les deux autres en précision : elle atteint une MAE (erreur absolue moyenne) de 0,160° en roulement continu du capteur sur une surface, et de 0,251° lors de phases d'arrêt aléatoires intercalées dans le mouvement. Elle présente également une variance plus faible face aux variations de vitesse et de profondeur d'indentation. Pour les intégrateurs et les équipes de contrôle robotique, une latence P99 sous 10 ms représente le seuil en dessous duquel le retour tactile peut alimenter des boucles de contrôle temps-réel sans devenir le facteur limitant de la chaîne de commande. La précision de 0,160° en roulement est compatible avec des tâches d'assemblage ou d'insertion nécessitant un contrôle fin de l'orientation de contact. Le résultat le plus contre-intuitif est la performance supérieure de la représentation statique sur la dynamique : les capteurs event-based étant précisément réputés pour leur réactivité temporelle, l'hypothèse implicite était que les représentations exploitant cette dimension temporelle seraient les meilleures. Ici, la simplicité de la représentation statique s'avère plus robuste, ce qui réduit la complexité du traitement embarqué nécessaire. Le NeuroTac est issu des travaux du Bristol Robotics Laboratory, dans le groupe de Nathan Lepora, qui a d'abord développé le TacTip, un capteur optique tactile biomimétique, avant d'en produire une variante neuromorphique. Dans l'écosystème des capteurs tactiles de précision, il concurrence des dispositifs comme le DIGIT (Meta AI Research et CMU), le GelSight (MIT) ou les capteurs Xela Robotics. L'article demeure un preprint non soumis à peer review, et les scénarios évalués, fondés sur des mouvements de roulement contrôlés en laboratoire, restent éloignés des conditions d'une manipulation industrielle réelle. La validation sur des tâches multi-doigts ou des mains robotiques complètes comme la Shadow Hand constituerait une prochaine étape naturelle pour évaluer le passage à l'échelle.

RecherchePaper
1 source