
T-Rex : manipulation dextérique à réaction tactile
Une équipe de chercheurs vient de publier T-Rex (Tactile-Reactive Dexterous Manipulation), un système d'apprentissage robotique qui intègre le retour tactile dans un modèle Vision-Language-Action (VLA) pour la manipulation dextre. Pour entraîner le système, les auteurs ont constitué un dataset de 100 heures de données tactiles à haute fréquence, collectées via une méthode centrée sur des primitives motrices élémentaires afin de maximiser l'efficacité de la collecte. L'architecture proposée, baptisée variable-rate Mixture-of-Transformers (MoT), est couplée à un encodeur tactile temporel de type VQ-VAE qui compresse les signaux tactiles à fréquence élevée sans saturer le flux de traitement du VLA de base. Validé sur 12 tâches de manipulation nécessitant un contrôle de force précis ou la gestion d'objets déformables, T-Rex affiche un taux de succès supérieur de plus de 30 % à celui du meilleur modèle concurrent testé.
Ce résultat est significatif parce que les VLA actuels, dont Pi-0 de Physical Intelligence, OpenVLA ou les variantes de GR00T de NVIDIA, ignorent généralement le canal tactile ou se limitent à des encodeurs statiques incapables de capter la dynamique du contact en temps réel. Or, c'est précisément cette réactivité tactile qui distingue la dextérité humaine : ajuster la prise sur un objet glissant, détecter un défaut de surface, moduler la force sur un emballage souple. T-Rex démontre qu'il est possible de greffer un flux tactile à haute fréquence sur un VLA préentraîné sans dégrader ses capacités visuolinguistiques, ce qui ouvre la voie à une intégration progressive dans des pipelines d'apprentissage existants plutôt qu'à une refonte complète de l'architecture.
La raison pour laquelle le tactile restait sous-exploité dans les VLA tient à trois obstacles cumulatifs : rareté des données tactiles diversifiées, contraintes architecturales des transformeurs optimisés pour la vision, et absence de benchmarks standardisés. T-Rex s'attaque aux trois simultanément, ce qui distingue ce travail des contributions précédentes comme DIGIT ou GelSight couplées à des politiques RL classiques. Dans le paysage concurrentiel, les acteurs spécialisés en capteurs tactiles (Contactile, Tac Sensing, BioTac) pourraient trouver dans ce framework un argument pour accélérer l'adoption hardware. Le code, le dataset et les poids du modèle ne sont pas encore mentionnés comme publics au moment de la soumission arXiv ; leur disponibilité conditionne la reproductibilité et l'impact réel de ce travail au-delà du laboratoire.




