UniTacVLA : compréhension et prédiction tactiles unifiées dans les modèles vision-langage-action
UniTacVLA, un modèle vision-langage-action (VLA) tactile, vise à résoudre un point faible connu des VLA classiques : la manipulation dextre en contact riche, comme l'insertion, l'essuyage, l'assemblage ou l'ajustement de précision. Contrairement aux approches vision-tactile-langage-action (VTLA) existantes qui traitent le signal tactile comme une simple entrée auxiliaire passive, l'équipe de recherche propose un espace latent tactile unifié qui modélise conjointement l'état tactile courant et les changements de contact futurs, via un raisonnement en chaîne de pensée tactile et une prédiction tactile progressive (coarse-to-fine). Ce prior tactile alimente ensuite un contrôleur mixte tactile-action combinant retour tactile en temps réel et retour prédit, pour corriger à haute fréquence des chunks d'action calculés à basse fréquence. Les expériences ont été menées en conditions réelles sur quatre catégories de tâches à fort contact (ajustement, insertion, essuyage, assemblage), testées à la fois en environnement propre et sous perturbations externes.
L'enjeu dépasse la simple amélioration de benchmark. La manipulation en contact riche reste l'un des goulots d'étranglement majeurs empêchant les bras robotiques et humanoïdes de passer de la démonstration en laboratoire au déploiement industriel réel, notamment pour des tâches d'assemblage fin où la seule vision ne suffit pas à garantir la précision ou la robustesse face aux perturbations. En traitant le tactile comme un signal dynamique et prédictif plutôt que comme un simple capteur passif, UniTacVLA s'attaque directement à l'écart persistant entre les VLA génériques, entraînés majoritairement sur des données visuelles, et les exigences physiques réelles de l'assemblage industriel ou de la manipulation fine en conditions non contrôlées. Les auteurs revendiquent des gains sur le taux de succès, la précision de manipulation et la robustesse au contact par rapport aux méthodes existantes, ce qui, si confirmé à plus grande échelle, renforcerait l'argument selon lequel l'intégration tactile profonde est nécessaire pour les tâches dextres, et pas seulement un ajout marginal.
Ce travail s'inscrit dans une vague plus large de recherche visant à doter les modèles VLA de capacités multimodales au-delà de la vision et du langage, à mesure que des acteurs comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T) poussent leurs propres modèles génération vers la production industrielle. Les architectures VTLA précédentes, limitées par un traitement passif du tactile, constituent la ligne de base que ce papier cherche à dépasser. La publication, un prépublication arXiv, ne mentionne pas de partenariat industriel ni de calendrier de déploiement commercial ; les prochaines étapes attendues porteraient sur l'extension à davantage de types de capteurs tactiles et de tâches, ainsi que sur une validation à plus grande échelle en dehors du cadre contrôlé des expériences décrites.
Dans nos dossiers




