
TacCoRL : intégration du retour tactile dans les modèles VLA par simulation
Des chercheurs ont publié sur arXiv (2606.11743) TacCoRL, un framework destiné à intégrer le retour tactile dans les modèles vision-langage-action (VLA) pour la manipulation robotique. L'approche combine un co-entraînement simulation-réel et de l'apprentissage par renforcement (RL) en simulation, sans nécessiter de pré-entraînement tactile à grande échelle ni d'exploration extensive sur hardware réel. Évalué sur quatre tâches bimanuelles à riche contact (insertion, assemblage, manipulation d'objets déformables), le système atteint un taux de succès moyen de 72,5 % contre 50,0 % pour la baseline VLA visuelle seule, soit un gain relatif de 45 % sur ces benchmarks spécifiques.
L'apport technique central n'est pas simplement d'ajouter la touche comme entrée supplémentaire, mais d'apprendre comment les lectures de contact doivent moduler la réponse motrice dans les états de quasi-échec, états rares dans les démonstrations humaines et risqués à collecter sur robot physique. TacCoRL utilise un simulateur aligné sur le réel comme environnement fermé pour les interactions de contact : des trajectoires mixtes (simulées et réelles) initialisent d'abord les actions conditionnées au tactile dans la politique pré-entraînée, puis le RL avec récompenses vérifiables optimise la politique sur des rollouts simulés, tandis qu'un objectif supervisé sur trajectoires réelles ancre la distribution visuelle, tactile et d'action au domaine de déploiement. Le résultat se transfère directement sur robot réel, sans état simulé privilégié ni RL en ligne. C'est une réponse directe au "demo gap" des VLA actuels : les politiques vision-seule échouent précisément sur les phases de contact que la caméra ne résout pas.
Le contexte est celui d'une compétition intense autour des VLA polyvalents : Physical Intelligence avec π0, Google DeepMind avec RT-2 et ses dérivés, ainsi que les efforts de génération suivante (GR00T N2 de NVIDIA, OpenVLA). Tous partagent la même limitation structurelle : l'observation visuelle reste insuffisante pour les tâches à fort contact. La piste tactile est explorée depuis plusieurs années (capteurs GelSight, SynTouch, Digit de Meta), mais son intégration dans des architectures VLA de grande taille restait un verrou de scalabilité. TacCoRL propose une voie pragmatique sans dataset tactile massif, ce qui abaisse la barrière d'adoption pour les laboratoires et intégrateurs. Les prochaines étapes logiques seraient l'extension à des capteurs tactiles commerciaux standardisés et des évaluations sur des tâches industrielles réelles, hors conditions de laboratoire contrôlées.




