
HapTile : un jeu de données vision-tactile-langage-action pour l'apprentissage par imitation en contact riche
Une équipe de recherche a publié sur arXiv (2606.04825) HapTile, un jeu de données visuotactile destiné à l'apprentissage par imitation sur des tâches de manipulation à fort contact. Le dataset capture les interactions physiques à deux niveaux simultanément : des capteurs tactiles installés en bout d'effecteur sur les doigts du robot, et un retour haptique transmis en temps réel à l'opérateur humain lors de la télé-opération. Les tâches couvertes incluent le saisissement, le pliage de tissu, l'appui sur des boutons, l'empilement d'objets et d'autres activités courantes. Chaque séquence est associée à une instruction en langage naturel qui conditionne la politique de contrôle sur l'objectif de manipulation, avec des observations visuotactiles synchronisées et les trajectoires d'action correspondantes. Les chercheurs publient également un benchmarking avec deux modèles de base pour évaluer l'apport concret du signal tactile sur la qualité des politiques apprises.
Ce travail s'attaque à un verrou bien identifié du domaine : la quasi-totalité des datasets VLA (Vision-Language-Action) existants sont purement visuels, ce qui limite les performances des politiques sur des tâches nécessitant un contrôle fin de la force ou du contact. Introduire le retour haptique côté opérateur lors de la collecte de données est particulièrement notable, les études antérieures ont montré que la qualité des démonstrations se dégrade sans ce retour, générant des trajectoires moins stables et moins reproductibles. HapTile tente de combler cette lacune en combinant dans un seul dataset la diversité des tâches, le conditionnement par le langage, les trajectoires d'action et la perception tactile, une combinaison jusqu'ici absente dans la littérature selon les auteurs. Reste à vérifier si l'amélioration mesurée sur les deux baselines se généralise à des architectures plus récentes comme Pi-0 ou OpenVLA.
Ce preprint s'inscrit dans un courant de recherche actif autour de la perception multimoale pour la manipulation dextère, portée notamment par des labos comme le CMU Robotics Institute, MIT CSAIL et des groupes européens comme le LASA à l'EPFL. Du côté industriel, Apptronik, Figure et 1X investissent dans des mains instrumentées, mais les datasets publics à retour haptique restent rares. Le projet est reproductible sur un système robotique standard avec des capteurs tactiles de conception custom, ce qui peut faciliter l'adoption par d'autres équipes. Le dataset et les détails techniques sont accessibles sur haptile-dataset.github.io ; aucune timeline de publication formelle ni partenariat industriel n'est annoncé à ce stade.
Des groupes européens dont le LASA à l'EPFL sont cités comme acteurs du courant de recherche, mais aucune institution française ou de l'UE n'est impliquée directement dans la publication ; l'impact reste indirect via un dataset public librement réutilisable par les équipes européennes.
Le truc vraiment malin ici, c'est pas le capteur tactile sur le robot, c'est le retour haptique côté opérateur pendant la collecte de démos. Ça change la qualité des trajectoires à la source, et c'est exactement ce que les autres datasets VLA n'ont jamais pris la peine de faire. Deux baselines pour le benchmark, bon, c'est un début, reste à voir si le gain tient face à Pi-0 ou OpenVLA.
Dans nos dossiers




