Aller au contenu principal
HapTile : un jeu de données vision-tactile-langage-action pour l'apprentissage par imitation en contact riche
IA physiquearXiv cs.RO1h

HapTile : un jeu de données vision-tactile-langage-action pour l'apprentissage par imitation en contact riche

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Une équipe de recherche a publié sur arXiv (2606.04825) HapTile, un jeu de données visuotactile destiné à l'apprentissage par imitation sur des tâches de manipulation à fort contact. Le dataset capture les interactions physiques à deux niveaux simultanément : des capteurs tactiles installés en bout d'effecteur sur les doigts du robot, et un retour haptique transmis en temps réel à l'opérateur humain lors de la télé-opération. Les tâches couvertes incluent le saisissement, le pliage de tissu, l'appui sur des boutons, l'empilement d'objets et d'autres activités courantes. Chaque séquence est associée à une instruction en langage naturel qui conditionne la politique de contrôle sur l'objectif de manipulation, avec des observations visuotactiles synchronisées et les trajectoires d'action correspondantes. Les chercheurs publient également un benchmarking avec deux modèles de base pour évaluer l'apport concret du signal tactile sur la qualité des politiques apprises.

Ce travail s'attaque à un verrou bien identifié du domaine : la quasi-totalité des datasets VLA (Vision-Language-Action) existants sont purement visuels, ce qui limite les performances des politiques sur des tâches nécessitant un contrôle fin de la force ou du contact. Introduire le retour haptique côté opérateur lors de la collecte de données est particulièrement notable, les études antérieures ont montré que la qualité des démonstrations se dégrade sans ce retour, générant des trajectoires moins stables et moins reproductibles. HapTile tente de combler cette lacune en combinant dans un seul dataset la diversité des tâches, le conditionnement par le langage, les trajectoires d'action et la perception tactile, une combinaison jusqu'ici absente dans la littérature selon les auteurs. Reste à vérifier si l'amélioration mesurée sur les deux baselines se généralise à des architectures plus récentes comme Pi-0 ou OpenVLA.

Ce preprint s'inscrit dans un courant de recherche actif autour de la perception multimoale pour la manipulation dextère, portée notamment par des labos comme le CMU Robotics Institute, MIT CSAIL et des groupes européens comme le LASA à l'EPFL. Du côté industriel, Apptronik, Figure et 1X investissent dans des mains instrumentées, mais les datasets publics à retour haptique restent rares. Le projet est reproductible sur un système robotique standard avec des capteurs tactiles de conception custom, ce qui peut faciliter l'adoption par d'autres équipes. Le dataset et les détails techniques sont accessibles sur haptile-dataset.github.io ; aucune timeline de publication formelle ni partenariat industriel n'est annoncé à ce stade.

Impact France/UE

Des groupes européens dont le LASA à l'EPFL sont cités comme acteurs du courant de recherche, mais aucune institution française ou de l'UE n'est impliquée directement dans la publication ; l'impact reste indirect via un dataset public librement réutilisable par les équipes européennes.

💬 Le point de vue du dev

Le truc vraiment malin ici, c'est pas le capteur tactile sur le robot, c'est le retour haptique côté opérateur pendant la collecte de démos. Ça change la qualité des trajectoires à la source, et c'est exactement ce que les autres datasets VLA n'ont jamais pris la peine de faire. Deux baselines pour le benchmark, bon, c'est un début, reste à voir si le gain tient face à Pi-0 ou OpenVLA.

À lire aussi

Système de collecte de données visuo-tactiles avec retour haptique pour l'apprentissage par imitation du grossier au précis
1arXiv cs.RO 

Système de collecte de données visuo-tactiles avec retour haptique pour l'apprentissage par imitation du grossier au précis

Des chercheurs ont publié sur arXiv (référence 2605.08757) un système de collecte de données visuo-tactile conçu pour générer des démonstrations de manipulation riches en contacts, destinées à l'apprentissage par imitation. Le dispositif repose sur une pince à entraînement direct que l'opérateur actionne directement avec ses doigts, préservant ainsi le retour haptique naturel pendant l'exécution des tâches. Des capteurs visuels embarqués et des réseaux de capteurs tactiles personnalisés capturent simultanément des flux d'images et la géométrie des contacts. Un bouton-poussoir monté sur la poignée permet à l'opérateur d'annoter en temps réel la structure temporelle de la tâche, en marquant les phases critiques au moment même où elles se produisent. L'ensemble produit des jeux de données multimodaux structurés temporellement, exploitables par des algorithmes d'apprentissage "coarse-to-fine" (du grossier au fin). L'apport principal est d'ordre méthodologique : les systèmes de téleopération conventionnels dissocient l'opérateur des forces de contact, ce qui empêche de démontrer les modulations fines de force nécessaires à des manipulations précises, serrage d'une pièce fragile, insertion avec ajustement, assemblage à faible jeu. En couplant la perception des forces en main avec une annotation temporelle in situ, le système permet de produire des politiques de manipulation de meilleure qualité sans augmenter le volume de données collectées. Pour les intégrateurs qui cherchent à déployer des robots sur des tâches de contact (assemblage, tri délicat, industrie pharmaceutique), c'est une piste sérieuse pour réduire le "demo gap" entre les démonstrations humaines et ce que le robot reproduit réellement. Ce travail s'inscrit dans une dynamique intense autour de la collecte de données de haute qualité pour le robot learning. Les architectures de référence actuelles, ALOHA et ACT de Stanford, UMI de Columbia, ou encore les systèmes de Physical Intelligence derrière pi-0, ont montré que la qualité des démonstrations prime souvent sur leur quantité. Là où ALOHA mise sur la téleopération bimanuelle et UMI sur la portabilité via poignée universelle, ce système parie sur la boucle haptique fermée et l'annotation sémantique embarquée. Aucun déploiement industriel ni partenaire commercial n'est mentionné à ce stade : il s'agit d'une contribution de recherche, sans timeline de productisation annoncée.

IA physiquePaper
1 source
EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)

EXPO-FT est un système de fine-tuning par apprentissage par renforcement (RL) destiné à améliorer la fiabilité des politiques robotiques issues de modèles Vision-Langage-Action (VLA) pré-entraînés. Présenté dans un preprint arXiv (2605.25477, mai 2026), le système atteint un taux de réussite parfait : 30 succès sur 30 tentatives sur trois tâches de manipulation exigeantes. Ces tâches incluent guider une guirlande lumineuse dans son connecteur pour la faire s'allumer, frapper une balle de billard dans une poche, et insérer une fleur dans un goulot de bouteille à vin. Les résultats sont obtenus avec seulement 19,1 minutes en moyenne de données collectées sur robot réel, sans recours à la simulation. Le code source est publié en open source. Ce résultat attaque directement le "reliability gap" : l'écart persistant entre les capacités de généralisation des VLA pré-entraînés et leur fiabilité effective en conditions opérationnelles. Les modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) ou RT-2 (Google DeepMind) montrent une bonne généralisation entre tâches, mais peinent à dépasser les seuils de succès nécessaires en production industrielle. EXPO-FT propose une voie médiane : ni repartir de zéro avec du RL pur, coûteux en données et instable, ni se limiter au fine-tuning supervisé qui plafonne rapidement. En moins de 20 minutes de données réelles, le système atteint la perfection sur des exercices combinant précision millimétrique, dynamique de mouvement et robustesse aux variations d'état initial. Pour un intégrateur ou un COO déployant des bras robotiques sur ligne, c'est un signal que le commissioning par RL pourrait se mesurer en minutes plutôt qu'en jours, si ces résultats se confirment hors conditions de laboratoire. Ce travail s'inscrit dans la convergence accélérée entre LLM fondationnels et contrôle robotique amorcée depuis 2023. Google DeepMind avec Gemini Robotics, Physical Intelligence avec pi-0 et Covariant ont démontré que des politiques pré-entraînées à grande échelle offrent une base solide, mais la question du "last mile" restait ouverte. EXPO-FT y répond en publiant une infrastructure de RL finetuning stable et accessible. Les concurrents directs sur ce créneau sont les approches de reinforcement finetuning développées chez 1X Technologies et dans plusieurs labos académiques américains. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'ont pas encore publié de travaux équivalents sur le RL finetuning de VLA, soulignant un écart notable avec la recherche américaine sur ce segment précis.

UEL'absence de travaux équivalents côté européen (Enchanted Tools, Wandercraft) souligne un retard compétitif de l'écosystème EU sur le RL finetuning de VLA, segment clé pour industrialiser les politiques robotiques.

💬 30 sur 30, moins de 20 minutes de données réelles, code open source. C'est exactement le type de résultat qu'on attendait pour débloquer le commissioning robotique, parce que le vrai blocage n'a jamais été la généralisation (pi-0 et RT-2 l'ont prouvé) mais la fiabilité en conditions opérationnelles, ce fameux écart qui rend les démos impressionnantes et les déploiements industriels galères. Bon, sur le papier c'est parfait, mais je veux voir ça tenir sur une ligne d'assemblage qui ne ressemble pas à un setup de labo.

IA physiqueOpinion
1 source
Apprendre à agir par le contact : une vision unifiée de l'apprentissage multi-tâches pour les robots
3arXiv cs.RO 

Apprendre à agir par le contact : une vision unifiée de l'apprentissage multi-tâches pour les robots

Des chercheurs ont publié sur arXiv (2510.03599v2) un cadre unifié d'apprentissage de politiques pour la locomotion et la manipulation robotique multi-tâches, fondé sur une représentation dite "contact-explicite". Le principe central consiste à définir chaque tâche non pas par des trajectoires articulaires spécifiques, mais par une séquence d'objectifs de contact: positions de contact souhaitées, timings, et effecteurs actifs. Une politique unique, entraînée par apprentissage par renforcement (RL) conditionné aux objectifs, prend ces plans de contact en entrée et les exécute. Le framework a été validé sur plusieurs morphologies robotiques: un quadrupède exécutant différentes allures (trot, galop, etc.), un humanoïde réalisant des locomotions bipèdes et quadrupèdes, et ce même humanoïde effectuant des tâches de manipulation bimanuelles d'objets. Dans les trois cas, une seule politique gère l'ensemble des comportements. L'intérêt industriel est direct: l'approche contact-explicite améliore significativement la généralisation à des scénarios non vus pendant l'entraînement, ce qui s'attaque frontalement au "sim-to-real gap" qui pénalise la plupart des politiques entraînées en simulation. Pour un intégrateur ou un OEM robotique, cela signifie moins de politiques spécialisées à maintenir, moins de re-training à chaque variante de tâche, et une architecture potentiellement plus robuste aux variations de terrain ou d'objet. Le fait qu'une seule politique puisse couvrir à la fois locomotion et manipulation (loco-manipulation) dans un cadre commun réduit également la complexité d'orchestration en production. Les résultats présentés semblent solides en simulation, mais les auteurs n'annoncent pas de déploiement physique à l'échelle, ce qui invite à distinguer démonstration de recherche et produit shipé. Les approches classiques traitent locomotion et manipulation comme deux sous-problèmes séparés, avec des planificateurs et des politiques dédiées. L'espace des politiques générales est aujourd'hui dominé par des VLA (Vision-Language-Action models) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui s'appuient sur de larges datasets visuels et du transfert de fondation. La contribution ici prend le parti inverse: une représentation géométrique structurée des contacts, plus frugale en données mais plus contrainte en hypothèses. Dans le domaine de la locomotion quadrupède unifiée, les groupes de l'ETH Zurich (ANYmal), de CMU et de Berkeley restent les références. La suite logique de ces travaux serait d'interfacer la planification de contacts avec un module de compréhension du langage naturel, pour permettre des instructions de haut niveau, une direction déjà explorée par plusieurs laboratoires académiques et startups de la robotique incarnée.

IA physiquePaper
1 source
Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)
4arXiv cs.RO 

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, instructions en langage naturel et génération de commandes motrices, dominent la recherche en manipulation robotique généraliste. Leur faiblesse structurelle : entraînés exclusivement sur des démonstrations réussies par clonage comportemental, ils deviennent cassants dès qu'une erreur d'exécution les place hors distribution, les erreurs se cumulant jusqu'à des états non récupérables. Des chercheurs proposent sur arXiv (2605.08434, mai 2026) AFIL (Adaptive Failure-Informed Learning), un framework qui intègre les trajectoires d'échec comme signal de guidage négatif dans les politiques VLA diffusion-based. AFIL exploite un VLA pré-entraîné pour générer automatiquement des rollouts échoués en ligne, sans annotation manuelle ni supervision humaine, puis entraîne deux générateurs d'actions parallèles (Dual Action Generators, DAG) partageant un backbone vision-langage commun pour un surcoût paramétrique modeste. À l'inférence, le DAG dédié aux échecs oriente la génération loin des zones à risque, avec une force de guidage proportionnelle à la distance entre distributions de succès et d'échec à chaque étape de diffusion. Les expériences sur des tâches courte et longue portée, en domaine et hors domaine, montrent des gains constants en taux de succès face aux baselines VLA existants. Ce résultat touche un point critique du déploiement industriel : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA partagent cette vulnérabilité inhérente au behavioral cloning pur, où l'absence de signal correctif laisse le robot sans mécanisme de récupération. AFIL se distingue parce qu'il ne requiert ni données d'échec labellisées ni boucle de retour humaine, ce qui le rend potentiellement scalable pour des pipelines de production à grande échelle. Sa robustesse hors domaine est particulièrement pertinente pour les intégrateurs industriels qui déploient des robots dans des environnements variables non couverts par les jeux d'entraînement. Le travail s'inscrit dans la vague des politiques diffusion-based initiée par Diffusion Policy (Chi et al., 2023), que Physical Intelligence a popularisée avec Pi-0 et que suivent de près des acteurs européens comme Enchanted Tools, dont le robot humanoïde Mirokaï est développé en France. Face à la fragilité du behavioral cloning, des approches concurrentes coexistent : DAgger (agrégation de données avec supervision interactive), apprentissage par renforcement, ou récupération par planification symbolique. AFIL se positionne comme une solution à intégration native dans le processus de diffusion, sans rupture architecturale. L'article reste une prépublication arXiv, sans évaluation par les pairs ni déploiement terrain annoncé.

UEEnchanted Tools (Paris), dont le robot Mirokaï repose sur des politiques diffusion-based similaires, est directement concernée par cette avancée qui pourrait renforcer la robustesse de ses pipelines VLA sans rupture architecturale.

💬 Le behavioral cloning pur, c'est élégant sur le papier, et fragile dès le premier écart en conditions réelles. Ce qui est malin dans AFIL, c'est qu'il génère lui-même les données d'échec, sans annotation humaine, ce qui rend ça scalable sans exploser le budget data. Les gens d'Enchanted Tools, qui bossent sur exactement ce type de politiques diffusion-based avec Mirokaï, ont matière à creuser.

IA physiqueOpinion
1 source