Aller au contenu principal
Système de collecte de données visuo-tactiles avec retour haptique pour l'apprentissage par imitation du grossier au précis
IA physiquearXiv cs.RO6sem

Système de collecte de données visuo-tactiles avec retour haptique pour l'apprentissage par imitation du grossier au précis

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2605.08757) un système de collecte de données visuo-tactile conçu pour générer des démonstrations de manipulation riches en contacts, destinées à l'apprentissage par imitation. Le dispositif repose sur une pince à entraînement direct que l'opérateur actionne directement avec ses doigts, préservant ainsi le retour haptique naturel pendant l'exécution des tâches. Des capteurs visuels embarqués et des réseaux de capteurs tactiles personnalisés capturent simultanément des flux d'images et la géométrie des contacts. Un bouton-poussoir monté sur la poignée permet à l'opérateur d'annoter en temps réel la structure temporelle de la tâche, en marquant les phases critiques au moment même où elles se produisent. L'ensemble produit des jeux de données multimodaux structurés temporellement, exploitables par des algorithmes d'apprentissage "coarse-to-fine" (du grossier au fin).

L'apport principal est d'ordre méthodologique : les systèmes de téleopération conventionnels dissocient l'opérateur des forces de contact, ce qui empêche de démontrer les modulations fines de force nécessaires à des manipulations précises, serrage d'une pièce fragile, insertion avec ajustement, assemblage à faible jeu. En couplant la perception des forces en main avec une annotation temporelle in situ, le système permet de produire des politiques de manipulation de meilleure qualité sans augmenter le volume de données collectées. Pour les intégrateurs qui cherchent à déployer des robots sur des tâches de contact (assemblage, tri délicat, industrie pharmaceutique), c'est une piste sérieuse pour réduire le "demo gap" entre les démonstrations humaines et ce que le robot reproduit réellement.

Ce travail s'inscrit dans une dynamique intense autour de la collecte de données de haute qualité pour le robot learning. Les architectures de référence actuelles, ALOHA et ACT de Stanford, UMI de Columbia, ou encore les systèmes de Physical Intelligence derrière pi-0, ont montré que la qualité des démonstrations prime souvent sur leur quantité. Là où ALOHA mise sur la téleopération bimanuelle et UMI sur la portabilité via poignée universelle, ce système parie sur la boucle haptique fermée et l'annotation sémantique embarquée. Aucun déploiement industriel ni partenaire commercial n'est mentionné à ce stade : il s'agit d'une contribution de recherche, sans timeline de productisation annoncée.

À lire aussi

HapTile : un jeu de données vision-tactile-langage-action pour l'apprentissage par imitation en contact riche
1arXiv cs.RO 

HapTile : un jeu de données vision-tactile-langage-action pour l'apprentissage par imitation en contact riche

Une équipe de recherche a publié sur arXiv (2606.04825) HapTile, un jeu de données visuotactile destiné à l'apprentissage par imitation sur des tâches de manipulation à fort contact. Le dataset capture les interactions physiques à deux niveaux simultanément : des capteurs tactiles installés en bout d'effecteur sur les doigts du robot, et un retour haptique transmis en temps réel à l'opérateur humain lors de la télé-opération. Les tâches couvertes incluent le saisissement, le pliage de tissu, l'appui sur des boutons, l'empilement d'objets et d'autres activités courantes. Chaque séquence est associée à une instruction en langage naturel qui conditionne la politique de contrôle sur l'objectif de manipulation, avec des observations visuotactiles synchronisées et les trajectoires d'action correspondantes. Les chercheurs publient également un benchmarking avec deux modèles de base pour évaluer l'apport concret du signal tactile sur la qualité des politiques apprises. Ce travail s'attaque à un verrou bien identifié du domaine : la quasi-totalité des datasets VLA (Vision-Language-Action) existants sont purement visuels, ce qui limite les performances des politiques sur des tâches nécessitant un contrôle fin de la force ou du contact. Introduire le retour haptique côté opérateur lors de la collecte de données est particulièrement notable, les études antérieures ont montré que la qualité des démonstrations se dégrade sans ce retour, générant des trajectoires moins stables et moins reproductibles. HapTile tente de combler cette lacune en combinant dans un seul dataset la diversité des tâches, le conditionnement par le langage, les trajectoires d'action et la perception tactile, une combinaison jusqu'ici absente dans la littérature selon les auteurs. Reste à vérifier si l'amélioration mesurée sur les deux baselines se généralise à des architectures plus récentes comme Pi-0 ou OpenVLA. Ce preprint s'inscrit dans un courant de recherche actif autour de la perception multimoale pour la manipulation dextère, portée notamment par des labos comme le CMU Robotics Institute, MIT CSAIL et des groupes européens comme le LASA à l'EPFL. Du côté industriel, Apptronik, Figure et 1X investissent dans des mains instrumentées, mais les datasets publics à retour haptique restent rares. Le projet est reproductible sur un système robotique standard avec des capteurs tactiles de conception custom, ce qui peut faciliter l'adoption par d'autres équipes. Le dataset et les détails techniques sont accessibles sur haptile-dataset.github.io ; aucune timeline de publication formelle ni partenariat industriel n'est annoncé à ce stade.

UEDes groupes européens dont le LASA à l'EPFL sont cités comme acteurs du courant de recherche, mais aucune institution française ou de l'UE n'est impliquée directement dans la publication ; l'impact reste indirect via un dataset public librement réutilisable par les équipes européennes.

💬 Le truc vraiment malin ici, c'est pas le capteur tactile sur le robot, c'est le retour haptique côté opérateur pendant la collecte de démos. Ça change la qualité des trajectoires à la source, et c'est exactement ce que les autres datasets VLA n'ont jamais pris la peine de faire. Deux baselines pour le benchmark, bon, c'est un début, reste à voir si le gain tient face à Pi-0 ou OpenVLA.

IA physiqueOpinion
1 source
Apprentissage par imitation tactile multi-résolution pour la manipulation robotique en contact intensif
2arXiv cs.RO 

Apprentissage par imitation tactile multi-résolution pour la manipulation robotique en contact intensif

Des chercheurs ont publié en juin 2026 MiTaS (Multi-Resolution Tactile Sensing), un cadre de représentation sensorielle pour la manipulation robotique à contact riche (arXiv:2606.06281). L'architecture fusionne trois modalités : un flux caméra RGB, un capteur tactile visuel GelSight Mini (basse fréquence) et un capteur événementiel haute fréquence Evetac. Des réseaux convolutifs dédiés traitent chaque flux avant une fusion par transformeur, produisant une représentation multi-résolution temporelle qui conditionne une politique apprise par flow-matching. Sur cinq tâches de manipulation à contact, MiTaS atteint un taux de réussite moyen de 80 %, contre 31 % pour la vision seule et 54 % pour une fusion vision-tactile à capteur unique. L'entraînement conjoint multi-tactile permet en outre un gain de plus de 10 % sur certaines tâches, même lorsque le capteur Evetac est absent à l'inférence. Ces résultats isolent empiriquement la contribution de la résolution temporelle hétérogène entre capteurs tactiles : les 26 points d'écart entre vision seule et MiTaS quantifient l'apport du toucher, et les points supplémentaires gagnés sur une fusion mono-capteur montrent que la complémentarité temporelle est effectivement exploitée par le transformeur. Pour les intégrateurs robotiques travaillant sur l'assemblage de précision ou l'insertion de connecteurs, cela suggère qu'associer un capteur événementiel rapide à un capteur optique classique apporte un gain mesurable sans nécessairement disposer du capteur haute fréquence au déploiement. L'analyse d'attention incluse dans l'article identifie quels capteurs dominent à chaque phase de tâche, ce qui aide à dimensionner un setup expérimental. Ces chiffres restent toutefois issus d'un laboratoire : leur robustesse face à l'usure des capteurs ou à la variabilité des surfaces industrielles n'est pas encore documentée. La manipulation à contact riche constitue l'un des verrous persistants de la robotique, où des politiques généralisées comme Pi-0 (Physical Intelligence) progressent vite sur les tâches visuelles mais peinent sur les contacts fins. GelSight, développé au MIT, est depuis plusieurs années le capteur de référence en recherche tactile, tandis qu'Evetac représente une génération plus récente de capteurs événementiels appliqués au toucher. MiTaS se positionne à l'intersection de ces deux domaines, avec une page projet et du code disponibles sur mitas-touch.github.io. Les suites naturelles incluraient des évaluations en transfert sim-to-real et une extension à des politiques sans démonstration humaine directe.

IA physiquePaper
1 source
Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante
3arXiv cs.RO 

Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante

Des chercheurs ont publié le 12 juin 2026 un article sur arXiv (2606.12365) présentant l'Ambient Diffusion Policy, une méthode d'apprentissage par imitation conçue pour exploiter des données de démonstration sous-optimales en robotique. Le problème de fond est économique : collecter des données de haute qualité, spécifiques à une tâche, reste coûteux et chronophage, tandis que des datasets hétérogènes, bruités ou hors distribution sont abondants. La méthode introduit un nouvel axe de co-entraînement fondé sur le bruit : la contribution des données sous-optimales est restreinte aux seuls niveaux de bruit élevés et faibles dans le processus de diffusion, plutôt que sur l'ensemble des timesteps d'entraînement. Cette sélectivité permet d'extraire les caractéristiques utiles tout en neutralisant les signaux parasites. Testée sur six tâches couvrant quatre types de données dégradées (trajectoires bruitées, écart sim-to-réel, désalignement de tâche, mélanges de datasets à grande échelle), la méthode surpasse les baselines de co-entraînement existantes de jusqu'à 33% sur Open X-Embodiment, un dataset public de référence regroupant des données robotiques hétérogènes issues de multiples plates-formes. L'impact pour les intégrateurs et les équipes R&D est direct : l'un des goulots d'étranglement majeurs du déploiement de politiques de contrôle apprises n'est plus la quantité de données parfaites disponibles, mais la capacité à valoriser des données imparfaites déjà collectées. La justification théorique repose sur l'observation que les données d'action robotique suivent une loi de puissance spectrale, ce qui induit deux propriétés exploitables dans les Diffusion Policies : une hiérarchie global-to-local et une propriété de localité. Ces propriétés permettent de comprendre pourquoi les niveaux de bruit extrêmes encodent respectivement la structure globale du mouvement et les détails fins, et donc pourquoi la restriction de la contribution des données sous-optimales à ces deux régimes fonctionne. C'est un résultat notable : la méthode n'exige pas de filtrage préalable ni de pondération manuelle des sources, ce qui simplifie le pipeline d'ingestion de données. L'Ambient Diffusion Policy s'inscrit dans le sillage des Diffusion Policies (Chi et al., 2023, Columbia University), devenues une référence dans le contrôle robotique par imitation depuis leur démonstration sur des tâches de manipulation précise. Le co-entraînement sur données hétérogènes est un défi actif, notamment pour les grandes politiques généralistes comme RT-2, Octo ou OpenVLA, qui s'appuient sur Open X-Embodiment. L'approche "Ambient" s'inspire des travaux sur l'apprentissage par diffusion à partir de données corrompues (Gokaslan et al., 2023), ici réinterprétés pour le contexte robotique. Les concurrents directs incluent les méthodes de filtrage par récompense (IQL, AWR) et les approches de pondération implicite comme DWSL. La prochaine étape naturelle, non annoncée dans l'article, serait une intégration dans des pipelines de fine-tuning de politiques fondatrices (foundation policies) où la qualité des données de démonstration spécifiques au site de déploiement reste variable.

UELes équipes R&D robotique françaises et européennes travaillant sur des politiques d'imitation peuvent directement exploiter la méthode pour valoriser leurs datasets de démonstration hétérogènes existants, réduisant le coût de collecte de données haute qualité pour le déploiement industriel ou humanoïde.

IA physiquePaper
1 source
Apprentissage d'une politique visuelle par simulation pour l'insertion de cheville dans des trous inconnus en conditions réelles
4arXiv cs.RO 

Apprentissage d'une politique visuelle par simulation pour l'insertion de cheville dans des trous inconnus en conditions réelles

Des chercheurs proposent sur arXiv (2205.04297) un système d'insertion visuelle peg-in-hole capable de s'adapter à des formes de trous inconnues au déploiement, après entraînement exclusivement en simulation. L'architecture combine trois modules en cascade : un réseau de segmentation (SN), un réseau de capteur virtuel (VSN) qui estime la pose de la pièce cible, et un réseau de contrôle (CN) qui pilote l'insertion. Le VSN et le CN sont entraînés une seule fois en simulation sur un ensemble de formes génériques ; seul le SN est affiné lors du passage au monde réel, via quelques centaines d'échantillons collectés en moins d'une minute de démonstration humaine. Appliqué à la recharge automatique de véhicule électrique, le système atteint un taux de réussite de 10/10 en 2 à 3 secondes, validé en configurations eye-to-hand et eye-in-hand. Le principal apport est de réduire drastiquement le coût du transfert sim-to-real pour des tâches de manipulation de précision. Les approches classiques exigent soit une large collecte de données réelles, soit une modélisation CAO de chaque référence cible, deux contraintes rédhibitoires sur les lignes d'assemblage à forte variabilité de références. En découplant la perception de la politique générique, les auteurs montrent qu'il suffit d'adapter un seul module léger par nouvelle forme, ce qui ouvre la voie à des systèmes vision-pour-assemblage déployables sans ingénierie lourde par référence. Le résultat sur la recharge EV reste à nuancer : 10 essais constituent un échantillon statistiquement limité, et les conditions de test (tolérance mécanique, variabilité d'éclairage) ne sont pas précisées. La tâche peg-in-hole est un benchmark classique de la robotique d'assemblage, longtemps dominé par le contrôle en force et la modélisation géométrique. Ce travail s'inscrit dans la vague des politiques visuelles généralisables entraînées en sim, portée notamment par les approches VLA de Physical Intelligence (Pi-0) et les travaux de meta-learning de Chelsea Finn. L'application à la recharge de véhicule électrique est stratégiquement opportune : plusieurs constructeurs européens cherchent à automatiser cette opération sans infrastructure dédiée côté borne. Les suites naturelles attendues sont une validation sur un spectre plus large de tolérances dimensionnelles, des conditions d'éclairage industriel variées, et une comparaison formelle avec les méthodes hybrides force-vision existantes.

UELa méthode de transfert sim-to-real modulaire pourrait intéresser les constructeurs automobiles européens qui cherchent à automatiser la recharge de véhicules électriques sans infrastructure dédiée côté borne.

IA physiquePaper
1 source