
Système de collecte de données visuo-tactiles avec retour haptique pour l'apprentissage par imitation du grossier au précis
Des chercheurs ont publié sur arXiv (référence 2605.08757) un système de collecte de données visuo-tactile conçu pour générer des démonstrations de manipulation riches en contacts, destinées à l'apprentissage par imitation. Le dispositif repose sur une pince à entraînement direct que l'opérateur actionne directement avec ses doigts, préservant ainsi le retour haptique naturel pendant l'exécution des tâches. Des capteurs visuels embarqués et des réseaux de capteurs tactiles personnalisés capturent simultanément des flux d'images et la géométrie des contacts. Un bouton-poussoir monté sur la poignée permet à l'opérateur d'annoter en temps réel la structure temporelle de la tâche, en marquant les phases critiques au moment même où elles se produisent. L'ensemble produit des jeux de données multimodaux structurés temporellement, exploitables par des algorithmes d'apprentissage "coarse-to-fine" (du grossier au fin).
L'apport principal est d'ordre méthodologique : les systèmes de téleopération conventionnels dissocient l'opérateur des forces de contact, ce qui empêche de démontrer les modulations fines de force nécessaires à des manipulations précises, serrage d'une pièce fragile, insertion avec ajustement, assemblage à faible jeu. En couplant la perception des forces en main avec une annotation temporelle in situ, le système permet de produire des politiques de manipulation de meilleure qualité sans augmenter le volume de données collectées. Pour les intégrateurs qui cherchent à déployer des robots sur des tâches de contact (assemblage, tri délicat, industrie pharmaceutique), c'est une piste sérieuse pour réduire le "demo gap" entre les démonstrations humaines et ce que le robot reproduit réellement.
Ce travail s'inscrit dans une dynamique intense autour de la collecte de données de haute qualité pour le robot learning. Les architectures de référence actuelles, ALOHA et ACT de Stanford, UMI de Columbia, ou encore les systèmes de Physical Intelligence derrière pi-0, ont montré que la qualité des démonstrations prime souvent sur leur quantité. Là où ALOHA mise sur la téleopération bimanuelle et UMI sur la portabilité via poignée universelle, ce système parie sur la boucle haptique fermée et l'annotation sémantique embarquée. Aucun déploiement industriel ni partenaire commercial n'est mentionné à ce stade : il s'agit d'une contribution de recherche, sans timeline de productisation annoncée.
Dans nos dossiers




