Aller au contenu principal
Apprentissage par imitation tactile multi-résolution pour la manipulation robotique en contact intensif
IA physiquearXiv cs.RO2h

Apprentissage par imitation tactile multi-résolution pour la manipulation robotique en contact intensif

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en juin 2026 MiTaS (Multi-Resolution Tactile Sensing), un cadre de représentation sensorielle pour la manipulation robotique à contact riche (arXiv:2606.06281). L'architecture fusionne trois modalités : un flux caméra RGB, un capteur tactile visuel GelSight Mini (basse fréquence) et un capteur événementiel haute fréquence Evetac. Des réseaux convolutifs dédiés traitent chaque flux avant une fusion par transformeur, produisant une représentation multi-résolution temporelle qui conditionne une politique apprise par flow-matching. Sur cinq tâches de manipulation à contact, MiTaS atteint un taux de réussite moyen de 80 %, contre 31 % pour la vision seule et 54 % pour une fusion vision-tactile à capteur unique. L'entraînement conjoint multi-tactile permet en outre un gain de plus de 10 % sur certaines tâches, même lorsque le capteur Evetac est absent à l'inférence.

Ces résultats isolent empiriquement la contribution de la résolution temporelle hétérogène entre capteurs tactiles : les 26 points d'écart entre vision seule et MiTaS quantifient l'apport du toucher, et les points supplémentaires gagnés sur une fusion mono-capteur montrent que la complémentarité temporelle est effectivement exploitée par le transformeur. Pour les intégrateurs robotiques travaillant sur l'assemblage de précision ou l'insertion de connecteurs, cela suggère qu'associer un capteur événementiel rapide à un capteur optique classique apporte un gain mesurable sans nécessairement disposer du capteur haute fréquence au déploiement. L'analyse d'attention incluse dans l'article identifie quels capteurs dominent à chaque phase de tâche, ce qui aide à dimensionner un setup expérimental. Ces chiffres restent toutefois issus d'un laboratoire : leur robustesse face à l'usure des capteurs ou à la variabilité des surfaces industrielles n'est pas encore documentée.

La manipulation à contact riche constitue l'un des verrous persistants de la robotique, où des politiques généralisées comme Pi-0 (Physical Intelligence) progressent vite sur les tâches visuelles mais peinent sur les contacts fins. GelSight, développé au MIT, est depuis plusieurs années le capteur de référence en recherche tactile, tandis qu'Evetac représente une génération plus récente de capteurs événementiels appliqués au toucher. MiTaS se positionne à l'intersection de ces deux domaines, avec une page projet et du code disponibles sur mitas-touch.github.io. Les suites naturelles incluraient des évaluations en transfert sim-to-real et une extension à des politiques sans démonstration humaine directe.

À lire aussi

Politique de force : apprentissage d'un contrôle hybride force-position en cadre d'interaction pour la manipulation en contact
1arXiv cs.RO 

Politique de force : apprentissage d'un contrôle hybride force-position en cadre d'interaction pour la manipulation en contact

Des chercheurs ont publié sur arXiv (2602.22088v2) "Force Policy", une architecture de contrôle pour la manipulation robotique en contact prolongé. L'approche repose sur une séparation architecturale nette entre deux régimes d'action : un module global guidé par la vision qui pilote les mouvements en espace libre, et un module local haute fréquence qui prend le relais dès qu'un contact est établi, en exploitant le retour d'effort pour exécuter un contrôle hybride force-position. Le coeur du système est ce que les auteurs appellent un "interaction frame" : un repère local instantané, récupéré automatiquement à partir de démonstrations humaines, qui découple la régulation de force de l'exécution du mouvement. Les expériences en conditions réelles couvrent plusieurs tâches à contact riche (assemblage, insertion, vissage) et démontrent des gains mesurables en stabilité de contact, précision de régulation de force et généralisation à des objets aux géométries et propriétés physiques variées. L'enjeu industriel est direct : la manipulation en contact riche reste le principal goulot d'étranglement des robots de production et d'assemblage. Les politiques d'apprentissage actuelles, qu'il s'agisse de Diffusion Policy, d'ACT ou des approches VLA, sont conçues pour l'espace libre et degradent significativement dès qu'un outil touche une pièce. En injectant le retour d'effort dans une boucle locale haute fréquence distincte de la boucle visuelle, Force Policy adresse structurellement ce découplage plutôt que de le noyer dans un réseau monolithique. La capacité à estimer le repère d'interaction à partir de démonstrations, sans hypothèse sur la structure de la tâche, réduit l'ingénierie manuelle nécessaire au déploiement. Ce travail s'inscrit dans une ligne de recherche active sur le contrôle hybride appris, aux côtés d'approches comme Pi-0 (Physical Intelligence) ou les travaux sur le compliance learning chez CMU et Stanford. Il reste à ce stade une démonstration académique, sans déploiement industriel annoncé ni partenariat constructeur mentionné. L'étape suivante naturelle serait une validation sur des cellules d'assemblage réelles, avec des volumes de cycle et des tolérances conformes aux standards industriels. Le code et les démonstrations vidéo sont disponibles sur force-policy.github.io.

IA physiquePaper
1 source
HapTile : un jeu de données vision-tactile-langage-action pour l'apprentissage par imitation en contact riche
2arXiv cs.RO 

HapTile : un jeu de données vision-tactile-langage-action pour l'apprentissage par imitation en contact riche

Une équipe de recherche a publié sur arXiv (2606.04825) HapTile, un jeu de données visuotactile destiné à l'apprentissage par imitation sur des tâches de manipulation à fort contact. Le dataset capture les interactions physiques à deux niveaux simultanément : des capteurs tactiles installés en bout d'effecteur sur les doigts du robot, et un retour haptique transmis en temps réel à l'opérateur humain lors de la télé-opération. Les tâches couvertes incluent le saisissement, le pliage de tissu, l'appui sur des boutons, l'empilement d'objets et d'autres activités courantes. Chaque séquence est associée à une instruction en langage naturel qui conditionne la politique de contrôle sur l'objectif de manipulation, avec des observations visuotactiles synchronisées et les trajectoires d'action correspondantes. Les chercheurs publient également un benchmarking avec deux modèles de base pour évaluer l'apport concret du signal tactile sur la qualité des politiques apprises. Ce travail s'attaque à un verrou bien identifié du domaine : la quasi-totalité des datasets VLA (Vision-Language-Action) existants sont purement visuels, ce qui limite les performances des politiques sur des tâches nécessitant un contrôle fin de la force ou du contact. Introduire le retour haptique côté opérateur lors de la collecte de données est particulièrement notable, les études antérieures ont montré que la qualité des démonstrations se dégrade sans ce retour, générant des trajectoires moins stables et moins reproductibles. HapTile tente de combler cette lacune en combinant dans un seul dataset la diversité des tâches, le conditionnement par le langage, les trajectoires d'action et la perception tactile, une combinaison jusqu'ici absente dans la littérature selon les auteurs. Reste à vérifier si l'amélioration mesurée sur les deux baselines se généralise à des architectures plus récentes comme Pi-0 ou OpenVLA. Ce preprint s'inscrit dans un courant de recherche actif autour de la perception multimoale pour la manipulation dextère, portée notamment par des labos comme le CMU Robotics Institute, MIT CSAIL et des groupes européens comme le LASA à l'EPFL. Du côté industriel, Apptronik, Figure et 1X investissent dans des mains instrumentées, mais les datasets publics à retour haptique restent rares. Le projet est reproductible sur un système robotique standard avec des capteurs tactiles de conception custom, ce qui peut faciliter l'adoption par d'autres équipes. Le dataset et les détails techniques sont accessibles sur haptile-dataset.github.io ; aucune timeline de publication formelle ni partenariat industriel n'est annoncé à ce stade.

UEDes groupes européens dont le LASA à l'EPFL sont cités comme acteurs du courant de recherche, mais aucune institution française ou de l'UE n'est impliquée directement dans la publication ; l'impact reste indirect via un dataset public librement réutilisable par les équipes européennes.

💬 Le truc vraiment malin ici, c'est pas le capteur tactile sur le robot, c'est le retour haptique côté opérateur pendant la collecte de démos. Ça change la qualité des trajectoires à la source, et c'est exactement ce que les autres datasets VLA n'ont jamais pris la peine de faire. Deux baselines pour le benchmark, bon, c'est un début, reste à voir si le gain tient face à Pi-0 ou OpenVLA.

IA physiqueOpinion
1 source
ProgVLA : apprentissage de compétences de manipulation robotique guidé par la progression
3arXiv cs.RO 

ProgVLA : apprentissage de compétences de manipulation robotique guidé par la progression

Des chercheurs ont publié le 28 mai 2026 sur arXiv (réf. 2605.28231) ProgVLA, un modèle vision-langage-action (VLA) compact de 0,1 milliard de paramètres conçu pour la manipulation robotique sous contraintes strictes de calcul et de mémoire. L'architecture repose sur deux mécanismes principaux : un encodeur multimodal à double étage de rééchantillonnage Perceiver, qui compresse des flux variables d'entrées visuelles, linguistiques et proprioceptives en un ensemble fixe de tokens de contexte prêts au contrôle, et un ensemble de "têtes de progression" auxiliaires entraînées par apprentissage par renforcement hors-ligne sur des cibles normalisées d'horizon restant. Ces têtes fournissent à la politique une estimation interne de l'avancement de la tâche, ce qui permet un apprentissage par imitation via flow-matching pondéré par l'avantage et le succès. Sur deux benchmarks standards de manipulation multi-tâche, ProgVLA atteint des taux de réussite compétitifs avec des modèles pré-entraînés nettement plus grands, et les dépasse sur les niveaux de difficulté élevés et les tâches à horizon long. Le modèle a également été validé dans des environnements réels de type "toy kitchen", une validation limitée mais concrète. L'intérêt principal pour les intégrateurs et les équipes de recherche appliquée réside dans le profil de compromis : 0,1 milliard de paramètres seulement, contre les 7B à 70B typiques des VLA récents comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Ce ratio ouvre la voie à un déploiement sur des plateformes embarquées à budget GPU limité, un obstacle central à la commercialisation des robots manipulateurs au-delà des démonstrateurs de laboratoire. Les ablations publiées sont précises : le rééchantillonneur de contexte appris et le fine-tuning visuel adaptatif à la tâche constituent les deux plus grandes sources de gain, tandis que l'entraînement conscient de la progression apporte un bénéfice supplémentaire ciblé sur les tâches multi-objets et à horizon long. Ce résultat contredit partiellement l'hypothèse selon laquelle seule la taille du modèle détermine la performance sur les tâches complexes. ProgVLA s'inscrit dans une vague de travaux visant à comprimer les VLA sans sacrifier leur capacité de généralisation, une direction prise également par des équipes comme celles qui travaillent sur la distillation de politiques pour des plateformes à faible puissance. Face aux modèles de référence que sont RT-2 (Google DeepMind), OpenVLA (UC Berkeley) et Pi-0, ProgVLA occupe le segment "edge-deployable" encore peu disputé par des solutions validées hors laboratoire. Deux limites sont à noter : le code et les données de benchmark n'étaient pas encore publiés au moment de l'annonce, et la validation réelle se restreint à un environnement toy-kitchen, ce qui rend prématurée toute extrapolation vers des contextes industriels ou des robots commerciaux de type Franka ou UR.

UELes équipes de R&D robotique européennes travaillant sur des plateformes embarquées pourraient surveiller ProgVLA comme alternative légère aux VLA dominants, mais aucun acteur ou programme européen n'est directement impliqué.

IA physiqueOpinion
1 source
Apprendre à agir par le contact : une vision unifiée de l'apprentissage multi-tâches pour les robots
4arXiv cs.RO 

Apprendre à agir par le contact : une vision unifiée de l'apprentissage multi-tâches pour les robots

Des chercheurs ont publié sur arXiv (2510.03599v2) un cadre unifié d'apprentissage de politiques pour la locomotion et la manipulation robotique multi-tâches, fondé sur une représentation dite "contact-explicite". Le principe central consiste à définir chaque tâche non pas par des trajectoires articulaires spécifiques, mais par une séquence d'objectifs de contact: positions de contact souhaitées, timings, et effecteurs actifs. Une politique unique, entraînée par apprentissage par renforcement (RL) conditionné aux objectifs, prend ces plans de contact en entrée et les exécute. Le framework a été validé sur plusieurs morphologies robotiques: un quadrupède exécutant différentes allures (trot, galop, etc.), un humanoïde réalisant des locomotions bipèdes et quadrupèdes, et ce même humanoïde effectuant des tâches de manipulation bimanuelles d'objets. Dans les trois cas, une seule politique gère l'ensemble des comportements. L'intérêt industriel est direct: l'approche contact-explicite améliore significativement la généralisation à des scénarios non vus pendant l'entraînement, ce qui s'attaque frontalement au "sim-to-real gap" qui pénalise la plupart des politiques entraînées en simulation. Pour un intégrateur ou un OEM robotique, cela signifie moins de politiques spécialisées à maintenir, moins de re-training à chaque variante de tâche, et une architecture potentiellement plus robuste aux variations de terrain ou d'objet. Le fait qu'une seule politique puisse couvrir à la fois locomotion et manipulation (loco-manipulation) dans un cadre commun réduit également la complexité d'orchestration en production. Les résultats présentés semblent solides en simulation, mais les auteurs n'annoncent pas de déploiement physique à l'échelle, ce qui invite à distinguer démonstration de recherche et produit shipé. Les approches classiques traitent locomotion et manipulation comme deux sous-problèmes séparés, avec des planificateurs et des politiques dédiées. L'espace des politiques générales est aujourd'hui dominé par des VLA (Vision-Language-Action models) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui s'appuient sur de larges datasets visuels et du transfert de fondation. La contribution ici prend le parti inverse: une représentation géométrique structurée des contacts, plus frugale en données mais plus contrainte en hypothèses. Dans le domaine de la locomotion quadrupède unifiée, les groupes de l'ETH Zurich (ANYmal), de CMU et de Berkeley restent les références. La suite logique de ces travaux serait d'interfacer la planification de contacts avec un module de compréhension du langage naturel, pour permettre des instructions de haut niveau, une direction déjà explorée par plusieurs laboratoires académiques et startups de la robotique incarnée.

IA physiquePaper
1 source