Aller au contenu principal
Préhension dextérique sans vision par apprentissage tactile Real2Sim2Real
RecherchearXiv cs.RO2j

Préhension dextérique sans vision par apprentissage tactile Real2Sim2Real

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en juin 2026 sur arXiv (réf. 2606.11767) un framework Real2Sim2Real pour la saisie aveugle par main dextre, sans aucune entrée visuelle, en s'appuyant exclusivement sur des capteurs tactiles distribués. Déployé sur une LEAP Hand quatre-doigts équipée de capteurs tactiles sur chaque phalange, le système atteint 27 % de taux de succès en conditions réelles sur 20 objets (10 vus à l'entraînement, 10 inédits), sans démonstration humaine ni caméra. L'architecture combine trois composants : un pipeline de calibration Real2Sim construisant un simulateur jumeau numérique fidèle aux signaux tactiles physiques ; un encodeur tactile layout-aware intégrant la géométrie des capteurs via préentraînement auto-supervisé, pour compenser la faible expressivité des signaux épars ; et une Diffusion Policy agrégant les trajectoires réussies d'experts en apprentissage par renforcement, spécialisés par objet dans le simulateur calibré.

Le 27 % de taux de succès reste modeste opérationnellement, mais l'enjeu réel est la fermeture du tactile sim-to-real gap, l'un des obstacles les plus tenaces à la généralisation des mains dextres hors laboratoire. La plupart des systèmes antérieurs substituent la vision au toucher ou se limitent à des capteurs de force simples. Ici, la calibration contact-level du simulateur permet d'entraîner des politiques qui transfèrent sur le hardware sans fine-tuning en monde réel, résultat que les ablations confirment sur la cohérence des événements de contact sim-à-hardware. Pour un intégrateur ou un responsable industriel, c'est une preuve de concept que la manipulation en environnement occlus ou non éclairé devient accessible via simulation, sans collecter de données réelles coûteuses.

Ce travail s'inscrit dans un écosystème en rapide structuration autour de la manipulation tactile dextre. La LEAP Hand, développée à Carnegie Mellon et commercialisée à bas coût pour la recherche, est devenu un banc de test de référence dans ce domaine. La Diffusion Policy, popularisée par Columbia University dès 2023, continue de s'imposer comme backbone standard pour l'imitation learning dextre. L'écosystème de capteurs reste fragmenté entre XELA Robotics, GelSight et diverses peaux tactiles propriétaires. Aucun partenaire industriel ni déploiement en production n'est annoncé, positionnant clairement ce preprint comme contribution académique ; les prochaines étapes probables passent par une taxonomie d'objets plus large et une densité de capteurs accrue pour dépasser ce premier seuil de 27 %.

Dans nos dossiers

À lire aussi

ViTacFormer : apprentissage de représentations cross-modales pour la manipulation dextérique vision-tactile
1arXiv cs.RO 

ViTacFormer : apprentissage de représentations cross-modales pour la manipulation dextérique vision-tactile

Une équipe de chercheurs a publié en juin 2025 ViTacFormer, une architecture d'apprentissage de représentations multi-modales pour la manipulation dextre robotique. Le système couple un encodeur cross-attention fusionnant vision haute résolution et données tactiles avec une tête de prédiction autoregressive des signaux de contact futurs, entraîné selon un curriculum progressif allant des tâches simples aux plus complexes. La représentation apprise pilote un module d'imitation learning pour des mains anthropomorphes multi-doigts. Sur des benchmarks réels en laboratoire, ViTacFormer dépasse les systèmes état de l'art précédents d'environ 50 %, enchaîne jusqu'à 11 étapes séquentielles sans intervention humaine et maintient une opération continue de 2,5 minutes sur des tâches de manipulation de précision. L'architecture répond à un verrou concret de la manipulation fine : les occlusions visuelles rendent la vision seule insuffisante lorsque la main cache l'objet, un problème que les capteurs tactiles résolvent mais que peu de systèmes intègrent de façon apprenante. La prédiction anticipée des contacts plutôt que leur simple détection réactive réduit la latence de contrôle, décisive pour les gestes de précision. La capacité à enchaîner 11 sous-tâches ouvre une voie pour l'assemblage multi-étapes industriel, où les robots classiques nécessitent actuellement une programmation explicite à chaque étape. Ces résultats restent cependant des benchmarks de laboratoire contrôlés ; la distance avec un déploiement en ligne de production réelle, où la variabilité des pièces et la robustesse du capteur tactile dans le temps sont critiques, demeure entière. ViTacFormer s'inscrit dans une vague de travaux combinant modèles VLA (Vision-Language-Action) et retour haptique, explorée également par Google DeepMind (Robotic Transformer), Physical Intelligence (Pi-0) et des startups comme Dexterous AI. Côté matériel, la dépendance aux mains anthropomorphes multi-doigts reste un frein à la commercialisation : Shadow Robot (UK) et Inspire-Robots (CN) dominent ce segment, mais à des coûts et avec une fiabilité mécanique qui limitent encore les déploiements industriels à grande échelle. Le travail est publié sous forme de preprint arXiv (arXiv:2506.15953), sans code ni dataset public annoncé à ce stade ; la transition vers des résultats reproductibles et des pilotes hors laboratoire constitue l'étape critique à surveiller.

RechercheOpinion
1 source
Apprentissage sim-vers-réel zéro-shot pour robots : étude de préhension réactive par main dextérique
2arXiv cs.RO 

Apprentissage sim-vers-réel zéro-shot pour robots : étude de préhension réactive par main dextérique

Une équipe de chercheurs a déposé en mai 2026 (arXiv:2605.09789) une méthode permettant le transfert zéro-shot de politiques de manipulation dextère depuis la simulation vers le robot physique, sans aucun fine-tuning sur données réelles. L'approche, baptisée Domain-Randomized Instance Set (DRIS), modifie la randomisation de domaine (DR) classique en propageant simultanément un ensemble d'instances physiques randomisées plutôt qu'une instance unique par épisode d'entraînement. Validée sur une tâche de rattrapage réactif d'objets en chute, la méthode obtient un transfert fiable avec seulement une dizaine d'instances simultanées. L'effecteur utilisé est délibérément contraignant : une plaque plate sans bords ni surface courbe, qui n'assure aucune stabilisation passive de l'objet capturé, à l'inverse des pinces ou surfaces enveloppantes couramment utilisées dans les benchmarks de rattrapage. Le sim-to-real gap reste l'un des principaux freins à l'industrialisation des robots manipulateurs apprenants. La DR classique, omniprésente dans les pipelines d'entraînement sur simulateurs comme IsaacGym ou MuJoCo, n'expose la politique qu'à une seule configuration physique par épisode, sous-échantillonnant ainsi la variabilité dynamique réelle. DRIS comble ce déficit en forçant la politique à optimiser simultanément sur plusieurs scénarios physiques plausibles, produisant selon l'analyse théorique des auteurs des politiques intrinsèquement plus robustes. Pour les intégrateurs, le bénéfice est direct : l'élimination du fine-tuning sur robot physique supprime un goulot d'étranglement coûteux, souvent plusieurs semaines de collecte de données en cellule réelle, qui freine aujourd'hui le déploiement de solutions de manipulation apprise en production. La manipulation dextère zéro-shot est un objectif de longue date dans la communauté robotique. DRIS s'inscrit dans la continuité de la randomisation adaptative, dont l'ADR d'OpenAI, popularisée avec le projet Dactyl en 2019, reste la référence historique. Elle se positionne comme orthogonale aux approches Visual-Language-Action (VLA) récentes comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui réduisent le gap via la généralisation sémantique plutôt que physique, et pourrait s'intégrer dans ces pipelines. Les auteurs ne précisent pas de timeline pour des validations sur des tâches plus complexes comme l'assemblage ou la manipulation in-hand, deux domaines où le zéro-shot sim-to-real demeure un problème ouvert.

RechercheOpinion
1 source
VE2VF : distillation vision vers sans vision par apprentissage par renforcement pour la manipulation robuste avec contacts
3arXiv cs.RO 

VE2VF : distillation vision vers sans vision par apprentissage par renforcement pour la manipulation robuste avec contacts

Des chercheurs ont présenté VE2VF (Vision-Enabled to Vision-Free), un cadre d'apprentissage par renforcement (RL) pour la manipulation robotique en contact riche, publié en préprint sur arXiv (2605.29564). La méthode repose sur une distillation enseignant-élève conduite intégralement sur robot réel, sans simulation ni randomisation de domaine. Un module "enseignant" équipé de vision apprend d'abord la tâche, puis transfère sa politique à un "élève" n'utilisant que la pose, le twist et le wrench (position/orientation, vitesse et couple de force), sans aucun flux caméra. Sur le benchmark NIST d'assemblage, référence standardisée pour les tâches d'insertion de précision, le système atteint 95 % de taux de succès global après environ 50 minutes d'entraînement sur 3 tâches représentatives, et généralise à 8 variantes non vues lors de l'entraînement. Un fine-tuning par distillation permet d'atteindre 100 % de succès sur la variante la plus difficile. Ce résultat adresse un problème structurel en robotique industrielle: les politiques basées sur la vision surapprennent les conditions d'éclairage et de fond vues à l'entraînement, ce qui fragilise leur déploiement en environnement de production variable. En éliminant la vision à l'inférence tout en l'exploitant pendant l'apprentissage, VE2VF produit des politiques robustes aux perturbations visuelles sans coût supplémentaire en données. Plus significatif encore: atteindre cette généralisation en moins d'une heure d'entraînement réel suggère qu'on peut contourner le sim-to-real gap sans simulateur haute-fidélité ni dataset synthétique massif. Pour les intégrateurs déployant des cellules d'assemblage de précision, la combinaison rapidité d'adaptation et robustesse proprioceptive est directement actionnable. Le benchmark NIST Assembly Task Board est utilisé depuis plusieurs années comme terrain de comparaison inter-équipes en manipulation de précision, ce qui confère à ces résultats une lisibilité relative face aux travaux antérieurs. Les approches concurrentes combinent généralement simulation, randomisation de domaine et larges volumes de données synthétiques avant transfert sur robot réel. VE2VF se positionne comme une alternative ancrée dans le réel, avec une boucle human-in-the-loop permettant de superviser l'apprentissage en cours de session. Il s'agit à ce stade d'un préprint de recherche, non d'un système en production ni d'un produit commercialisé. Les suites naturelles incluent des tests sur d'autres plateformes matérielles et des tâches industrielles plus complexes, ainsi qu'une confrontation directe avec les approches de type VLA (Vision-Language-Action) qui ciblent elles aussi la généralisation en manipulation contact-riche à grande échelle.

RecherchePaper
1 source
AetheRock : un système d'enseignement robotique porté au bras pour l'apprentissage vision-tactile guidé par la force
4arXiv cs.RO 

AetheRock : un système d'enseignement robotique porté au bras pour l'apprentissage vision-tactile guidé par la force

Une équipe de chercheurs a publié en juin 2026 sur arXiv (référence 2606.09777) les spécifications d'AetheRock, un dispositif portable fixé à l'avant-bras humain destiné à la collecte synchronisée de données de force, de vision et de toucher pour l'apprentissage robotique. Le système intègre au bout des doigts un capteur visuo-tactile modulaire baptisé GelSlim-MiniFab, conçu pour être fabriqué facilement, ainsi qu'un capteur de pression résistif positionné à la zone de contact du doigt humain, un module PCB sur mesure et un kit ergonomique pour des sessions de collecte prolongées. En parallèle, les auteurs introduisent ForceVT, un framework d'apprentissage par représentation qui exploite les signaux de force et de vision pour guider l'apprentissage tactile de manière agnostique à la fidélité du capteur, c'est-à-dire sans hypothèse rigide sur la qualité ou la cohérence des données tactiles entrantes. Le verrou technique adressé est réel : les capteurs tactiles à base de gel (famille GelSight, GelSlim) souffrent d'inconsistances de fabrication et d'usure qui dégradent les politiques apprises lors du déploiement. ForceVT tente de découpler la représentation apprise des artefacts propres à chaque exemplaire de capteur, ce qui, si confirmé à plus grande échelle, réduirait le coût de calibration et améliorerait le transfert sim-to-real pour les tâches de manipulation en contact riche (assemblage, vissage, insertion de connecteurs). Les expériences en conditions réelles mentionnées dans le preprint indiquent une "efficacité des données qualifiée" et une atténuation des inefficacités liées aux inconsistances, sans cependant fournir de métriques quantitatives précises comparables entre méthodes. AetheRock s'inscrit dans une vague de systèmes de télé-opération et de collecte de démonstrations portables apparus depuis 2023, dont UMI (Universal Manipulation Interface, Stanford) et ALOHA (Berkeley), qui cherchent tous à rendre la collecte de données de manipulation haute qualité moins coûteuse et plus accessible. Le capteur GelSlim-MiniFab est une déclinaison miniaturisée de la famille GelSlim issue des travaux du MIT et de CMU. Du côté des acteurs industriels, Meta Research développe le capteur DIGIT sur une philosophie similaire de faible coût et de reproductibilité. Ce travail est un preprint non encore évalué par les pairs ; les performances annoncées restent à reproduire indépendamment avant toute intégration en production.

RecherchePaper
1 source