
DexSim2Real : transfert simulation-réel guidé par un modèle fondation pour la manipulation dextérique généralisable
DexSim2Real est un framework de recherche publié en preprint arXiv (arXiv:2605.05241, mai 2026) visant à réduire le "sim-to-real gap" pour la manipulation dextre -- l'écart de performance entre politiques entraînées en simulation et leur déploiement sur robots réels. L'architecture combine trois modules : FM-DR, qui utilise un modèle de vision-langage comme critique de réalisme visuel pour optimiser automatiquement les paramètres de simulation via l'algorithme CMA-ES ; TVCAP, une politique de contrôle fusionnant données tactiles et visuelles par mécanisme cross-attention pour un transfert zero-shot ; et PSC, un curriculum progressif basé sur la décomposition de tâches par LLM, conçu pour les tâches à fort contact. Évalué en aveugle sur six tâches de manipulation difficiles, le système affiche un taux de succès moyen en conditions réelles de 78,2%, avec un écart sim-to-real résiduel de 8,3% -- contre des performances inférieures revendiquées pour DrEureka et DeXtreme.
Le sim-to-real gap est historiquement l'un des freins majeurs à la commercialisation de robots manipulateurs dextres. L'approche différenciante de DexSim2Real consiste à fermer la boucle d'optimisation des paramètres de simulation via un retour visuel direct d'un modèle fondation, là où les méthodes existantes comme DrEureka reposent sur des descriptions textuelles ou une randomisation conçue manuellement. Utiliser un VLM comme juge de réalisme pour guider la randomisation est une piste prometteuse -- mais les résultats restent des benchmarks de laboratoire non encore soumis à revue par les pairs ni validés en déploiement industriel. Les métriques annoncées (78,2% de succès, 8,3% de gap résiduel) devront être reproduites par des équipes indépendantes pour confirmer leur portée réelle.
La manipulation dextre sim-to-real est un champ très concurrentiel depuis la démonstration Dactyl d'OpenAI en 2019, avec des acteurs majeurs comme NVIDIA (DrEureka, Isaac Lab) et Meta AI (DeXtreme) en première ligne. DexSim2Real se positionne en unifiant trois leviers -- randomisation guidée par fondation, fusion tactile-visuelle, curriculum adaptatif -- que les travaux antérieurs traitaient séparément. Aucun acteur européen n'est impliqué dans ce travail. Le code n'est pas encore public au moment du preprint ; les prochaines étapes naturelles seraient une soumission à CoRL, IROS ou RSS et, si les résultats se confirment, une ouverture du code pour permettre la reproductibilité.
Dans nos dossiers




