
Apprentissage sim-vers-réel zéro-shot pour robots : étude de préhension réactive par main dextérique
Une équipe de chercheurs a déposé en mai 2026 (arXiv:2605.09789) une méthode permettant le transfert zéro-shot de politiques de manipulation dextère depuis la simulation vers le robot physique, sans aucun fine-tuning sur données réelles. L'approche, baptisée Domain-Randomized Instance Set (DRIS), modifie la randomisation de domaine (DR) classique en propageant simultanément un ensemble d'instances physiques randomisées plutôt qu'une instance unique par épisode d'entraînement. Validée sur une tâche de rattrapage réactif d'objets en chute, la méthode obtient un transfert fiable avec seulement une dizaine d'instances simultanées. L'effecteur utilisé est délibérément contraignant : une plaque plate sans bords ni surface courbe, qui n'assure aucune stabilisation passive de l'objet capturé, à l'inverse des pinces ou surfaces enveloppantes couramment utilisées dans les benchmarks de rattrapage.
Le sim-to-real gap reste l'un des principaux freins à l'industrialisation des robots manipulateurs apprenants. La DR classique, omniprésente dans les pipelines d'entraînement sur simulateurs comme IsaacGym ou MuJoCo, n'expose la politique qu'à une seule configuration physique par épisode, sous-échantillonnant ainsi la variabilité dynamique réelle. DRIS comble ce déficit en forçant la politique à optimiser simultanément sur plusieurs scénarios physiques plausibles, produisant selon l'analyse théorique des auteurs des politiques intrinsèquement plus robustes. Pour les intégrateurs, le bénéfice est direct : l'élimination du fine-tuning sur robot physique supprime un goulot d'étranglement coûteux, souvent plusieurs semaines de collecte de données en cellule réelle, qui freine aujourd'hui le déploiement de solutions de manipulation apprise en production.
La manipulation dextère zéro-shot est un objectif de longue date dans la communauté robotique. DRIS s'inscrit dans la continuité de la randomisation adaptative, dont l'ADR d'OpenAI, popularisée avec le projet Dactyl en 2019, reste la référence historique. Elle se positionne comme orthogonale aux approches Visual-Language-Action (VLA) récentes comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui réduisent le gap via la généralisation sémantique plutôt que physique, et pourrait s'intégrer dans ces pipelines. Les auteurs ne précisent pas de timeline pour des validations sur des tâches plus complexes comme l'assemblage ou la manipulation in-hand, deux domaines où le zéro-shot sim-to-real demeure un problème ouvert.
Dans nos dossiers




