
Quand le transfert simulation-réel nuit à l'apprentissage des politiques de contrôle, et comment y remédier
Une équipe de chercheurs publie sur arXiv (référence 2606.02636) un article qui remet en question une hypothèse centrale de la robotique moderne : l'idée que maximiser les efforts de transfert simulation-vers-réel (sim2real) améliore systématiquement l'apprentissage de politiques de contrôle. Leur diagnostic identifie deux effets négatifs concrets : un phénomène de "simulator lock-in", où les politiques restent prisonnières des hypothèses du simulateur, et une exploration appauvrie pendant l'entraînement, résultat des contraintes imposées prématurément par la compatibilité hardware.
L'enjeu pour la communauté robotique est direct. Si la thèse tient, cela signifie que des pans entiers de la recherche sim2real ont optimisé le mauvais objectif : en voulant rapprocher la simulation du monde réel dès l'entraînement, on sacrifie la liberté d'exploration que la simulation est précisément supposée offrir. Cela concerne en priorité les équipes développant des politiques pour humanoïdes et les architectures Vision-Language-Action (VLA), où la qualité et la diversité des données de simulation sont déterminantes pour généraliser en déploiement réel.
En réponse, les auteurs proposent un paradigme en deux étapes qu'ils appellent sim2sim2real : une première simulation sans contraintes réelles maximise l'exploration des comportements, puis un second transfert vers une simulation contrainte par la cinématique du robot prépare le passage au hardware. La seule limite imposée dès le départ est donc géométrique, pas physique. Cette approche s'inscrit dans la lignée du domain randomization et du curriculum learning, mais formalise explicitement la séparation des objectifs d'exploration et de transfert. À ce stade, l'article est un preprint sans validation expérimentale publiée.
Dans nos dossiers




