
Comment allouer un budget de transfert simulation-réel ?
Une étude publiée sur arXiv (réf. 2606.22062, juin 2026) s'attaque à une question pratique restée sans réponse claire dans la robotique par apprentissage : comment répartir un budget de temps de mesure sur robot réel entre l'identification de système (mesurer précisément les paramètres physiques du robot) et la randomisation de domaine (entraîner sur une large plage de dynamiques simulées) ? Les chercheurs ont conduit une expérience contrôlée sim-à-sim sur un pendule, en substituant un modèle à paramètres cachés au robot physique pour pouvoir varier proprement les gaps de réalité et les niveaux de bruit. Résultat : un faible nombre de rollouts d'identification suffisait à combler l'essentiel de l'écart de transfert. Une fois des données réelles disponibles, les politiques entraînées aux paramètres estimés surpassaient systématiquement celles entraînées sur une bande de randomisation élargie, même lorsque cette bande contenait les vrais paramètres du système.
Ce résultat contredit une intuition répandue dans le secteur : celle que "plus de randomisation = plus de robustesse au sim-to-real gap". Les pipelines sim-to-real actuels (notamment pour les mains, les bras, et les humanoïdes) consacrent souvent une fraction importante de l'ingénierie à construire des distributions de randomisation larges via DR (Domain Randomization), parfois au détriment d'une identification soignée. Cette étude suggère que cette stratégie est sous-optimale dans le régime "bénin" où les dynamiques sont identifiables. Pour les intégrateurs robotiques et les équipes de déploiement, la leçon opérationnelle est directe : mesurer d'abord ce qu'il est possible de mesurer, et réserver la randomisation à l'incertitude résiduelle non modélisable, pas l'inverse.
Le sim-to-real reste l'un des goulots d'étranglement centraux du robot learning depuis les travaux fondateurs d'OpenAI Robotics sur Dactyl (2019) et les benchmarks de transfert de Meta AI et Google DeepMind. La communauté a largement misé sur des variantes de Domain Randomization (DR) et sur les Visual-Language-Action models (VLA) pour contourner le gap sans nécessiter d'identification fine. Cette étude s'inscrit dans un contre-courant : celui d'une meilleure caractérisation du robot physique via la sysid, une approche défendue également par des travaux récents de Unitree, Boston Dynamics, et par des labos académiques proches du contrôle optimal. La limite explicitement posée par les auteurs est importante : leurs conclusions tiennent dans un régime à deux paramètres inconnus et sans mismatch structurel de modèle ; dans des systèmes plus complexes (contact, déformation, friction multipoint), la randomisation large pourrait reprendre l'avantage. Prochaines étapes naturelles : valider sur des systèmes à plus haute dimensionnalité, des robots articulés réels, et en présence de mismatch structurel explicite.
Dans nos dossiers




