
Distillation de simulation : pré-entraîner des modèles du monde en simulation pour une adaptation rapide au réel
Une équipe de recherche a publié sur arXiv (arXiv:2603.15759) un cadre appelé Simulation Distillation (SimDist), conçu pour entraîner des world models robotiques en simulation physique avant de les adapter rapidement au monde réel avec peu de données. L'approche se décompose en deux phases distinctes : un préentraînement dans un simulateur physique qui distille des priors structurels dans un world model capable de planifier à partir d'observations brutes, suivi d'une adaptation réelle dans laquelle seul le modèle de dynamiques latentes est mis à jour via des pertes de prédiction issues de données terrain. L'encodeur, le modèle de récompense et la fonction de valeur appris en simulation sont directement transférés sans modification. Les auteurs valident SimDist sur deux catégories de tâches : manipulation en contact riche (préhension, assemblage) et locomotion quadrupède.
L'enjeu central que SimDist adresse est le coût prohibitif de la collecte de données d'interaction diverse et de qualité mixte pour entraîner des world models directement dans le monde réel. En réduisant l'adaptation à une forme d'identification de système supervisée, le cadre conserve les signaux de planification denses sur horizon long nécessaires à l'amélioration en ligne, là où les méthodes de fine-tuning de politiques end-to-end restent inefficaces et fragiles sur les tâches longue durée. Les expériences montrent que SimDist progresse régulièrement avec l'expérience accumulée, alors que les approches d'adaptation concurrentes stagnent ou se dégradent durant le fine-tuning en ligne. C'est un résultat notable : la question de savoir si les world models tiennent leurs promesses à l'échelle sur des tâches en contact réel restait ouverte.
Les world models robotiques -- dont Dreamer (DeepMind) est le représentant le plus connu -- ont démontré leur potentiel en simulation et dans des domaines à faible dimensionnalité, mais leur passage aux tâches manipulation réelles était resté laborieux, nécessitant des volumes de données difficiles à obtenir en dehors de laboratoires très équipés. SimDist s'inscrit dans un courant récent qui tente de résoudre le sim-to-real gap non pas par le transfert direct de politique, mais par le transfert de représentations et de modèles de planification. Le projet est accompagné d'une page dédiée et d'un dépôt de code (sim-dist.github.io), ce qui facilitera la reproductibilité et les comparaisons tierces. Les prochaines étapes probables incluent l'extension à des manipulateurs à dextérité plus élevée et à des environnements moins structurés, deux domaines où la rareté des données réelles est encore plus critique.
Dans nos dossiers




