WorldSample : apprentissage par renforcement en boucle fermée sur robot réel avec modélisation du monde
Voici l'article traduit et résumé :
Des chercheurs présentent WorldSample, un framework d'apprentissage par renforcement (RL) pour robots réels qui combine rollouts physiques et modèle du monde génératif afin de réduire le coût des interactions réelles. Le système ferme une boucle "réel-synthétique" : à partir de trajectoires observées sur un robot physique, un modèle du monde post-entraîné génère des transitions synthétiques haute fidélité, limitant fortement les hallucinations visuelles typiques de ces modèles génératifs. Plutôt que de traiter ces données synthétiques comme de simples remplacements de l'expérience réelle, les auteurs introduisent le Policy-Paced Learning (PPL), un mécanisme de sélection et d'ordonnancement des échantillons qui équilibre l'apport de l'augmentation de données contre le risque de surestimation de la valeur et le bruit induit par les hallucinations résiduelles. Sur des tâches de manipulation robotique riches en contacts et exigeant une précision fine, WorldSample améliore le taux de réussite des politiques de 28% tout en réduisant de 59% le nombre d'étapes d'entraînement nécessaires, par rapport aux méthodes de référence. La fidélité visuelle du modèle du monde progresse également nettement : +19,4dB en PSNR et +0,47 en SSIM par rapport à un post-entraînement uniquement basé sur les démonstrations.
L'enjeu dépasse la simple performance : le RL sur robot réel reste handicapé par le coût de chaque rollout physique, qui ne révèle qu'un seul chemin action-résultat parmi d'innombrables possibles. En générant des variations synthétiques crédibles autour de trajectoires réelles, WorldSample attaque directement ce goulot d'étranglement, un problème central pour tout acteur cherchant à déployer du RL au-delà du simple apprentissage par imitation, limité par la couverture des démonstrations disponibles. C'est aussi une réponse concrète au problème classique de la surestimation de valeur en RL offline et à l'écart de fidélité (sim-to-real) qui plombe habituellement les modèles du monde utilisés comme simulateurs d'entraînement.
Le travail s'inscrit dans la lignée des recherches récentes sur les modèles du monde appliqués à la robotique, où la génération vidéo/action sert de simulateur bon marché pour compléter des données réelles rares. Contrairement aux approches purement génératives qui risquent d'halluciner des dynamiques physiques irréalistes, WorldSample ancre systématiquement sa génération sur des rollouts réels et régule l'usage des données synthétiques via PPL. L'article, publié sur arXiv (2607.02431, catégorie "new"), ouvre la voie à des extensions vers d'autres familles de tâches manipulatoires et à une meilleure compréhension du compromis entre volume d'augmentation synthétique et risque d'erreur cumulée en boucle fermée.
Dans nos dossiers




