
Modèles du monde locaux et globaux couplés pour un apprentissage par renforcement efficace du premier ordre
Des chercheurs ont publié en février 2026 une méthode d'entraînement de politiques de contrôle robotique entièrement à l'intérieur de modèles du monde appris depuis des données réelles, sans aucun simulateur physique. L'approche, baptisée FoG (First-order Gradient découplé), repose sur un couplage inédit : un modèle du monde global, basé sur un modèle de diffusion à grande échelle, génère des trajectoires précises dans l'espace image, tandis qu'un modèle local léger opérant dans un espace latent approche les dynamiques locales pour calculer les gradients de manière tractable. Les auteurs valident la méthode sur la tâche Push-T, un benchmark standard de manipulation planaire, où FoG surpasse significativement PPO (Proximal Policy Optimization) en efficacité d'échantillons. Une deuxième évaluation porte sur de la manipulation d'objets en vue égocentrique avec un robot quadrupède.
Ce travail s'attaque à un verrou majeur de la robotique de manipulation : les simulateurs physiques classiques peinent à modéliser fidèlement les contacts, la non-rigidité des objets et les perceptions visuelles complexes, créant un écart sim-to-real difficile à combler. En substituant entièrement le simulateur par un modèle du monde appris sur des interactions réelles, FoG contourne ce problème structurellement plutôt que de l'atténuer par du domain randomization ou du fine-tuning. Le découplage local/global est la contribution centrale : utiliser le modèle de diffusion complet pour le déroulé (roll-out) garantit la fidélité, tandis que le substitut latent rend le calcul du gradient computationnellement viable, une tension que les approches précédentes ne résolvaient pas proprement.
Les world models comme levier pour l'apprentissage robotique constituent un axe de recherche en forte accélération depuis les travaux fondateurs de Dreamer (DeepMind, 2019-2023) et de MBPO. Les modèles de diffusion, d'abord dominants en génération d'images, sont progressivement intégrés comme modèles de transition dynamique dans des travaux récents chez Google DeepMind, Berkeley et le MIT. FoG se positionne dans cette veine mais avec un angle d'optimisation first-order qui le distingue des approches model-based RL classiques. Les résultats sont préliminaires, limités à deux tâches de complexité modérée, et les auteurs ne présentent pas de métriques de temps de calcul détaillées ni de comparaison sur des benchmarks de manipulation plus exigeants comme ManiSkill ou RoboSuite. La prochaine étape naturelle serait de tester la méthode sur des tâches dextères en environnement non structuré, où le gap sim-to-real est le plus pénalisant.
Dans nos dossiers




