
WAM-RL : apprentissage par renforcement avec modèle du monde, récompenses de reconstruction et SFT vidéo en ligne
Des chercheurs ont publié le 17 juin 2026 sur arXiv (2606.17906) WAM-RL, un cadre d'apprentissage par renforcement conçu pour les modèles World-Action (WA), une classe d'architectures qui couplent un modèle de monde (world model, chargé de prédire les états futurs de l'environnement) avec un modèle d'action (actor, chargé de sélectionner les commandes). L'originalité de WAM-RL tient à l'optimisation conjointe et en ligne de ces deux composants via une méthode d'optimisation hiérarchique, complétée par des récompenses de reconstruction et un fine-tuning supervisé sur vidéos en ligne (online video SFT). L'ensemble des expériences a été conduit en interaction réelle avec l'environnement, sans dépendre uniquement de trajectoires d'expert pré-collectées.
Ce travail comble une lacune structurelle des modèles WA actuels : entraînés exclusivement sur des démonstrations, ils ne peuvent pas acquérir de compétences de manipulation fines au-delà de la distribution couverte par ces données, ni s'améliorer en continu par l'expérience. L'insight central mis en évidence par les auteurs est particulièrement net : optimiser uniquement l'actor suffit à progresser sur des tâches à horizon court, mais échoue à produire des gains significatifs sur des tâches à horizon long. C'est la co-évolution du world model et de l'actor qui s'avère déterminante pour les scénarios complexes, ce qui implique que les pipelines de fine-tuning RL qui ignorent le world model introduisent un plafond de performance non trivial dans les applications de manipulation séquentielle.
WAM-RL s'inscrit dans une tendance plus large qui vise à dépasser les limites du behavioral cloning dans les robots à apprentissage (VLA, diffusion policies, pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) en intégrant des boucles de feedback online. Les travaux connexes comme DreamerV3 ou TD-MPC2 ont montré la puissance du model-based RL, mais leur application aux modèles WA multimodaux restait inexplorée. Il s'agit, selon les auteurs, de la première introduction du RL dans le paradigme World-Action. Il faut noter que l'article est un preprint non encore évalué par les pairs, que les benchmarks et environnements expérimentaux ne sont pas détaillés dans le résumé, et que la transférabilité vers du matériel réel (sim-to-real gap) reste à démontrer.
Dans nos dossiers




