Les modèles d'action du monde permettent un apprentissage par imitation continu avec rejeu génératif récurrent
Publiés en juin 2026 sur arXiv (référence 2606.27374), des chercheurs présentent REGEN (Recurrent Generative Replay), un cadre d'apprentissage continu par imitation fondé sur les World Action Models (WAMs). Contrairement aux modèles de politique classiques qui se contentent de prédire les actions du robot, les WAMs génèrent également des observations visuelles futures, combinant ainsi deux capacités distinctes dans un seul modèle. REGEN exploite cette dualité en interrogeant récursivement le WAM pour synthétiser des trajectoires de pseudo-replay, conditionnées uniquement sur les instructions des tâches antérieures et les observations de la tâche courante. Testée en simulation et en manipulation réelle, l'approche réduit l'oubli catastrophique de 50 % en comparaison au fine-tuning séquentiel classique, tout en s'approchant des performances des méthodes dites "privileged" qui, elles, conservent l'accès aux démonstrations humaines originales.
L'enjeu industriel est direct : l'oubli catastrophique constitue l'un des verrous majeurs au déploiement continu de robots en environnement réel. Dès qu'un système est refiné sur une nouvelle tâche, il dégrade ses capacités acquises précédemment. Les solutions actuelles imposent de conserver les démonstrations humaines originales, ce qui soulève des contraintes de stockage, de coût de collecte et parfois de confidentialité des données opérationnelles. REGEN casse cette dépendance : le robot répète mentalement ses tâches passées sans jamais avoir besoin des vidéos source. Cela ouvre la voie à des déploiements adaptatifs dans des cellules de production ou d'entrepôt où les tâches évoluent en continu. Le gain de 50 % reste cependant partiel, et les auteurs reconnaissent que leur méthode n'atteint pas encore le niveau des méthodes ayant accès aux données réelles.
Le travail s'inscrit dans la dynamique des world models appliqués à la robotique, un axe de recherche en forte accélération depuis 2023 porté par des acteurs comme Physical Intelligence (avec π0), Google DeepMind, ou NVIDIA (GR00T N2). L'originalité de REGEN réside dans l'usage génératif du WAM pour l'apprentissage continu, plutôt que pour la planification ou le sim-to-real. Les auteurs identifient deux goulots d'étranglement principaux : la dégradation visuelle sur les horizons longs et l'incohérence entre actions générées et observations synthétisées, deux limites qui dessinent clairement l'agenda de recherche pour les prochaines itérations. Aucun partenaire industriel ni calendrier de commercialisation n'est mentionné ; il s'agit à ce stade d'une contribution académique, non d'un produit déployé.
Dans nos dossiers




