FLAG : la politique de flux par apprentissage par renforcement MaxEnt avec guidage latent augmenté
FLAG (Flow policy with Latent-Augmented Guidance) est un algorithme d'apprentissage par renforcement à entropie maximale (MaxEnt-RL) présenté dans un preprint arXiv (2605.30749) déposé fin mai 2026. L'approche s'attaque à une limitation connue des implémentations actuelles de MaxEnt-RL : la quasi-totalité restreint les politiques à des distributions gaussiennes simples, ce qui bride leur expressivité. Les tentatives récentes d'intégrer des politiques génératives via un apprentissage supervisé pondéré par importance butent sur le phénomène d'effondrement des poids d'importance (importance weight collapse), particulièrement sévère dans les espaces d'action de haute dimension. FLAG contourne ce problème en localisant la région d'échantillonnage : l'espace d'état est augmenté d'une variable latente de flux normalisants, et l'algorithme optimise un objectif proxy MaxEnt-RL dont la cohérence est démontrée formellement, réduisant la dégénérescence sans multiplier le nombre d'échantillons nécessaires.
L'importance de FLAG réside dans sa capacité à réconcilier expressivité des politiques et passage à l'échelle. Les politiques gaussiennes standard ne capturent pas les distributions multimodales qui émergent dans les tâches de contrôle complexes -- manipulation dextère, locomotion, planification en espace contraint. Les architectures de diffusion et de flux ont prouvé leur potentiel en robotique (Pi-0 de Physical Intelligence, les VLA de la famille GR00T N2 de NVIDIA), mais leur entraînement par RL restait instable à haute dimension. FLAG démontre empiriquement qu'on peut optimiser ces politiques expressives avec un nombre limité d'échantillons pondérés et atteindre des performances état de l'art sur des benchmarks réputés difficiles -- l'abstract ne précise pas lesquels, ce qui limite la vérifiabilité immédiate de la revendication.
MaxEnt-RL est un cadre théorique consolidé, popularisé notamment par les travaux de Sergey Levine et ses co-auteurs sur Soft Actor-Critic (SAC, 2018). Les approches concurrentes à FLAG incluent les politiques de diffusion en RL (DPPO, DIPO) ainsi que les méthodes hybrides flux-RL récentes issues de groupes comme Berkeley, CMU et Shanghai AI Lab. Ce preprint n'a pas encore été soumis à une conférence majeure au moment de l'annonce, et aucun code public n'est encore disponible. La prochaine étape naturelle serait une validation sur robots physiques, domaine où les espaces d'action haute dimension sont omniprésents et où le fossé sim-to-real reste le vrai test de toute méthode de ce type.
Dans nos dossiers




