
Drifting Field Policy : une politique générative en une étape via le flux de gradient de Wasserstein
Une équipe de chercheurs propose le Drifting Field Policy (DFP), une politique générative à inférence en une seule étape pour l'apprentissage de tâches robotiques, publiée sur arXiv (ref. 2605.07727) en mai 2025. Contrairement aux politiques basées sur des équations différentielles ordinaires (ODE) comme les politiques de diffusion ou de flow matching, DFP n'itère pas sur plusieurs pas de débruitage : une seule passe réseau suffit pour générer l'action. Techniquement, la mise à jour de la politique est formulée comme un flux de gradient de Wasserstein-2 en divergence KL inverse vers une politique cible souple, ce qui revient à effectuer un pas de gradient dans l'espace des probabilités. Ce gradient se décompose en deux termes : une montée vers les régions d'actions à haute valeur estimée par un critique, et un score matching avec la politique d'ancrage servant de région de confiance. Pour rendre l'optimisation tractable, les auteurs dérivent un surrogate simplifié, équivalent à du behavior cloning sur les actions top-K sélectionnées par le critique. Évalué sur les benchmarks Robomimic et OGBench, DFP atteint des performances état de l'art sur plusieurs tâches de manipulation, surpassant les politiques ODE-based à nombre de paramètres comparable.
L'enjeu principal est la latence d'inférence : les politiques à base de diffusion ou de flow matching, comme Pi-0 de Physical Intelligence ou les variantes de Diffusion Policy de Chi et al. (2023), requièrent typiquement 10 à 100 pas de débruitage, ce qui est prohibitif pour un contrôle robotique en temps réel. DFP atteint des performances comparables ou supérieures avec une seule évaluation du réseau, sans recourir à la distillation (consistency models, DDIM), qui dégrade souvent la qualité des trajectoires générées. Un résultat notable est que le surrogate loss via top-K behavior cloning bénéficie spécifiquement au backbone non-ODE de DFP, les auteurs montrant expérimentalement que cette combinaison n'améliore pas les architectures ODE-based de la même façon, ce qui valide la cohérence architecturale de l'approche.
Les politiques de diffusion pour la robotique ont été popularisées par Chi et al. en 2023, puis étendues via le flow matching, paradigme utilisé notamment par Pi-0 et GR00T N2 de NVIDIA. Plusieurs travaux ont cherché à en réduire le coût computationnel par distillation ou quantification, sans parvenir à éviter une dégradation des performances. DFP propose une rupture en changeant le paradigme de génération lui-même plutôt qu'en compressant un modèle existant. Il n'existe à ce stade aucune annonce de déploiement ou de partenariat industriel : il s'agit d'un résultat académique pur. Les suites naturelles seraient une validation sur robots réels en manipulation dextère, une comparaison directe avec les variantes distillées de Diffusion Policy, et une intégration potentielle dans des pipelines VLA (Vision-Language-Action) où la latence d'inférence est un goulot d'étranglement critique.
Dans nos dossiers




