
DF-ExpEnse : exploration filtrée par diffusion pour un affinage économe en données
Des chercheurs présentent DF-ExpEnse, une méthode d'exploration publiée en juin 2026 sur arXiv (preprint 2606.19656) qui vise à améliorer l'efficacité en termes d'échantillons lors du fine-tuning de politiques de contrôle génératives pré-entraînées. La technique s'appuie sur les capacités de modélisation multimodale de la politique générative, typiquement une politique de diffusion, pour construire un ensemble de candidats d'actions expressif et évaluable efficacement. Un ensemble de critiques (ensemble of critics) sélectionne ensuite l'action qui équilibre la qualité d'exécution avec un fort intérêt exploratoire. En contexte de flotte robotique, DF-ExpEnse intègre un mécanisme de communication inter-agents permettant une exploration collaborative distribuée. Les expériences portent sur des tâches de manipulation et de locomotion, et montrent des gains constants en efficacité d'échantillonnage par rapport au fine-tuning par défaut et à d'autres schémas de sélection d'action.
L'efficacité en termes d'échantillons est l'un des verrous principaux du fine-tuning par renforcement de politiques robotiques génératives : chaque interaction avec l'environnement réel est coûteuse, lente et potentiellement dangereuse. En améliorant la qualité des données collectées en ligne, DF-ExpEnse réduit le nombre d'épisodes nécessaires pour atteindre un niveau de performance cible, ce qui représente un gain opérationnel concret dans des contextes industriels. L'aspect flotte est particulièrement pertinent pour des déploiements à l'échelle : l'exploration collaborative entre robots permet d'amortir le coût d'exploration sur un parc entier, plutôt que de le répéter agent par agent. La méthode étant compatible avec les stratégies de fine-tuning RL existantes, son intégration dans des pipelines déjà établis reste relativement directe.
Ce travail s'inscrit dans un courant de recherche actif autour du fine-tuning de politiques de diffusion robotiques, domaine structuré ces dernières années par des travaux comme Diffusion Policy (Chi et al., 2023), Pi-0 de Physical Intelligence, ou DPPO. Le passage de l'entraînement offline à l'adaptation online en conditions réelles reste l'un des axes les plus disputés de la robotique apprise, avec des groupes à Stanford, Berkeley, CMU, et des entreprises comme Physical Intelligence ou Figure AI actifs sur des variantes de ce problème. DF-ExpEnse est pour l'heure un preprint non encore évalué par les pairs ; son site projet présente des démonstrations expérimentales, mais aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade.
Dans nos dossiers




