
Découverte guidée de nouveaux comportements par politiques de diffusion
Une équipe de chercheurs a publié sur arXiv (arXiv:2606.08743v1, juin 2026) un cadre algorithmique pour diversifier les comportements générés par les diffusion policies en robotique. Ces politiques basées sur des modèles de diffusion modélisent efficacement des distributions multimodales de trajectoires d'action, mais souffrent d'un biais documenté : avec peu de démonstrations, l'échantillonnage standard reproduit les comportements dominants et ignore les modes rares mais valides. Les auteurs combinent des correcteurs de Feynman-Kac, outil issu des processus stochastiques, avec un potentiel de guidage orientant l'échantillonnage vers des trajectoires prometteuses mais sous-représentées. Ces trajectoires candidates sont ensuite affinées par optimisation par échantillonnage, puis réintégrées dans le jeu d'entraînement pour réentraîner la politique. Les expériences portent sur plusieurs environnements de manipulation en simulation, où la méthode découvre systématiquement de nouveaux comportements exécutables.
L'enjeu est concret pour les équipes travaillant sur l'apprentissage par imitation en robotique industrielle ou de service. Un robot entraîné sur peu de données converge vers une seule stratégie même lorsque plusieurs solutions existent : ce cadre propose d'explorer l'espace des comportements sans collecter davantage de démonstrations humaines, ce qui touche directement à l'efficacité des données dans les pipelines de robot learning. Les auteurs positionnent leur approche contre les méthodes de guidage classiques, qui poussent les échantillons vers des régions infaisables, et contre le couplage RL+diffusion, qui peine à sortir des minima locaux. Les résultats restent cependant limités à la simulation de manipulation; aucune validation sur robot réel n'est rapportée dans ce préprint.
Les diffusion policies ont connu une adoption rapide depuis les travaux de Chi et al. en 2023, supplantant progressivement les politiques comportementales classiques sur des tâches de manipulation complexes. Le domaine est aujourd'hui concurrentiel, avec Physical Intelligence (pi0), Google DeepMind et plusieurs laboratoires universitaires poussant les limites de ces modèles génératifs. L'approche Feynman-Kac s'inscrit dans une tendance plus large de réutilisation d'outils de la physique statistique pour le contrôle robotique. Les prochaines étapes naturelles seraient une validation sur hardware réel et une extension à des tâches à horizon long, où la diversité des trajectoires est encore plus critique.
Les laboratoires européens travaillant sur l'apprentissage par imitation (INRIA, CEA-List) pourraient exploiter ce cadre pour réduire leur dépendance aux données de démonstration, mais aucun acteur ou déploiement européen n'est impliqué dans ce préprint.
Dans nos dossiers




