Aller au contenu principal
Extraire la récompense cachée dans les politiques de diffusion
RecherchearXiv cs.RO7sem

Extraire la récompense cachée dans les politiques de diffusion

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

EnergyFlow, preprint soumis en mai 2026 sur arXiv (2605.00623), établit un lien formel entre politiques de diffusion et apprentissage par renforcement inverse (IRL). L'idée centrale : paramétrer une fonction d'énergie scalaire dont le gradient définit le champ de débruitage. Les auteurs prouvent que sous l'hypothèse d'optimalité à entropie maximale, la fonction de score apprise par denoising score matching récupère exactement le gradient de la soft Q-function de l'expert, permettant d'extraire un signal de récompense sans entraînement antagoniste. Sur des tâches de manipulation robotique en simulation, EnergyFlow atteint des performances d'imitation à l'état de l'art et produit un signal de récompense utilisable pour affiner la politique par RL en aval, surpassant GAIL, AIRL et les approches par vraisemblance. Le code est disponible sur GitHub.

L'enjeu est directement lié à l'essor des politiques de diffusion (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA-OFT) qui dominent les benchmarks de manipulation mais restent opaques sur la récompense implicite qu'elles optimisent. Sans signal explicite, améliorer une telle politique par RL impose de collecter de nouvelles démonstrations coûteuses. EnergyFlow propose un raccourci : la contrainte de conservativité du champ de débruitage est prouvée réduire la complexité de l'espace d'hypothèses et resserrer les bornes de généralisation hors distribution (OOD). La contrainte structurelle nécessaire à l'extraction de récompense agit simultanément comme biais inductif bénéfique pour la généralisation. Les résultats restent toutefois confinés à la simulation ; une validation sur hardware physique n'est pas encore présentée.

Ce travail s'inscrit dans l'effort de dépasser les méthodes adversariales type GAIL, instables par nature en raison du jeu minimax, en exploitant la connexion mathématique entre modèles à base d'énergie (EBM) et processus de diffusion. Les concurrents directs sont GAIL, AIRL et MaxEntIRL. Les suites logiques incluent l'intégration dans des pipelines de fine-tuning de politiques pré-entraînées à grande échelle et la validation sur robot réel, deux conditions que le marché exigera avant toute adoption opérationnelle.

À lire aussi

Politiques de diffusion multi-agents extensibles pour le contrôle de couverture
1arXiv cs.RO 

Politiques de diffusion multi-agents extensibles pour le contrôle de couverture

Des chercheurs ont publié sur arXiv (identifiant 2509.17244) MADP (Multi-Agent Diffusion Policy), une approche basée sur les modèles de diffusion pour la coordination décentralisée de nuées de robots. Le principe : chaque robot génère ses actions en échantillonnant depuis une distribution jointe haute dimension, en conditionnant sa politique sur une représentation fusionnée de ses propres observations et des embeddings perceptuels reçus de ses pairs via communication locale. L'équipe évalue MADP sur le problème de couverture de terrain (coverage control), un benchmark canonique en robotique multi-agent où un groupe de robots holonomes doit couvrir efficacement un espace selon des fonctions de densité d'importance variables. La politique est entraînée par imitation learning à partir d'un expert omniscient (dit "clairvoyant"), et le processus de diffusion est paramétré par une architecture de transformer spatial permettant l'inférence décentralisée, sans coordinateur central. Les résultats présentés sont exclusivement issus de simulations. L'intérêt technique principal tient à la nature des modèles de diffusion : contrairement aux politiques classiques qui produisent une action déterministe ou une distribution gaussienne unimodale, MADP peut capturer les interdépendances entre les actions de plusieurs agents dans une distribution multi-modale complexe. Les expériences montrent que le modèle généralise à travers des densités d'agents variables et des environnements non vus à l'entraînement, surpassant les baselines état de l'art. Pour un intégrateur ou un décideur industriel, cela signifie en théorie des essaims plus robustes aux variations de flotte, aux défaillances partielles et aux reconfiguration dynamiques, sans retraining complet. La robustesse au nombre d'agents est particulièrement notable : c'est un verrou historique des approches d'apprentissage multi-agent. Le problème de couverture de terrain occupe les équipes de robotique multi-agent depuis les années 2000, avec des solutions allant de l'optimisation par diagrammes de Voronoï aux algorithmes de reinforcement learning décentralisé. L'application des modèles de diffusion aux politiques robotiques est un domaine en essor depuis les travaux sur les diffusion policies (Pearce et al., 2023) et leur extension dans des systèmes comme Pi-0 de Physical Intelligence ou les architectures ACT. MADP en étend la logique au cas multi-agent, encore peu exploré dans la littérature. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans ce preprint ; les prochaines étapes naturelles seraient une validation sur hardware réel et l'extension à des tâches au-delà de la couverture pure.

RecherchePaper
1 source
ReCoVLA : un système de récompense guidé par VLM pour la récupération d'échecs dans les politiques VLA
2arXiv cs.RO 

ReCoVLA : un système de récompense guidé par VLM pour la récupération d'échecs dans les politiques VLA

ReCoVLA (Reward Compilation for VLA recovery) est un framework de récupération d'erreurs présenté dans un preprint arXiv publié le 9 juin 2026, conçu pour pallier la fragilité des politiques VLA (Vision-Language-Action) face aux états hors-nominal. Le principe : maintenir une politique VLA pré-entraînée gelée (frozen), déléguer à un modèle vision-langage externe (VLM) l'inférence du mode de défaillance et du stade de récupération, puis compiler une récompense structurée pour entraîner une politique résiduelle corrective en simulation. Cette politique résiduelle est ensuite déployée en zéro-shot sur robot réel sans réentraînement. Sur des tâches de manipulation couvrant des horizons courts, longs et des contacts riches, ReCoVLA fait passer le taux de succès moyen de 36,7 % (baseline π0.5 fine-tuné) à 66,7 % en simulation, et atteint 61,7 % en déploiement physique zéro-shot sim-to-réel. L'apport conceptuel central est de ne pas utiliser le VLM pour générer des actions ou des récompenses directement, mais comme un sélecteur sémantique de récompenses : il prédit un descripteur de récupération et un masque de récompense parmi des composants prédéfinis liés à la tâche. Cette séparation entre compréhension sémantique de haut niveau et contrôle correctif de bas niveau adresse un angle mort bien documenté des architectures VLA actuelles : elles offrent de bons priors pour la manipulation conditionnée au langage, mais s'effondrent dès qu'elles rencontrent un état non prévu à l'entraînement. Le framework se veut agnostique à la politique VLA sous-jacente, ce qui le rendrait compatible avec différents modèles de base. Le travail s'inscrit dans une compétition intense autour des politiques génératives pour la manipulation robotique. Des modèles comme π0 et π0.5 (Physical Intelligence), RT-2 (Google DeepMind) ou OpenVLA ont démontré la faisabilité des VLA à grande échelle, mais la robustesse aux défaillances reste un problème ouvert. ReCoVLA propose une réponse modulaire qui n'exige pas de réentraîner la politique de base, ce qui réduit théoriquement les coûts d'adaptation. Il convient toutefois de noter que ce preprint ne fait pas état d'un déploiement industriel : les expériences physiques restent en contexte laboratoire, avec un périmètre de tâches limité. Les prochaines étapes naturelles concernent la généralisation à d'autres architectures VLA et l'évaluation sur des chaînes causales plus longues.

RechercheOpinion
1 source
Mise en cache adaptative par blocs pour accélérer les politiques de diffusion
3arXiv cs.RO 

Mise en cache adaptative par blocs pour accélérer les politiques de diffusion

Une équipe de chercheurs a publié sur arXiv (2506.13456) BAC, pour Block-wise Adaptive Caching, une méthode d'accélération de l'inférence pour Diffusion Policy. Le principe : mettre en cache les features d'action intermédiaires générées lors des étapes répétitives de débruitage (denoising), puis les réutiliser sélectivement selon un schéma adaptatif au niveau de chaque bloc du transformeur. Résultat annoncé : jusqu'à 3x de speedup à l'inférence, sans dégradation des performances en génération d'action. BAC est training-free et compatible avec les architectures Diffusion Policy à base de transformeur ainsi qu'avec les modèles vision-language-action (VLA). Les expériences couvrent plusieurs benchmarks robotiques standards, sans déploiement matériel réel annoncé dans ce papier. L'enjeu est direct pour le déploiement industriel : Diffusion Policy est l'une des approches les plus solides pour le contrôle visuomoteur de robots manipulateurs, mais son coût computationnel élevé la rend impraticable en contrôle temps-réel embarqué. Un facteur 3x sans re-training représente un gain opérationnel concret, il suffit d'intégrer BAC sur un modèle existant déjà entraîné. Deux mécanismes y contribuent : un Adaptive Caching Scheduler qui identifie les pas de temps optimaux pour rafraîchir le cache en maximisant la similarité globale des features, et un Bubbling Union Algorithm qui corrige la propagation d'erreurs entre blocs FFN (Feed-Forward Network), principale limite des approches naïves de caching. Diffusion Policy, introduite par Chi et al. en 2023, s'est imposée comme référence pour la manipulation précise, mais son inférence multi-step la pénalise face aux politiques autorégressives ou MLP sur les contraintes de latence. Les techniques d'accélération des modèles de diffusion conçues pour la génération d'images (DDIM, DeepCache) ne se transfèrent pas directement à la robotique en raison de divergences architecturales et de la nature séquentielle des données d'action, c'est précisément le gap que BAC prétend combler. La méthode est compatible avec les VLA récents comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), ce qui lui confère un périmètre d'application large sur l'écosystème actuel. La validation reste cependant limitée aux benchmarks simulés ; une confirmation sur hardware réel en conditions d'inférence embarquée sera nécessaire pour évaluer l'impact opérationnel réel.

RecherchePaper
1 source
Découverte guidée de nouveaux comportements par politiques de diffusion
4arXiv cs.RO 

Découverte guidée de nouveaux comportements par politiques de diffusion

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.08743v1, juin 2026) un cadre algorithmique pour diversifier les comportements générés par les diffusion policies en robotique. Ces politiques basées sur des modèles de diffusion modélisent efficacement des distributions multimodales de trajectoires d'action, mais souffrent d'un biais documenté : avec peu de démonstrations, l'échantillonnage standard reproduit les comportements dominants et ignore les modes rares mais valides. Les auteurs combinent des correcteurs de Feynman-Kac, outil issu des processus stochastiques, avec un potentiel de guidage orientant l'échantillonnage vers des trajectoires prometteuses mais sous-représentées. Ces trajectoires candidates sont ensuite affinées par optimisation par échantillonnage, puis réintégrées dans le jeu d'entraînement pour réentraîner la politique. Les expériences portent sur plusieurs environnements de manipulation en simulation, où la méthode découvre systématiquement de nouveaux comportements exécutables. L'enjeu est concret pour les équipes travaillant sur l'apprentissage par imitation en robotique industrielle ou de service. Un robot entraîné sur peu de données converge vers une seule stratégie même lorsque plusieurs solutions existent : ce cadre propose d'explorer l'espace des comportements sans collecter davantage de démonstrations humaines, ce qui touche directement à l'efficacité des données dans les pipelines de robot learning. Les auteurs positionnent leur approche contre les méthodes de guidage classiques, qui poussent les échantillons vers des régions infaisables, et contre le couplage RL+diffusion, qui peine à sortir des minima locaux. Les résultats restent cependant limités à la simulation de manipulation; aucune validation sur robot réel n'est rapportée dans ce préprint. Les diffusion policies ont connu une adoption rapide depuis les travaux de Chi et al. en 2023, supplantant progressivement les politiques comportementales classiques sur des tâches de manipulation complexes. Le domaine est aujourd'hui concurrentiel, avec Physical Intelligence (pi0), Google DeepMind et plusieurs laboratoires universitaires poussant les limites de ces modèles génératifs. L'approche Feynman-Kac s'inscrit dans une tendance plus large de réutilisation d'outils de la physique statistique pour le contrôle robotique. Les prochaines étapes naturelles seraient une validation sur hardware réel et une extension à des tâches à horizon long, où la diversité des trajectoires est encore plus critique.

UELes laboratoires européens travaillant sur l'apprentissage par imitation (INRIA, CEA-List) pourraient exploiter ce cadre pour réduire leur dépendance aux données de démonstration, mais aucun acteur ou déploiement européen n'est impliqué dans ce préprint.

RecherchePaper
1 source