Politique de diffusion supervisée par ensembles : apprentissage du découpage d'actions par corrections
Des chercheurs proposent Set-Supervised Diffusion Policy (SDP), un cadre d'entraînement pour politiques de diffusion appliquées à la manipulation robotique, publié en preprint sur arXiv le 2 juin 2026 (arXiv:2606.01865). La méthode exploite les corrections humaines lors du déploiement comme signal d'entraînement contrastif : quand un robot échoue et qu'un opérateur corrige sa trajectoire, le système enregistre à la fois l'action-chunk non désirée du robot et l'action-chunk corrective de l'humain. SDP construit à partir de ces paires un ensemble d'action-chunks désirés, puis entraîne la politique de diffusion à s'aligner sur cet ensemble via une loss contrastive. Des expériences sur plusieurs tâches de manipulation valident l'approche, avec des gains particulièrement nets en robustesse aux données bruitées et en efficacité d'agrégation de données.
Le problème visé est fondamental en imitation learning : le distributional shift. Un robot entraîné par behavior cloning sur des démonstrations d'expert sort rapidement du domaine dès le déploiement, ce qui dégrade ses performances et force des interventions humaines répétées. Les pipelines d'agrégation de données de type DAgger ajoutent des démonstrations correctives, mais ignorent le signal négatif, c'est-à-dire les actions erronées du robot lui-même. Résultat : surapprentissage sur les démonstrations de l'enseignant, et besoin croissant de données expertes coûteuses. SDP inverse la logique en intégrant ce signal négatif explicitement dans la fonction de perte, réduisant la dépendance aux démonstrations coûteuses tout en produisant des datasets agrégés de meilleure qualité.
Les politiques de diffusion pour la robotique ont émergé comme référence depuis les travaux de Chi et al. (Diffusion Policy, 2023), et l'action chunking a été popularisé par ACT (Zhao et al., 2023). L'apprentissage par correction interactive remonte à DAgger (Ross et al., 2011). Physical Intelligence avec π0, ou des variantes RLHF adaptées à la robotique, explorent des voies proches sans pour autant exploiter explicitement le signal contrastif issu des actions indésirables. SDP se positionne comme une brique modulaire greffable sur des architectures de diffusion existantes : le code est disponible publiquement. Les suites naturelles pointent vers une mise à l'échelle sur des tâches de manipulation longue-durée et des robots mobiles, où le coût de collecte de données expertes est un vrai frein industriel.
Dans nos dossiers



