Politique de diffusion supervisée par ensembles :…

Des étiquettes aux ensembles d'actions : repenser la supervision pour l'apprentissage par imitation à partir de retours correctifs

40

1arXiv cs.RO

Des étiquettes aux ensembles d'actions : repenser la supervision pour l'apprentissage par imitation à partir de retours correctifs

Le comportement par clonage (behavior cloning, BC) est l'une des méthodes les plus utilisées pour entraîner des politiques robotiques à partir de démonstrations humaines : chaque geste fourni par l'opérateur y est traité comme une étiquette exacte à reproduire. Des chercheurs ont publié en février 2025 (arXiv:2502.07645, version 3 disponible) une alternative baptisée CLIC, Contrastive policy Learning from Interactive Corrections, qui remplace ces étiquettes ponctuelles par des cibles dites à ensemble de valeurs (set-valued action targets). Au lieu d'optimiser la politique vers un seul geste cible, CLIC utilise les corrections humaines en temps réel pour construire et affiner des ensembles d'actions désirées, puis entraîne le modèle à placer de la masse de probabilité sur cet ensemble plutôt que sur un point unique. Cette reformulation adresse un problème connu mais sous-estimé du BC classique : lorsque les démonstrations humaines sont imparfaites, gestes partiels, corrections relatives ("un peu plus à gauche"), ambiguïtés multimodales, forcer la politique à reproduire chaque label à la lettre peut la faire dériver loin du comportement voulu, notamment avec des modèles expressifs tels que les energy-based models (EBMs). Les expériences en simulation et sur robot réel montrent que CLIC reste compétitif avec l'état de l'art quand les données sont propres, et se révèle substantiellement plus robuste sous données bruitées, corrections relatives ou feedback partiel. Pour les équipes de déploiement robotique, c'est une voie concrète pour réduire les coûts de collecte de démonstrations de haute qualité : CLIC tolère des opérateurs moins expérimentés ou des interfaces de téléopération imprécises sans dégradation majeure des performances. Le BC reste une brique fondamentale de l'apprentissage par imitation, popularisé par les travaux de Pieter Abbeel au début des années 2000 et au coeur aujourd'hui des politiques VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou les politiques diffusion-based d'OpenPI. CLIC s'inscrit dans un courant "human-in-the-loop" qui inclut DAgger, HG-DAgger et TAMER, mais se distingue par la formalisation ensembliste des corrections. Le code et les environnements de test sont disponibles publiquement sur clic-webpage.github.io. Les auteurs n'annoncent pas de partenariat industriel ni de déploiement terrain, ce qui positionne ce travail comme une contribution aux fondations méthodologiques de l'imitation learning, avec des implications directes pour les pipelines de téléopération et de fine-tuning de politiques générales.

UEImpact indirect : la méthode CLIC, en réduisant les besoins en démonstrations de haute qualité, pourrait bénéficier aux équipes de R&D robotique européennes travaillant sur des pipelines d'imitation learning et de téléopération, sans lien direct avec un acteur français ou une réglementation UE.

RechercheOpinion

1 source

Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques

42

2arXiv cs.RO

Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques

Des chercheurs proposent ORCHID, un cadre d'auto-entraînement présenté sur arXiv (2603.05291) qui s'attaque à un problème structurel de la manipulation robotique longue durée : la désynchronisation entre planificateur haut niveau et contrôleur bas niveau au sein des politiques hiérarchiques. Dans ces architectures, un planificateur décompose une instruction en langage naturel en sous-objectifs intermédiaires, que le contrôleur exécute physiquement. La difficulté est que les deux modules, entraînés séparément, opèrent sur des distributions de sous-objectifs incompatibles. ORCHID corrige cela en ligne : le système génère des trajectoires, les filtre selon le feedback de l'environnement (réussite ou échec de la tâche complète), puis distille les trajectoires conjointement réussies dans les deux modules via apprentissage supervisé. Il en résulte une co-adaptation bidirectionnelle : le planificateur ancre ses sous-objectifs dans les capacités réelles du contrôleur, tandis que le contrôleur se spécialise dans les structures de trajectoire que produit le planificateur. Sur le benchmark CALVIN, référence pour la manipulation séquentielle guidée par le langage, un modèle léger entraîné avec ORCHID surpasse les méthodes purement offline, y compris un modèle Vision-Language-Action (VLA) deux fois plus grand en paramètres. L'impact est notable sur deux points. En termes d'efficacité paramétrique, qu'un modèle léger dépasse un VLA deux fois plus lourd remet en question l'hypothèse courante que l'échelle seule suffit pour les tâches complexes. En termes de stabilité d'entraînement, combiner RL hiérarchique et modèles de diffusion est notoirement instable à cause de la propagation des gradients. ORCHID contourne ce problème en substituant la distillation supervisée sur échantillons filtrés au RL gradient classique, une voie potentiellement plus praticable dans les contextes industriels où la reproductibilité de l'entraînement est critique. Le mécanisme de co-adaptation proposé constitue un principe architectural plus général, transférable à d'autres familles de politiques hiérarchiques au-delà des modèles de diffusion. Le travail s'inscrit dans la dynamique actuelle autour des politiques de diffusion pour la robotique, portée par des frameworks comme Diffusion Policy (Chi et al., 2023) et π₀ de Physical Intelligence. ORCHID se distingue en ciblant non l'architecture mais la coordination inter-niveaux, un aspect souvent sous-traité par les approches VLA end-to-end qui fusionnent planification et contrôle dans un seul réseau. Le benchmark CALVIN, développé à l'Université de Freiburg, est la référence principale pour évaluer la généralisation en manipulation séquentielle sur des tâches à horizon long. Les prochaines étapes naturelles incluent une validation sur robots physiques et une extension à des horizons temporels plus longs, deux points que cet article n'aborde pas encore.

RechercheOpinion

1 source

Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close

44

3arXiv cs.RO

Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close

Des chercheurs ont publié sur arXiv (réf. 2606.01238) une approche baptisée Closed-Form Diffusion Policies (CFDP), qui supprime entièrement la phase d'entraînement offline des politiques de diffusion pour l'apprentissage par imitation. Plutôt que d'entraîner un réseau de neurones pendant plusieurs heures, CFDP calcule analytiquement la fonction score directement à partir du jeu de démonstrations, en forme fermée. Résultat : une politique opérationnelle en quelques millisecondes, déployée et testée en temps réel sur un CPU mobile standard, sans GPU dédié. L'enjeu industriel est direct : dans le cycle données → politique → déploiement → nouvelles données, la phase d'entraînement constitue aujourd'hui le principal goulot d'étranglement. Pouvoir générer une politique compétitive à partir d'un dataset de démonstrations sans entraînement réduit ce délai de plusieurs heures à quelques millisecondes. Sur les benchmarks d'imitation learning testés, CFDP se montre compétitif face aux baselines neuronales classiques, qui nécessitent elles des heures de calcul. Cela remet en cause l'hypothèse selon laquelle la puissance expressive des politiques de diffusion est indissociable de leur coût computationnel. Pour les intégrateurs robotiques ou les équipes de recherche appliquée qui itèrent fréquemment sur leurs démos, ce type de pipeline sans entraînement change concrètement le rythme de développement. Les politiques de diffusion ont émergé comme référence en manipulation robotique ces deux dernières années, avec des travaux notables comme Diffusion Policy (Chi et al., 2023) ou Pi-0 (Physical Intelligence). Leur principal défaut reconnu reste précisément le coût d'entraînement et la rigidité vis-à-vis de nouvelles démonstrations. CFDP s'inscrit dans ce contexte comme un primitif composable : les auteurs montrent qu'il peut s'interfacer avec des politiques neuronales pré-entraînées existantes, permettant du policy guidance ou de l'augmentation de démonstrations à l'inférence. Aucun déploiement industriel ni partenariat applicatif n'est annoncé à ce stade ; il s'agit d'un preprint académique, dont les résultats restent à valider sur des tâches plus complexes et des robots à dextérité élevée.

RechercheOpinion

1 source

Apprentissage de politiques hiérarchiques par décomposition spectrale

38

4arXiv cs.RO

Apprentissage de politiques hiérarchiques par décomposition spectrale

Des chercheurs ont publié le 30 juin 2026 sur arXiv (réf. 2606.29570) une nouvelle architecture de politique robotique appelée Causal Spectral Policy (CSP), fondée sur une décomposition spectrale des séquences d'actions via la transformée en cosinus discrète (DCT). L'observation centrale est la suivante : les composantes basse fréquence d'une séquence de mouvements encodent la trajectoire globale et l'intention de tâche, tandis que les composantes haute fréquence capturent le timing précis, l'alignement et les comportements de contact. CSP génère d'abord un mouvement grossier conditionné sur l'observation visuelle et l'instruction en langage naturel, puis produit des corrections fines conditionnellement sur la trajectoire réalisée, selon un processus causal dit "coarse-to-fine". Les évaluations en simulation et en environnement réel montrent des performances supérieures aux baselines sur des tâches de manipulation sensibles à la précision. L'équipe propose également une augmentation de données par injection de bruit de télé-opération humaine, simulant les imperfections naturelles des démonstrations collectées par opérateur. Cette approche répond à un défi structurel persistant de l'apprentissage par imitation (behavior cloning) : les politiques standards peinent à concilier cohérence globale du mouvement et précision locale au moment du contact. En séparant explicitement ces deux niveaux via la décomposition spectrale, CSP évite que les perturbations haute fréquence ne corrompent la planification de trajectoire, et inversement. La robustesse aux démonstrations bruitées est particulièrement pertinente pour les intégrateurs industriels qui collectent des données de télé-opération à grande échelle, où la qualité des démonstrations est intrinsèquement variable. Cela adresse aussi partiellement le problème du sim-to-real gap : traiter séparément la dynamique globale et les ajustements fins rend la politique moins sensible aux écarts entre simulation et réel. CSP s'inscrit dans un mouvement plus large de raffinement des politiques d'imitation, qui a vu émerger ces dernières années Diffusion Policy (Chi et al., 2023), ACT (Action Chunking with Transformers) ou des modèles VLA comme Pi-0 de Physical Intelligence et OpenVLA. Là où ces approches misent sur l'expressivité de l'architecture ou le volume de données d'entraînement, CSP parie sur un biais inductif structurel emprunté au traitement du signal. Il s'agit à ce stade d'un résultat de preprint sans déploiement industriel annoncé. Les prochaines étapes naturelles incluent des benchmarks sur des tâches de haute précision type assemblage ou vissage, et une validation sur des plateformes matérielles standardisées comme Franka ou UR.

RechercheOpinion

1 source

Politique de diffusion supervisée par ensembles : apprentissage du découpage d'actions par corrections

À lire aussi

Des étiquettes aux ensembles d'actions : repenser la supervision pour l'apprentissage par imitation à partir de retours correctifs

Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques

Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close

Apprentissage de politiques hiérarchiques par décomposition spectrale