Aller au contenu principal
Des étiquettes aux ensembles d'actions : repenser la supervision pour l'apprentissage par imitation à partir de retours correctifs
RecherchearXiv cs.RO7sem

Des étiquettes aux ensembles d'actions : repenser la supervision pour l'apprentissage par imitation à partir de retours correctifs

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Le comportement par clonage (behavior cloning, BC) est l'une des méthodes les plus utilisées pour entraîner des politiques robotiques à partir de démonstrations humaines : chaque geste fourni par l'opérateur y est traité comme une étiquette exacte à reproduire. Des chercheurs ont publié en février 2025 (arXiv:2502.07645, version 3 disponible) une alternative baptisée CLIC, Contrastive policy Learning from Interactive Corrections, qui remplace ces étiquettes ponctuelles par des cibles dites à ensemble de valeurs (set-valued action targets). Au lieu d'optimiser la politique vers un seul geste cible, CLIC utilise les corrections humaines en temps réel pour construire et affiner des ensembles d'actions désirées, puis entraîne le modèle à placer de la masse de probabilité sur cet ensemble plutôt que sur un point unique.

Cette reformulation adresse un problème connu mais sous-estimé du BC classique : lorsque les démonstrations humaines sont imparfaites, gestes partiels, corrections relatives ("un peu plus à gauche"), ambiguïtés multimodales, forcer la politique à reproduire chaque label à la lettre peut la faire dériver loin du comportement voulu, notamment avec des modèles expressifs tels que les energy-based models (EBMs). Les expériences en simulation et sur robot réel montrent que CLIC reste compétitif avec l'état de l'art quand les données sont propres, et se révèle substantiellement plus robuste sous données bruitées, corrections relatives ou feedback partiel. Pour les équipes de déploiement robotique, c'est une voie concrète pour réduire les coûts de collecte de démonstrations de haute qualité : CLIC tolère des opérateurs moins expérimentés ou des interfaces de téléopération imprécises sans dégradation majeure des performances.

Le BC reste une brique fondamentale de l'apprentissage par imitation, popularisé par les travaux de Pieter Abbeel au début des années 2000 et au coeur aujourd'hui des politiques VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou les politiques diffusion-based d'OpenPI. CLIC s'inscrit dans un courant "human-in-the-loop" qui inclut DAgger, HG-DAgger et TAMER, mais se distingue par la formalisation ensembliste des corrections. Le code et les environnements de test sont disponibles publiquement sur clic-webpage.github.io. Les auteurs n'annoncent pas de partenariat industriel ni de déploiement terrain, ce qui positionne ce travail comme une contribution aux fondations méthodologiques de l'imitation learning, avec des implications directes pour les pipelines de téléopération et de fine-tuning de politiques générales.

Impact France/UE

Impact indirect : la méthode CLIC, en réduisant les besoins en démonstrations de haute qualité, pourrait bénéficier aux équipes de R&D robotique européennes travaillant sur des pipelines d'imitation learning et de téléopération, sans lien direct avec un acteur français ou une réglementation UE.

À lire aussi

Politique de diffusion supervisée par ensembles : apprentissage du découpage d'actions par corrections
1arXiv cs.RO 

Politique de diffusion supervisée par ensembles : apprentissage du découpage d'actions par corrections

Des chercheurs proposent Set-Supervised Diffusion Policy (SDP), un cadre d'entraînement pour politiques de diffusion appliquées à la manipulation robotique, publié en preprint sur arXiv le 2 juin 2026 (arXiv:2606.01865). La méthode exploite les corrections humaines lors du déploiement comme signal d'entraînement contrastif : quand un robot échoue et qu'un opérateur corrige sa trajectoire, le système enregistre à la fois l'action-chunk non désirée du robot et l'action-chunk corrective de l'humain. SDP construit à partir de ces paires un ensemble d'action-chunks désirés, puis entraîne la politique de diffusion à s'aligner sur cet ensemble via une loss contrastive. Des expériences sur plusieurs tâches de manipulation valident l'approche, avec des gains particulièrement nets en robustesse aux données bruitées et en efficacité d'agrégation de données. Le problème visé est fondamental en imitation learning : le distributional shift. Un robot entraîné par behavior cloning sur des démonstrations d'expert sort rapidement du domaine dès le déploiement, ce qui dégrade ses performances et force des interventions humaines répétées. Les pipelines d'agrégation de données de type DAgger ajoutent des démonstrations correctives, mais ignorent le signal négatif, c'est-à-dire les actions erronées du robot lui-même. Résultat : surapprentissage sur les démonstrations de l'enseignant, et besoin croissant de données expertes coûteuses. SDP inverse la logique en intégrant ce signal négatif explicitement dans la fonction de perte, réduisant la dépendance aux démonstrations coûteuses tout en produisant des datasets agrégés de meilleure qualité. Les politiques de diffusion pour la robotique ont émergé comme référence depuis les travaux de Chi et al. (Diffusion Policy, 2023), et l'action chunking a été popularisé par ACT (Zhao et al., 2023). L'apprentissage par correction interactive remonte à DAgger (Ross et al., 2011). Physical Intelligence avec π0, ou des variantes RLHF adaptées à la robotique, explorent des voies proches sans pour autant exploiter explicitement le signal contrastif issu des actions indésirables. SDP se positionne comme une brique modulaire greffable sur des architectures de diffusion existantes : le code est disponible publiquement. Les suites naturelles pointent vers une mise à l'échelle sur des tâches de manipulation longue-durée et des robots mobiles, où le coût de collecte de données expertes est un vrai frein industriel.

RechercheOpinion
1 source
Politiques de récupération sensibles aux différences pour l'apprentissage par imitation
2arXiv cs.RO 

Politiques de récupération sensibles aux différences pour l'apprentissage par imitation

Une équipe du Weird Lab de l'Université de Washington publie sur arXiv (arXiv:2606.09758, juin 2026) une méthode appelée DARP (Difference-Aware Retrieval Policies for Imitation Learning), une approche semi-paramétrique d'apprentissage par imitation. Le principe central : plutôt que d'apprendre un mapping global état-action via un réseau de neurones pur (behavior cloning standard), DARP entraîne un modèle à prédire des actions en s'appuyant sur les k plus proches voisins (k-NN) extraits des démonstrations expertes, leurs actions associées, et les vecteurs de distance relative entre les états voisins et l'état requête courant. En reformulant le problème d'imitation en termes de structure de voisinage local plutôt que de mappings directs, la méthode revendique des gains de performance de 15 à 46 % sur behavior cloning standard, mesurés sur des benchmarks de contrôle continu et de manipulation robotique, y compris avec des représentations visuelles haute dimension. L'amplitude de cette fourchette suggère des variations importantes selon les tâches et les domaines évalués. L'intérêt concret de DARP réside dans sa capacité à atténuer le problème de "compounding errors" : lors du déploiement, un agent entraîné par behavior cloning accumule des erreurs en rencontrant des états hors distribution, dégradant rapidement les performances. En réutilisant les données d'entraînement au moment de l'inférence, DARP introduit une forme de mémoire épisodique sans nécessiter de collecte de données supplémentaires, de feedback expert en ligne, ni de connaissance spécifique à la tâche. C'est là la distinction clé vis-à-vis de méthodes comme DAgger (Ross et Bagnell, 2011), qui résolvent la distribution shift mais exigent des requêtes à l'expert pendant l'entraînement, une contrainte souvent rédhibitoire en robotique industrielle réelle. Le behavior cloning reste une méthode de référence pour son absence de contraintes opérationnelles, mais sa fragilité face à la distribution shift en limite la portée pour des déploiements à grande échelle. DARP s'inscrit dans un courant de méthodes semi-paramétriques qui connaît un regain d'intérêt avec la montée des politiques génératives : l'idée de conserver explicitement une mémoire des démonstrations plutôt que de tout comprimer dans des poids de réseau est cohérente avec les architectures hybrides actuelles, comme les VLA Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les résultats sur représentations visuelles haute dimension ouvrent la voie à des applications sur des manipulateurs avec vision RGB, domaine où les approches purement paramétriques montrent encore des limites significatives. Le code et les démonstrations sont disponibles publiquement via le site des auteurs.

RecherchePaper
1 source
Retargeting dynamique direct pour l'apprentissage par imitation des humanoïdes à partir de vidéos
3arXiv cs.RO 

Retargeting dynamique direct pour l'apprentissage par imitation des humanoïdes à partir de vidéos

Une nouvelle méthode d'apprentissage par imitation pour robots humanoïdes vient d'être publiée sur arXiv (2605.23762, mai 2026), proposant un cadre à étape unique baptisé Direct Dynamic Retargeting (DDR). L'objectif est d'apprendre des comportements moteurs complexes à partir de simples vidéos monoculaires de démonstration humaine, sans capteurs de mouvement ni combinaisons de capture. Le défi central est morphologique : un humain et un robot humanoïde ne partagent ni les mêmes proportions, ni les mêmes centres de masse, ni les mêmes contraintes articulaires, ce qui rend la transposition directe des trajectoires impossible. Les approches standards, dites Geometric Retargeting ou Indirect Dynamic Retargeting, projettent d'abord le mouvement humain dans un espace cinématique intermédiaire avant de générer les commandes robot, introduisant ce que les auteurs appellent un biais géométrique qui restreint l'espace de solutions et produit des comportements sous-optimaux. DDR supprime cette étape intermédiaire en formulant le problème directement dans l'espace des tâches (task space), couplé à un solveur de contrôle prédictif par modèle (Model Predictive Control, MPC) à base d'échantillonnage, exécuté au sein d'un simulateur physique. Ce couplage permet au système d'optimiser nativement les séquences de contact sol-pied tout en limitant la dérive des entrées, garantissant la faisabilité dynamique des trajectoires générées. Les expériences montrent que DDR surpasse les méthodes de référence en précision de suivi des démonstrations. Plus significatif pour les praticiens : fournir ces références physiquement viables à un agent d'apprentissage par renforcement accélère la convergence de l'entraînement et améliore l'exécution finale de comportements agiles et d'équilibrage dynamique. L'apprentissage par imitation à partir de vidéo est devenu un axe majeur de la robotique humanoïde, porté par des travaux comme Pi-0 de Physical Intelligence ou les pipelines de données de téléopération développés chez Figure AI et Agility Robotics. Ces approches cherchent à exploiter l'immense corpus de vidéos de mouvements humains disponibles en ligne pour réduire le coût prohibitif de la collecte de données sur robot. DDR s'inscrit dans cette tendance mais attaque le problème par la dynamique plutôt que par la géométrie, un pari prometteur qui reste à valider en conditions réelles : aucun résultat physique sur robot n'est présenté dans cet article, uniquement des évaluations en simulation. Le code source sera rendu public, ce qui permettra à la communauté de reproduire et d'étendre ces résultats.

RecherchePaper
1 source
SCAR : apprentissage auto-supervisé de représentations d'actions continues
4arXiv cs.RO 

SCAR : apprentissage auto-supervisé de représentations d'actions continues

Une équipe de chercheurs a publié début mai 2026 sur arXiv (référence 2605.16412) un framework baptisé SCAR, pour Self-Supervised Continuous Action Representation Learning, visant à apprendre des représentations d'actions unifiées et transférables entre différents robots à partir de simples transitions visuelles. L'architecture repose sur un backbone génératif préentraîné, couplé à deux modules complémentaires : un modèle de dynamique inverse (IDM) qui infère des actions latentes à partir de paires d'observations, et un modèle de dynamique directe (FDM) qui prédit les états futurs conditionnés sur ces actions latentes. Pour éviter que l'espace latent ne devienne un simple goulot d'étranglement visuel générique, les auteurs régularisent la distribution postérieure des actions vers un prior gaussien standard, et introduisent une contrainte d'invariance adversariale pour supprimer les facteurs propres à chaque morphologie de robot ou à chaque environnement. Les expériences sont conduites sur les benchmarks Procgen et Robotwin, et montrent que SCAR surpasse les actions brutes spécifiques à chaque embodiment comme interface de conditionnement pour les world models, notamment en régimes de faibles données. L'enjeu industriel est significatif : l'un des verrous les plus coûteux du déploiement robotique est précisément le besoin de recollecte massive de données à chaque changement de plateforme matérielle. Si une représentation d'action partagée peut effectivement abstraire le "changement contrôlable" indépendamment de l'actuation physique, les intégrateurs pourraient réutiliser des world models pré-entraînés sur un robot pour en adapter un autre avec beaucoup moins d'exemples. SCAR apporte un argument empirique au débat sur la transférabilité des VLA (Vision-Language-Action models) : là où des architectures comme pi-0 ou GR00T N2 s'appuient sur des actions en espace proprioceptif brut, l'approche latente supervisée de façon auto-cohérente pourrait constituer une interface de conditionnement plus robuste. Le contexte est celui d'une compétition intense autour des world models pour la robotique, portée côté industrie par des acteurs comme Physical Intelligence (pi-0), NVIDIA (GR00T), et Figure AI, et côté académique par des travaux sur les modèles d'espace d'état et les représentations de politique. SCAR se distingue en traitant l'action non comme un signal de contrôle auxiliaire mais comme un facteur représentationnel à part entière, ce qui est une position théorique distincte des approches VLA classiques. Les auteurs ne mentionnent pas de code public ni de partenariat industriel dans la prépublication, et les résultats restent à confirmer sur des benchmarks physiques réels, Procgen et Robotwin étant deux environnements de simulation. L'absence de métriques sur du matériel réel est à garder à l'esprit avant toute extrapolation vers des cas industriels.

UESi validé sur matériel physique, ce framework de représentation d'actions transférables pourrait réduire les coûts de ré-entraînement pour les intégrateurs robotiques européens lors du changement de plateforme matérielle.

RechercheOpinion
1 source