Aller au contenu principal
RecherchearXiv cs.RO2h

Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (réf. 2606.01238) une approche baptisée Closed-Form Diffusion Policies (CFDP), qui supprime entièrement la phase d'entraînement offline des politiques de diffusion pour l'apprentissage par imitation. Plutôt que d'entraîner un réseau de neurones pendant plusieurs heures, CFDP calcule analytiquement la fonction score directement à partir du jeu de démonstrations, en forme fermée. Résultat : une politique opérationnelle en quelques millisecondes, déployée et testée en temps réel sur un CPU mobile standard, sans GPU dédié.

L'enjeu industriel est direct : dans le cycle données → politique → déploiement → nouvelles données, la phase d'entraînement constitue aujourd'hui le principal goulot d'étranglement. Pouvoir générer une politique compétitive à partir d'un dataset de démonstrations sans entraînement réduit ce délai de plusieurs heures à quelques millisecondes. Sur les benchmarks d'imitation learning testés, CFDP se montre compétitif face aux baselines neuronales classiques, qui nécessitent elles des heures de calcul. Cela remet en cause l'hypothèse selon laquelle la puissance expressive des politiques de diffusion est indissociable de leur coût computationnel. Pour les intégrateurs robotiques ou les équipes de recherche appliquée qui itèrent fréquemment sur leurs démos, ce type de pipeline sans entraînement change concrètement le rythme de développement.

Les politiques de diffusion ont émergé comme référence en manipulation robotique ces deux dernières années, avec des travaux notables comme Diffusion Policy (Chi et al., 2023) ou Pi-0 (Physical Intelligence). Leur principal défaut reconnu reste précisément le coût d'entraînement et la rigidité vis-à-vis de nouvelles démonstrations. CFDP s'inscrit dans ce contexte comme un primitif composable : les auteurs montrent qu'il peut s'interfacer avec des politiques neuronales pré-entraînées existantes, permettant du policy guidance ou de l'augmentation de démonstrations à l'inférence. Aucun déploiement industriel ni partenariat applicatif n'est annoncé à ce stade ; il s'agit d'un preprint académique, dont les résultats restent à valider sur des tâches plus complexes et des robots à dextérité élevée.

À lire aussi

Instrumentation pour l'apprentissage par imitation : enrichissement des données d'entraînement pour l'insertion de cintres
1arXiv cs.RO 

Instrumentation pour l'apprentissage par imitation : enrichissement des données d'entraînement pour l'insertion de cintres

Des chercheurs ont publié en mai 2026 sur arXiv (2605.23847) une étude portant sur l'instrumentation des objets manipulés comme levier pour améliorer l'apprentissage par imitation en robotique. La tâche choisie est l'insertion d'un cintre sur une tringle, opération représentative des défis de manipulation fine avec contact. L'équipe a collecté 180 démonstrations téléopérées pour entraîner des politiques de diffusion (diffusion policies), en comparant des variantes avec et sans accès aux données d'instrumentation, c'est-à-dire des capteurs intégrés directement dans l'objet manipulé plutôt que dans le robot. Les résultats montrent que les politiques exploitant ces signaux surpassent les variantes vision-only de 14 à 25 points de pourcentage, avec une meilleure conscience de la tâche. Point notable : une politique boîte noire apprend à prioriser spontanément les signaux capteurs sans guidage explicite lors de l'entraînement. Une approche student-teacher complète le tableau : en enrichissant le jeu de données avec des rollouts générés par un expert instrumenté, une politique vision-only étudiante atteint des performances comparables à cet expert, surpassant ainsi la ligne de base vision-only originale. Les datasets sont disponibles sur Zenodo. Ce résultat adresse un verrou structurel du domaine : les grands modèles de comportement (large behaviour models) pour la manipulation robotique restent bridés par des exigences de données prohibitives, contrairement aux modèles de vision-langage qui ont pu capitaliser sur des corpus massifs issus d'internet. L'instrumentation des objets, en fournissant des informations d'état précises sur les contacts et les forces lors de chaque démonstration, augmente la densité informationnelle sans multiplier le nombre de démos. L'approche student-teacher est particulièrement stratégique pour le déploiement industriel : elle permet de distiller la connaissance sensorielle dans un modèle déployable avec une simple caméra, sans instrumentation permanente de la production. Ces travaux s'inscrivent dans une dynamique plus large autour des politiques de diffusion en manipulation, popularisées par Chi et al. (2023) et intégrées dans des systèmes comme Pi-0 (Physical Intelligence) ou ACT. La piste de l'instrumentation rejoint des efforts parallèles sur les peaux tactiles et les capteurs force-couple, explorés notamment par MIT CSAIL, ETH Zurich, et des équipes INRIA côté européen. La portée reste cependant à nuancer : 180 démos sur une tâche de laboratoire contrôlée ne constitue pas une validation à l'échelle industrielle, et les auteurs ne rapportent aucune expérience en environnement de production réel. La mise à disposition publique des données sur Zenodo ouvre toutefois la voie à des reproductions et extensions indépendantes sur des tâches plus complexes.

UELes équipes INRIA et laboratoires européens travaillant sur les politiques de diffusion pour la manipulation peuvent directement exploiter les datasets publics Zenodo et reproduire l'approche student-teacher pour améliorer l'efficacité de leurs pipelines d'apprentissage par imitation.

RechercheOpinion
1 source
2arXiv cs.RO 

Politique de diffusion supervisée par ensembles : apprentissage du découpage d'actions par corrections

Des chercheurs proposent Set-Supervised Diffusion Policy (SDP), un cadre d'entraînement pour politiques de diffusion appliquées à la manipulation robotique, publié en preprint sur arXiv le 2 juin 2026 (arXiv:2606.01865). La méthode exploite les corrections humaines lors du déploiement comme signal d'entraînement contrastif : quand un robot échoue et qu'un opérateur corrige sa trajectoire, le système enregistre à la fois l'action-chunk non désirée du robot et l'action-chunk corrective de l'humain. SDP construit à partir de ces paires un ensemble d'action-chunks désirés, puis entraîne la politique de diffusion à s'aligner sur cet ensemble via une loss contrastive. Des expériences sur plusieurs tâches de manipulation valident l'approche, avec des gains particulièrement nets en robustesse aux données bruitées et en efficacité d'agrégation de données. Le problème visé est fondamental en imitation learning : le distributional shift. Un robot entraîné par behavior cloning sur des démonstrations d'expert sort rapidement du domaine dès le déploiement, ce qui dégrade ses performances et force des interventions humaines répétées. Les pipelines d'agrégation de données de type DAgger ajoutent des démonstrations correctives, mais ignorent le signal négatif, c'est-à-dire les actions erronées du robot lui-même. Résultat : surapprentissage sur les démonstrations de l'enseignant, et besoin croissant de données expertes coûteuses. SDP inverse la logique en intégrant ce signal négatif explicitement dans la fonction de perte, réduisant la dépendance aux démonstrations coûteuses tout en produisant des datasets agrégés de meilleure qualité. Les politiques de diffusion pour la robotique ont émergé comme référence depuis les travaux de Chi et al. (Diffusion Policy, 2023), et l'action chunking a été popularisé par ACT (Zhao et al., 2023). L'apprentissage par correction interactive remonte à DAgger (Ross et al., 2011). Physical Intelligence avec π0, ou des variantes RLHF adaptées à la robotique, explorent des voies proches sans pour autant exploiter explicitement le signal contrastif issu des actions indésirables. SDP se positionne comme une brique modulaire greffable sur des architectures de diffusion existantes : le code est disponible publiquement. Les suites naturelles pointent vers une mise à l'échelle sur des tâches de manipulation longue-durée et des robots mobiles, où le coût de collecte de données expertes est un vrai frein industriel.

RechercheOpinion
1 source
ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits
3arXiv cs.RO 

ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits

ExpertGen est un framework de recherche publié sur arXiv (2603.15956) qui automatise l'apprentissage de politiques de manipulation robotique en simulation pour en faciliter le transfert vers du matériel réel. Le système initialise une politique de diffusion à partir de démonstrations imparfaites, générées par un grand modèle de langage ou fournies manuellement, puis applique du renforcement pour l'affiner sans jamais modifier les poids du modèle préentraîné. L'optimisation porte uniquement sur le bruit initial de la diffusion, ce qui maintient l'exploration dans des trajectoires cohérentes avec le comportement humain, même avec des récompenses binaires éparses. Sur les benchmarks publiés, ExpertGen atteint 90,5 % de succès sur des tâches d'assemblage industriel et 85 % sur des tâches de manipulation à long horizon, surpassant toutes les méthodes de référence testées. Le transfert sim-to-réel est validé par distillation DAgger : les politiques d'état apprises en simulation sont converties en politiques visuomotrices et déployées sur du matériel robotique physique. Ce résultat s'attaque directement au principal goulot d'étranglement du robot learning industriel : la collecte de données de qualité. La téléopération à grande échelle est coûteuse, lente et ne se généralise pas. ExpertGen propose une alternative crédible en utilisant des démonstrations imparfaites, y compris synthétiques, comme amorce, puis en laissant le renforcement corriger l'écart de qualité en simulation. Le fait de geler la politique de diffusion est une décision architecturale clé : elle évite le mode collapse typique du fine-tuning RL sur des politiques expressives, tout en permettant la convergence sans reward engineering manuel. Pour les intégrateurs industriels, c'est un signal concret que le sim-to-real gap sur des tâches d'assemblage n'est pas insurmontable, à condition de disposer d'un simulateur suffisamment fidèle. Ce travail s'inscrit dans la vague des politiques de diffusion pour la robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et prolongée par des systèmes comme pi-zero de Physical Intelligence ou les politiques dextères développées chez Google DeepMind et NVIDIA avec GR00T N2. ExpertGen reste pour l'instant un résultat académique : les métriques de succès sont issues de benchmarks de simulation contrôlés, et le déploiement réel mentionné dans le papier est préliminaire. Aucune timeline commerciale ni partenaire industriel ne sont annoncés. Les prochaines étapes logiques incluent des tests de robustesse à des variations de capteurs et d'environnement plus sévères, ainsi qu'une intégration éventuelle avec des politiques de fondation multimodales pour généraliser au-delà des tâches d'assemblage structurées.

RechercheOpinion
1 source
Politique CoLA-Flow : apprentissage par imitation temporellement cohérent via le flux d'actions latentes continues pour la manipulation robotique
4arXiv cs.RO 

Politique CoLA-Flow : apprentissage par imitation temporellement cohérent via le flux d'actions latentes continues pour la manipulation robotique

Une équipe de chercheurs a publié sur arXiv (2501.23087, version 3 en mai 2026) CoLA-Flow Policy, un framework d'apprentissage par imitation conçu pour la manipulation robotique sur des horizons d'action longs. L'approche combine le flow matching, une technique générative plus rapide que la diffusion, avec un espace d'action latent continu dans lequel les trajectoires sont encodées avant l'apprentissage du flux. Sur bancs de simulation et sur robots réels, les expériences affichent une amélioration de la régularité des trajectoires allant jusqu'à 93,7 % et un gain de taux de succès allant jusqu'à 25 points de pourcentage par rapport aux baselines de flow matching opérant directement dans l'espace d'action brut. L'inférence s'effectue en quasi-un seul pas, soit une vitesse nettement supérieure aux politiques basées sur la diffusion, qui nécessitent plusieurs étapes de débruitage. Le principal apport de CoLA-Flow est de découpler la structure globale du mouvement du bruit de contrôle bas niveau : en encodant les séquences d'actions en trajectoires latentes temporellement cohérentes, le modèle évite les oscillations et incohérences qui affectent les politiques de flow matching en espace brut. Pour un intégrateur ou un décideur industriel, cela signifie qu'une même architecture peut traiter des tâches de manipulation complexes sans latence rédhibitoire ni comportement erratique entre les étapes. Le conditionnement par nuages de points (point cloud) et la modulation multimodale à l'exécution via des indices visuels renforcent la robustesse dans des environnements réels non contrôlés, deux exigences critiques pour tout déploiement hors laboratoire. Ce travail s'inscrit dans une compétition intense entre architectures génératives pour les politiques robotiques. Diffusion Policy (Chi et al., 2023) a établi la référence en termes d'expressivité comportementale, mais son coût computationnel freine l'usage temps réel. Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA ont validé le flow matching comme alternative viable, au prix d'une instabilité accrue sur les horizons longs, précisément le problème que CoLA-Flow tente de résoudre via l'espace latent. Le framework s'apparente conceptuellement aux approches d'action chunking (ACT), mais opère au niveau du flux plutôt que de la prédiction directe. La troisième version de l'article suggère des révisions itératives significatives depuis janvier 2026 ; aucun déploiement industriel ni partenariat commercial n'est mentionné à ce stade, et les benchmarks présentés restent limités à des environnements de manipulation contrôlés.

RechercheOpinion
1 source