Aller au contenu principal
Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques
RecherchearXiv cs.RO3h

Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs proposent ORCHID, un cadre d'auto-entraînement présenté sur arXiv (2603.05291) qui s'attaque à un problème structurel de la manipulation robotique longue durée : la désynchronisation entre planificateur haut niveau et contrôleur bas niveau au sein des politiques hiérarchiques. Dans ces architectures, un planificateur décompose une instruction en langage naturel en sous-objectifs intermédiaires, que le contrôleur exécute physiquement. La difficulté est que les deux modules, entraînés séparément, opèrent sur des distributions de sous-objectifs incompatibles. ORCHID corrige cela en ligne : le système génère des trajectoires, les filtre selon le feedback de l'environnement (réussite ou échec de la tâche complète), puis distille les trajectoires conjointement réussies dans les deux modules via apprentissage supervisé. Il en résulte une co-adaptation bidirectionnelle : le planificateur ancre ses sous-objectifs dans les capacités réelles du contrôleur, tandis que le contrôleur se spécialise dans les structures de trajectoire que produit le planificateur. Sur le benchmark CALVIN, référence pour la manipulation séquentielle guidée par le langage, un modèle léger entraîné avec ORCHID surpasse les méthodes purement offline, y compris un modèle Vision-Language-Action (VLA) deux fois plus grand en paramètres.

L'impact est notable sur deux points. En termes d'efficacité paramétrique, qu'un modèle léger dépasse un VLA deux fois plus lourd remet en question l'hypothèse courante que l'échelle seule suffit pour les tâches complexes. En termes de stabilité d'entraînement, combiner RL hiérarchique et modèles de diffusion est notoirement instable à cause de la propagation des gradients. ORCHID contourne ce problème en substituant la distillation supervisée sur échantillons filtrés au RL gradient classique, une voie potentiellement plus praticable dans les contextes industriels où la reproductibilité de l'entraînement est critique. Le mécanisme de co-adaptation proposé constitue un principe architectural plus général, transférable à d'autres familles de politiques hiérarchiques au-delà des modèles de diffusion.

Le travail s'inscrit dans la dynamique actuelle autour des politiques de diffusion pour la robotique, portée par des frameworks comme Diffusion Policy (Chi et al., 2023) et π₀ de Physical Intelligence. ORCHID se distingue en ciblant non l'architecture mais la coordination inter-niveaux, un aspect souvent sous-traité par les approches VLA end-to-end qui fusionnent planification et contrôle dans un seul réseau. Le benchmark CALVIN, développé à l'Université de Freiburg, est la référence principale pour évaluer la généralisation en manipulation séquentielle sur des tâches à horizon long. Les prochaines étapes naturelles incluent une validation sur robots physiques et une extension à des horizons temporels plus longs, deux points que cet article n'aborde pas encore.

À lire aussi

Politique de diffusion supervisée par ensembles : apprentissage du découpage d'actions par corrections
1arXiv cs.RO 

Politique de diffusion supervisée par ensembles : apprentissage du découpage d'actions par corrections

Des chercheurs proposent Set-Supervised Diffusion Policy (SDP), un cadre d'entraînement pour politiques de diffusion appliquées à la manipulation robotique, publié en preprint sur arXiv le 2 juin 2026 (arXiv:2606.01865). La méthode exploite les corrections humaines lors du déploiement comme signal d'entraînement contrastif : quand un robot échoue et qu'un opérateur corrige sa trajectoire, le système enregistre à la fois l'action-chunk non désirée du robot et l'action-chunk corrective de l'humain. SDP construit à partir de ces paires un ensemble d'action-chunks désirés, puis entraîne la politique de diffusion à s'aligner sur cet ensemble via une loss contrastive. Des expériences sur plusieurs tâches de manipulation valident l'approche, avec des gains particulièrement nets en robustesse aux données bruitées et en efficacité d'agrégation de données. Le problème visé est fondamental en imitation learning : le distributional shift. Un robot entraîné par behavior cloning sur des démonstrations d'expert sort rapidement du domaine dès le déploiement, ce qui dégrade ses performances et force des interventions humaines répétées. Les pipelines d'agrégation de données de type DAgger ajoutent des démonstrations correctives, mais ignorent le signal négatif, c'est-à-dire les actions erronées du robot lui-même. Résultat : surapprentissage sur les démonstrations de l'enseignant, et besoin croissant de données expertes coûteuses. SDP inverse la logique en intégrant ce signal négatif explicitement dans la fonction de perte, réduisant la dépendance aux démonstrations coûteuses tout en produisant des datasets agrégés de meilleure qualité. Les politiques de diffusion pour la robotique ont émergé comme référence depuis les travaux de Chi et al. (Diffusion Policy, 2023), et l'action chunking a été popularisé par ACT (Zhao et al., 2023). L'apprentissage par correction interactive remonte à DAgger (Ross et al., 2011). Physical Intelligence avec π0, ou des variantes RLHF adaptées à la robotique, explorent des voies proches sans pour autant exploiter explicitement le signal contrastif issu des actions indésirables. SDP se positionne comme une brique modulaire greffable sur des architectures de diffusion existantes : le code est disponible publiquement. Les suites naturelles pointent vers une mise à l'échelle sur des tâches de manipulation longue-durée et des robots mobiles, où le coût de collecte de données expertes est un vrai frein industriel.

RechercheOpinion
1 source
Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close
2arXiv cs.RO 

Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close

Des chercheurs ont publié sur arXiv (réf. 2606.01238) une approche baptisée Closed-Form Diffusion Policies (CFDP), qui supprime entièrement la phase d'entraînement offline des politiques de diffusion pour l'apprentissage par imitation. Plutôt que d'entraîner un réseau de neurones pendant plusieurs heures, CFDP calcule analytiquement la fonction score directement à partir du jeu de démonstrations, en forme fermée. Résultat : une politique opérationnelle en quelques millisecondes, déployée et testée en temps réel sur un CPU mobile standard, sans GPU dédié. L'enjeu industriel est direct : dans le cycle données → politique → déploiement → nouvelles données, la phase d'entraînement constitue aujourd'hui le principal goulot d'étranglement. Pouvoir générer une politique compétitive à partir d'un dataset de démonstrations sans entraînement réduit ce délai de plusieurs heures à quelques millisecondes. Sur les benchmarks d'imitation learning testés, CFDP se montre compétitif face aux baselines neuronales classiques, qui nécessitent elles des heures de calcul. Cela remet en cause l'hypothèse selon laquelle la puissance expressive des politiques de diffusion est indissociable de leur coût computationnel. Pour les intégrateurs robotiques ou les équipes de recherche appliquée qui itèrent fréquemment sur leurs démos, ce type de pipeline sans entraînement change concrètement le rythme de développement. Les politiques de diffusion ont émergé comme référence en manipulation robotique ces deux dernières années, avec des travaux notables comme Diffusion Policy (Chi et al., 2023) ou Pi-0 (Physical Intelligence). Leur principal défaut reconnu reste précisément le coût d'entraînement et la rigidité vis-à-vis de nouvelles démonstrations. CFDP s'inscrit dans ce contexte comme un primitif composable : les auteurs montrent qu'il peut s'interfacer avec des politiques neuronales pré-entraînées existantes, permettant du policy guidance ou de l'augmentation de démonstrations à l'inférence. Aucun déploiement industriel ni partenariat applicatif n'est annoncé à ce stade ; il s'agit d'un preprint académique, dont les résultats restent à valider sur des tâches plus complexes et des robots à dextérité élevée.

RechercheOpinion
1 source
Politiques de récupération sensibles aux différences pour l'apprentissage par imitation
3arXiv cs.RO 

Politiques de récupération sensibles aux différences pour l'apprentissage par imitation

Une équipe du Weird Lab de l'Université de Washington publie sur arXiv (arXiv:2606.09758, juin 2026) une méthode appelée DARP (Difference-Aware Retrieval Policies for Imitation Learning), une approche semi-paramétrique d'apprentissage par imitation. Le principe central : plutôt que d'apprendre un mapping global état-action via un réseau de neurones pur (behavior cloning standard), DARP entraîne un modèle à prédire des actions en s'appuyant sur les k plus proches voisins (k-NN) extraits des démonstrations expertes, leurs actions associées, et les vecteurs de distance relative entre les états voisins et l'état requête courant. En reformulant le problème d'imitation en termes de structure de voisinage local plutôt que de mappings directs, la méthode revendique des gains de performance de 15 à 46 % sur behavior cloning standard, mesurés sur des benchmarks de contrôle continu et de manipulation robotique, y compris avec des représentations visuelles haute dimension. L'amplitude de cette fourchette suggère des variations importantes selon les tâches et les domaines évalués. L'intérêt concret de DARP réside dans sa capacité à atténuer le problème de "compounding errors" : lors du déploiement, un agent entraîné par behavior cloning accumule des erreurs en rencontrant des états hors distribution, dégradant rapidement les performances. En réutilisant les données d'entraînement au moment de l'inférence, DARP introduit une forme de mémoire épisodique sans nécessiter de collecte de données supplémentaires, de feedback expert en ligne, ni de connaissance spécifique à la tâche. C'est là la distinction clé vis-à-vis de méthodes comme DAgger (Ross et Bagnell, 2011), qui résolvent la distribution shift mais exigent des requêtes à l'expert pendant l'entraînement, une contrainte souvent rédhibitoire en robotique industrielle réelle. Le behavior cloning reste une méthode de référence pour son absence de contraintes opérationnelles, mais sa fragilité face à la distribution shift en limite la portée pour des déploiements à grande échelle. DARP s'inscrit dans un courant de méthodes semi-paramétriques qui connaît un regain d'intérêt avec la montée des politiques génératives : l'idée de conserver explicitement une mémoire des démonstrations plutôt que de tout comprimer dans des poids de réseau est cohérente avec les architectures hybrides actuelles, comme les VLA Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les résultats sur représentations visuelles haute dimension ouvrent la voie à des applications sur des manipulateurs avec vision RGB, domaine où les approches purement paramétriques montrent encore des limites significatives. Le code et les démonstrations sont disponibles publiquement via le site des auteurs.

RecherchePaper
1 source
SCAR : apprentissage auto-supervisé de représentations d'actions continues
4arXiv cs.RO 

SCAR : apprentissage auto-supervisé de représentations d'actions continues

Une équipe de chercheurs a publié début mai 2026 sur arXiv (référence 2605.16412) un framework baptisé SCAR, pour Self-Supervised Continuous Action Representation Learning, visant à apprendre des représentations d'actions unifiées et transférables entre différents robots à partir de simples transitions visuelles. L'architecture repose sur un backbone génératif préentraîné, couplé à deux modules complémentaires : un modèle de dynamique inverse (IDM) qui infère des actions latentes à partir de paires d'observations, et un modèle de dynamique directe (FDM) qui prédit les états futurs conditionnés sur ces actions latentes. Pour éviter que l'espace latent ne devienne un simple goulot d'étranglement visuel générique, les auteurs régularisent la distribution postérieure des actions vers un prior gaussien standard, et introduisent une contrainte d'invariance adversariale pour supprimer les facteurs propres à chaque morphologie de robot ou à chaque environnement. Les expériences sont conduites sur les benchmarks Procgen et Robotwin, et montrent que SCAR surpasse les actions brutes spécifiques à chaque embodiment comme interface de conditionnement pour les world models, notamment en régimes de faibles données. L'enjeu industriel est significatif : l'un des verrous les plus coûteux du déploiement robotique est précisément le besoin de recollecte massive de données à chaque changement de plateforme matérielle. Si une représentation d'action partagée peut effectivement abstraire le "changement contrôlable" indépendamment de l'actuation physique, les intégrateurs pourraient réutiliser des world models pré-entraînés sur un robot pour en adapter un autre avec beaucoup moins d'exemples. SCAR apporte un argument empirique au débat sur la transférabilité des VLA (Vision-Language-Action models) : là où des architectures comme pi-0 ou GR00T N2 s'appuient sur des actions en espace proprioceptif brut, l'approche latente supervisée de façon auto-cohérente pourrait constituer une interface de conditionnement plus robuste. Le contexte est celui d'une compétition intense autour des world models pour la robotique, portée côté industrie par des acteurs comme Physical Intelligence (pi-0), NVIDIA (GR00T), et Figure AI, et côté académique par des travaux sur les modèles d'espace d'état et les représentations de politique. SCAR se distingue en traitant l'action non comme un signal de contrôle auxiliaire mais comme un facteur représentationnel à part entière, ce qui est une position théorique distincte des approches VLA classiques. Les auteurs ne mentionnent pas de code public ni de partenariat industriel dans la prépublication, et les résultats restent à confirmer sur des benchmarks physiques réels, Procgen et Robotwin étant deux environnements de simulation. L'absence de métriques sur du matériel réel est à garder à l'esprit avant toute extrapolation vers des cas industriels.

UESi validé sur matériel physique, ce framework de représentation d'actions transférables pourrait réduire les coûts de ré-entraînement pour les intégrateurs robotiques européens lors du changement de plateforme matérielle.

RechercheOpinion
1 source