Aller au contenu principal
ReGIL : apprentissage par imitation guidé par récupération à partir d'une seule démonstration
RecherchearXiv cs.RO4h

ReGIL : apprentissage par imitation guidé par récupération à partir d'une seule démonstration

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs présentent ReGIL (Retrieval-Guided Imitation Learning), un framework d'apprentissage par imitation capable d'entraîner un robot manipulateur à partir d'une seule démonstration. La méthode traite cette démonstration unique comme une mémoire externe statique, interrogée en continu durant l'entraînement pour guider simultanément l'exploration, générer un buffer de régularisation et construire les récompenses. Le calcul de récompense repose sur un alignement temporel local entre la trajectoire courante et le segment récupéré, fournissant un feedback pas-à-pas plutôt qu'un signal binaire succès/échec. Évalué sur les benchmarks LIBERO et Meta-World, ReGIL surpasse les baselines antérieures en taux de réussite et en efficacité d'entraînement. Sur robot réel, avec une seule démonstration et moins d'une heure d'entraînement en ligne, le système atteint plus de 75 % de taux de réussite sur trois tâches de manipulation avec randomisation à la fois de la pose initiale du robot et de la position cible. Ces résultats sont issus d'un preprint arXiv (2606.09381) et n'ont pas encore été soumis à revue par les pairs.

Le principal défi que ReGIL cherche à résoudre est connu sous le nom de "compounding error" : en imitation learning classique (behavior cloning), les petites déviations par rapport à la trajectoire démontrée s'accumulent et mènent rapidement à l'échec, ce qui oblige généralement à collecter des centaines, voire des milliers de démonstrations. Ramener ce seuil à une seule démonstration plus moins d'une heure d'interaction en ligne représente un gain opérationnel significatif pour le déploiement industriel, où la collecte de données est coûteuse. Le taux de 75 % obtenu avec randomisation de pose et de cible est un indicateur de robustesse plus solide qu'une démonstration en conditions fixes, même si l'absence de détails sur les tâches spécifiques et la complexité des scènes limite l'interprétation.

L'apprentissage par imitation à faible nombre de démonstrations est un axe de recherche très actif, concurrencé notamment par les modèles VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence ou les politiques de diffusion (Diffusion Policy, ACT). Ces approches misent sur des grandes quantités de données préentraînées pour compenser la rareté des démos spécifiques à une tâche, là où ReGIL propose une alternative radicalement data-light. Le benchmark LIBERO est devenu un standard de fait pour comparer ces méthodes en simulation, et Meta-World permet d'évaluer la généralisation multi-tâches. La prochaine étape logique serait une validation sur des tâches de manipulation plus complexes et une publication dans une conférence de robotique (ICRA, CoRL, RSS) pour valider les claims de manière indépendante.

À lire aussi

Politiques de récupération sensibles aux différences pour l'apprentissage par imitation
1arXiv cs.RO 

Politiques de récupération sensibles aux différences pour l'apprentissage par imitation

Une équipe du Weird Lab de l'Université de Washington publie sur arXiv (arXiv:2606.09758, juin 2026) une méthode appelée DARP (Difference-Aware Retrieval Policies for Imitation Learning), une approche semi-paramétrique d'apprentissage par imitation. Le principe central : plutôt que d'apprendre un mapping global état-action via un réseau de neurones pur (behavior cloning standard), DARP entraîne un modèle à prédire des actions en s'appuyant sur les k plus proches voisins (k-NN) extraits des démonstrations expertes, leurs actions associées, et les vecteurs de distance relative entre les états voisins et l'état requête courant. En reformulant le problème d'imitation en termes de structure de voisinage local plutôt que de mappings directs, la méthode revendique des gains de performance de 15 à 46 % sur behavior cloning standard, mesurés sur des benchmarks de contrôle continu et de manipulation robotique, y compris avec des représentations visuelles haute dimension. L'amplitude de cette fourchette suggère des variations importantes selon les tâches et les domaines évalués. L'intérêt concret de DARP réside dans sa capacité à atténuer le problème de "compounding errors" : lors du déploiement, un agent entraîné par behavior cloning accumule des erreurs en rencontrant des états hors distribution, dégradant rapidement les performances. En réutilisant les données d'entraînement au moment de l'inférence, DARP introduit une forme de mémoire épisodique sans nécessiter de collecte de données supplémentaires, de feedback expert en ligne, ni de connaissance spécifique à la tâche. C'est là la distinction clé vis-à-vis de méthodes comme DAgger (Ross et Bagnell, 2011), qui résolvent la distribution shift mais exigent des requêtes à l'expert pendant l'entraînement, une contrainte souvent rédhibitoire en robotique industrielle réelle. Le behavior cloning reste une méthode de référence pour son absence de contraintes opérationnelles, mais sa fragilité face à la distribution shift en limite la portée pour des déploiements à grande échelle. DARP s'inscrit dans un courant de méthodes semi-paramétriques qui connaît un regain d'intérêt avec la montée des politiques génératives : l'idée de conserver explicitement une mémoire des démonstrations plutôt que de tout comprimer dans des poids de réseau est cohérente avec les architectures hybrides actuelles, comme les VLA Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les résultats sur représentations visuelles haute dimension ouvrent la voie à des applications sur des manipulateurs avec vision RGB, domaine où les approches purement paramétriques montrent encore des limites significatives. Le code et les démonstrations sont disponibles publiquement via le site des auteurs.

RecherchePaper
1 source
Une approche rigoureuse pour générer des démonstrations synthétiques haute fidélité en apprentissage par imitation
2arXiv cs.RO 

Une approche rigoureuse pour générer des démonstrations synthétiques haute fidélité en apprentissage par imitation

Une équipe de chercheurs a publié fin avril 2025 sur arXiv (arXiv:2605.01232) un cadre de synthèse de données d'entraînement robotiques combinant le rendu 3D Gaussian Splatting (3DGS) et les Dynamic Movement Primitives (DMP). Le système part d'une seule démonstration experte et d'un scan multi-vues court pour reconstruire une scène 3DGS, puis retargete la trajectoire originale vers de nouvelles configurations d'objets et de points de vue via des DMPs, encodant ainsi la forme spatiale et le profil temporel du mouvement de façon paramétrique. Pour éviter les collisions dans des scènes encombrées sans représentation géométrique additionnelle, les auteurs introduisent une formulation analytique des DMPs opérant directement sur le champ de densité continu induit par la représentation 3DGS. L'approche a été évaluée sur le robot mobile manipulateur Spot de Boston Dynamics, sur trois tâches de manipulation à sensibilité croissante à la fidélité de trajectoire. Comparée à des pipelines basés sur des planificateurs échantillonnés ou l'optimisation de trajectoire, la méthode réduit l'écart moyen à la trajectoire experte et le taux de collisions, et améliore le taux de succès des politiques visuomotrices de type diffusion entraînées sur ces données. Le résultat principal contredit une intuition répandue en apprentissage par imitation : augmenter la diversité des démonstrations ne garantit pas de meilleures politiques si cette diversité efface la structure fine de la trajectoire experte. Pour des manipulations en contact, saisie contrainte ou assemblage précis, c'est précisément cette structure spatiale et temporelle qui conditionne le succès ; les planificateurs classiques l'éliminent en cherchant des chemins valides alternatifs, augmentant la variance des données sans en accroître la valeur informative. Intégrer la géométrie 3DGS directement dans les DMPs plutôt que d'utiliser un module de collision séparé simplifie le pipeline et évite les incohérences entre rendu et raisonnement géométrique, un problème récurrent dans les systèmes hybrides sim-to-real. Ce travail s'inscrit dans un courant de recherche actif depuis la popularisation du 3DGS en 2023, qui cherche à exploiter cette technique de représentation de scène pour générer à bas coût des données de supervision robotique, en alternative aux moteurs de simulation physique comme Isaac Sim ou MuJoCo qui exigent une modélisation manuelle intensive. Des approches parallèles comme RoboGSim ont exploré cet espace, mais en découplant rendu et planification de mouvement. Le système reste à ce stade un preprint arXiv, évalué sur un seul robot dans des scènes relativement délimitées ; sa généralisation à des plateformes à plus haute dextérité (bras 7 DOF, mains multi-doigts) et son couplage avec des fondations de politiques de type pi-0 ou GR00T N2 constituent les prochaines étapes naturelles à tester.

RecherchePaper
1 source
Apprentissage par renforcement multi-tâches sur GPU avec optimisation de politique guidée par démonstration
3arXiv cs.RO 

Apprentissage par renforcement multi-tâches sur GPU avec optimisation de politique guidée par démonstration

Une équipe de chercheurs a publié le 3 juin 2026 sur arXiv (2606.03335) une méthodologie pour construire des benchmarks d'apprentissage par renforcement multi-tâches sur GPU, et l'a instanciée sous le nom MT-Libero, en s'appuyant sur les assets et prédicats de tâches de LIBERO dans l'environnement de simulation Isaac Lab de NVIDIA. Le benchmark permet d'entraîner simultanément des politiques sur des suites de tâches hétérogènes de manipulation, avec rendu parallèle, randomisation physique, et support des entrées par état ou par caméra. En parallèle, les auteurs proposent DGPO (Demonstration Guided Policy Optimization), une méthode on-policy qui combine PPO pondéré par importance avec un clonage comportemental adaptatif sur des actions de démonstration appariées, permettant de doser l'influence des données de démo sur la politique apprise. L'intérêt de cette contribution est double. D'abord, elle s'attaque à un goulot d'étranglement structurel du domaine : la plupart des pipelines RL actuels en robotique entraînent une politique spécialisée par tâche, ce qui explose les coûts de calcul et limite la généralisation. Passer à un entraînement multi-tâches sur GPU en parallèle change fondamentalement l'économie de la simulation. Ensuite, DGPO résout un problème pratique récurrent : avec des signaux de récompense parcimonieux et peu de données de démonstration, les méthodes RL pures peinent à converger. Les auteurs montrent que leur approche surpasse à la fois le RL sans démonstration et les méthodes existantes à base de démonstration, tout en conservant la stabilité caractéristique de PPO on-policy et sa capacité d'amélioration continue en ligne. Le benchmark LIBERO, développé par des équipes académiques, est devenu une référence pour évaluer le transfert et la généralisation en manipulation robotique. Isaac Lab, le simulateur physique de NVIDIA, est de plus en plus utilisé pour le sim-to-real à grande échelle, notamment par Physical Intelligence (pi0), Figure AI et 1X Technologies. La problématique multi-tâches est au coeur des travaux actuels sur les VLA (Vision-Language-Action models) et les foundation models pour la robotique, où des acteurs comme DeepMind (RT-2, RT-X), Stanford et Berkeley (RoboAgent) cherchent à mutualiser l'apprentissage entre tâches. MT-Libero et DGPO sont publiés en preprint et n'ont pas encore été validés par un processus de peer-review ; les résultats restent à confirmer sur hardware réel.

RechercheOpinion
1 source
RDGen : génération de démonstrations pour l'apprentissage robotique par renforcement
4arXiv cs.RO 

RDGen : génération de démonstrations pour l'apprentissage robotique par renforcement

Une équipe de chercheurs a publié le 30 mai 2026 sur arXiv (référence 2605.30957) un framework appelé RDGen, pour "Reinforcement Learning Demonstration Generation", destiné à automatiser la collecte de données d'entraînement pour les modèles Vision-Language-Action (VLA). Le système combine trois composants : un module d'analyse de tâches basé sur un modèle de langage visuel (VLM), un localisateur d'objets fondé sur Grounding DINO, et une politique de contrôle entraînée par apprentissage par renforcement (RL) en simulation puis transférée sur un robot réel. Testé sur une tâche de saisie et de dépose, RDGen atteint un taux de succès élevé après transfert sim-to-real, sans que les auteurs ne publient de chiffre précis dans le résumé disponible. Les trajectoires générées sont ensuite réutilisées directement comme données d'entraînement pour affiner des politiques VLA en aval. L'enjeu central est celui du goulot d'étranglement dans la chaîne d'entraînement des robots généralistes : la télé-opération humaine, méthode dominante pour collecter des démonstrations, est lente, coûteuse, et produit des trajectoires variables selon l'opérateur. RDGen propose de substituer cet effort humain par une politique RL, qui génère des trajectoires mécaniquement cohérentes et reproductibles, plus lisses selon les auteurs que ce que produit un opérateur humain, et avec un coût marginal quasi nul en simulation. Cela renforce l'hypothèse que le problème sim-to-real pour des tâches de manipulation simples est largement résolu, et déplace la question vers la scalabilité de la diversité des tâches plutôt que la qualité individuelle des démos. RDGen s'inscrit dans un débat actif sur la meilleure façon d'alimenter les VLA, dont les architectures de référence actuelles incluent pi0 (Physical Intelligence), OpenVLA et les travaux de RT-2/RT-X chez Google DeepMind. La collecte de données reste le principal frein industriel à leur déploiement, ce que tentent aussi d'adresser des approches concurrentes comme la génération vidéo synthétique (ex. travaux UniSim, Genie) ou l'augmentation par world models. La contribution de RDGen est plus modeste et ciblée : un pipeline sim-to-real structuré pour des tâches de manipulation définies, avec réutilisation des rollouts réussis. Il s'agit d'un preprint non encore peer-reviewed ; les expériences restent limitées à pick-and-place, et l'absence de métriques quantitatives précises dans le résumé invite à attendre la version complète avant d'en tirer des conclusions générales sur la scalabilité.

RechercheOpinion
1 source