Aller au contenu principal
LOPAL : apprentissage actif local sensible aux performances à partir de démonstrations imparfaites
RecherchearXiv cs.RO4h

LOPAL : apprentissage actif local sensible aux performances à partir de démonstrations imparfaites

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2606.16888) une méthode baptisée LOPAL (Local Performance-Aware Active Learning), conçue pour améliorer l'apprentissage par démonstration robotique en tenant compte de la qualité variable à l'intérieur même d'une démonstration humaine. L'approche repose sur deux composants complémentaires : d'abord, un modèle de mélange de gaussiennes (GMM) qui encode simultanément les trajectoires démontrées et une évaluation locale de leur qualité, permettant de générer des trajectoires qui sélectionnent et combinent les meilleures portions de chaque démonstration imparfaite ; ensuite, un mécanisme d'acquisition active de données qui identifie les zones où les données de qualité font défaut et sollicite l'opérateur humain pour fournir des corrections via un système d'autonomie partagée, pendant que le robot continue d'exécuter le comportement appris de façon autonome. Validée sur une tâche réelle d'inspection de tuyauterie, LOPAL atteint une amélioration de 27,31 % des performances par rapport aux démonstrations initiales, tout en réduisant l'effort de collecte de données.

L'intérêt industriel de cette approche est tangible pour les intégrateurs et les responsables de production qui déploient des robots sur des tâches répétitives à variation fine. Le verrou que LOPAL cherche à lever est bien connu : les humains sont des démonstrateurs incohérents, et les méthodes classiques de LfD (imitation directe, GAIL, etc.) traitent chaque démonstration comme globalement bonne ou mauvaise. En exploitant la granularité locale, le système peut extraire de la valeur même de gestes imparfaits, ce qui réduit le nombre de démos nécessaires et accélère la mise en service. Le mécanisme d'autonomie partagée est particulièrement pertinent pour les environnements industriels où l'opérateur peut intervenir ponctuellement sans reprendre le contrôle total.

L'apprentissage par démonstration est un domaine actif depuis plus d'une décennie, avec des approches comme DMP (Dynamic Movement Primitives), ProDMP, ou plus récemment les politiques de diffusion (Diffusion Policy) et les VLA (Vision-Language-Action models). LOPAL s'inscrit dans la lignée des méthodes basées sur les GMM, popularisées notamment par les travaux de l'EPFL et de l'IIT, mais en y ajoutant une couche d'apprentissage actif et de correction en ligne. Le papier reste au stade académique (pas de déploiement industriel annoncé), et les résultats sur la tâche d'inspection de pipes, bien que convaincants, portent sur un environnement contrôlé. Les prochaines étapes naturelles concernent la généralisation à des tâches multi-contact et la robustesse face à des perturbations environnementales non anticipées.

Dans nos dossiers

À lire aussi

ReGIL : apprentissage par imitation guidé par récupération à partir d'une seule démonstration
1arXiv cs.RO 

ReGIL : apprentissage par imitation guidé par récupération à partir d'une seule démonstration

Des chercheurs présentent ReGIL (Retrieval-Guided Imitation Learning), un framework d'apprentissage par imitation capable d'entraîner un robot manipulateur à partir d'une seule démonstration. La méthode traite cette démonstration unique comme une mémoire externe statique, interrogée en continu durant l'entraînement pour guider simultanément l'exploration, générer un buffer de régularisation et construire les récompenses. Le calcul de récompense repose sur un alignement temporel local entre la trajectoire courante et le segment récupéré, fournissant un feedback pas-à-pas plutôt qu'un signal binaire succès/échec. Évalué sur les benchmarks LIBERO et Meta-World, ReGIL surpasse les baselines antérieures en taux de réussite et en efficacité d'entraînement. Sur robot réel, avec une seule démonstration et moins d'une heure d'entraînement en ligne, le système atteint plus de 75 % de taux de réussite sur trois tâches de manipulation avec randomisation à la fois de la pose initiale du robot et de la position cible. Ces résultats sont issus d'un preprint arXiv (2606.09381) et n'ont pas encore été soumis à revue par les pairs. Le principal défi que ReGIL cherche à résoudre est connu sous le nom de "compounding error" : en imitation learning classique (behavior cloning), les petites déviations par rapport à la trajectoire démontrée s'accumulent et mènent rapidement à l'échec, ce qui oblige généralement à collecter des centaines, voire des milliers de démonstrations. Ramener ce seuil à une seule démonstration plus moins d'une heure d'interaction en ligne représente un gain opérationnel significatif pour le déploiement industriel, où la collecte de données est coûteuse. Le taux de 75 % obtenu avec randomisation de pose et de cible est un indicateur de robustesse plus solide qu'une démonstration en conditions fixes, même si l'absence de détails sur les tâches spécifiques et la complexité des scènes limite l'interprétation. L'apprentissage par imitation à faible nombre de démonstrations est un axe de recherche très actif, concurrencé notamment par les modèles VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence ou les politiques de diffusion (Diffusion Policy, ACT). Ces approches misent sur des grandes quantités de données préentraînées pour compenser la rareté des démos spécifiques à une tâche, là où ReGIL propose une alternative radicalement data-light. Le benchmark LIBERO est devenu un standard de fait pour comparer ces méthodes en simulation, et Meta-World permet d'évaluer la généralisation multi-tâches. La prochaine étape logique serait une validation sur des tâches de manipulation plus complexes et une publication dans une conférence de robotique (ICRA, CoRL, RSS) pour valider les claims de manière indépendante.

RecherchePaper
1 source
Raffinement de démonstrations accélérées par contrôle itératif incrémental pour l'apprentissage par imitation à contact riche
2arXiv cs.RO 

Raffinement de démonstrations accélérées par contrôle itératif incrémental pour l'apprentissage par imitation à contact riche

Une équipe de chercheurs a publié en avril 2026 sur arXiv (arXiv:2604.16850) une méthode baptisée I2RLC (Incremental Iterative Reference Learning Control) pour générer automatiquement des démonstrations robotiques rapides et précises, sans intervention humaine à haute vitesse. Le constat de départ est simple : en apprentissage par imitation (IL), les humains ne peuvent pas démontrer physiquement une tâche à 5x ou 10x leur vitesse naturelle, et accélérer naïvement un enregistrement dégrade la dynamique de contact et crée des erreurs de suivi qui corrompent les données d'entraînement. L'I2RLC résout ce problème en augmentant progressivement la vitesse d'exécution tout en corrigeant itérativement la trajectoire de référence à partir des erreurs observées. La méthode a été validée sur robot réel, sur deux tâches à contact riche : effacement de tableau blanc et insertion cheville-trou (peg-in-hole), en utilisant un système de téleopération composé d'un bras suiveur à contrôle de compliance et d'un leader haptic imprimé en 3D. Les résultats atteignent des démonstrations 10x plus rapides avec réduction des erreurs de suivi, et I2RLC améliore la similarité spatiale aux trajectoires originales de 22,5 % en moyenne par rapport à la version non-incrémentale (IRLC), sur trois tâches et plusieurs vitesses (3x à 10x). Les politiques entraînées sur ces données atteignent 100 % de taux de réussite sur la tâche peg-in-hole, y compris pour des positions non vues à l'entraînement, avec des forces de contact inférieures. Ce résultat adresse un angle mort fréquent dans le développement des politiques d'imitation : la qualité des démonstrations elle-même. La grande majorité des approches IL (Diffusion Policy, ACT, Pi-0) suppose des démos propres et représentatives, sans se préoccuper du fossé entre la vitesse humaine et la vitesse de déploiement réelle. Ici, la généralisation à des positions non vues avec 100 % de succès constitue un signal concret de robustesse, pas simplement une performance en conditions contrôlées. Pour les intégrateurs industriels, l'enjeu est direct : si l'on peut automatiser la génération de trajectoires rapides à partir de démos lentes, le coût de collecte de données pour des tâches d'assemblage ou de manutention chute significativement. L'apprentissage par imitation pour la manipulation à contact riche est un axe de recherche très actif depuis 2022-2023, porté par des travaux comme ACT (Stanford), Diffusion Policy (MIT/Columbia) et les architectures VLA type Pi-0 (Physical Intelligence). Le problème de la "vitesse des démos" reste cependant peu traité dans la littérature. L'I2RLC s'inscrit dans une lignée de méthodes de contrôle itératif (ILC) adaptées à la robotique apprenante. Aucune entreprise commerciale n'est citée dans cette publication académique, mais les applications industrielles naturelles touchent l'assemblage électronique, le câblage, et toute manipulation nécessitant précision et cadence. Les prochaines étapes probables incluent une extension aux politiques diffusives modernes et une validation sur des tâches multi-étapes en environnement non structuré.

RecherchePaper
1 source
Politiques de récupération sensibles aux différences pour l'apprentissage par imitation
3arXiv cs.RO 

Politiques de récupération sensibles aux différences pour l'apprentissage par imitation

Une équipe du Weird Lab de l'Université de Washington publie sur arXiv (arXiv:2606.09758, juin 2026) une méthode appelée DARP (Difference-Aware Retrieval Policies for Imitation Learning), une approche semi-paramétrique d'apprentissage par imitation. Le principe central : plutôt que d'apprendre un mapping global état-action via un réseau de neurones pur (behavior cloning standard), DARP entraîne un modèle à prédire des actions en s'appuyant sur les k plus proches voisins (k-NN) extraits des démonstrations expertes, leurs actions associées, et les vecteurs de distance relative entre les états voisins et l'état requête courant. En reformulant le problème d'imitation en termes de structure de voisinage local plutôt que de mappings directs, la méthode revendique des gains de performance de 15 à 46 % sur behavior cloning standard, mesurés sur des benchmarks de contrôle continu et de manipulation robotique, y compris avec des représentations visuelles haute dimension. L'amplitude de cette fourchette suggère des variations importantes selon les tâches et les domaines évalués. L'intérêt concret de DARP réside dans sa capacité à atténuer le problème de "compounding errors" : lors du déploiement, un agent entraîné par behavior cloning accumule des erreurs en rencontrant des états hors distribution, dégradant rapidement les performances. En réutilisant les données d'entraînement au moment de l'inférence, DARP introduit une forme de mémoire épisodique sans nécessiter de collecte de données supplémentaires, de feedback expert en ligne, ni de connaissance spécifique à la tâche. C'est là la distinction clé vis-à-vis de méthodes comme DAgger (Ross et Bagnell, 2011), qui résolvent la distribution shift mais exigent des requêtes à l'expert pendant l'entraînement, une contrainte souvent rédhibitoire en robotique industrielle réelle. Le behavior cloning reste une méthode de référence pour son absence de contraintes opérationnelles, mais sa fragilité face à la distribution shift en limite la portée pour des déploiements à grande échelle. DARP s'inscrit dans un courant de méthodes semi-paramétriques qui connaît un regain d'intérêt avec la montée des politiques génératives : l'idée de conserver explicitement une mémoire des démonstrations plutôt que de tout comprimer dans des poids de réseau est cohérente avec les architectures hybrides actuelles, comme les VLA Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les résultats sur représentations visuelles haute dimension ouvrent la voie à des applications sur des manipulateurs avec vision RGB, domaine où les approches purement paramétriques montrent encore des limites significatives. Le code et les démonstrations sont disponibles publiquement via le site des auteurs.

RecherchePaper
1 source
Des étiquettes aux ensembles d'actions : repenser la supervision pour l'apprentissage par imitation à partir de retours correctifs
4arXiv cs.RO 

Des étiquettes aux ensembles d'actions : repenser la supervision pour l'apprentissage par imitation à partir de retours correctifs

Le comportement par clonage (behavior cloning, BC) est l'une des méthodes les plus utilisées pour entraîner des politiques robotiques à partir de démonstrations humaines : chaque geste fourni par l'opérateur y est traité comme une étiquette exacte à reproduire. Des chercheurs ont publié en février 2025 (arXiv:2502.07645, version 3 disponible) une alternative baptisée CLIC, Contrastive policy Learning from Interactive Corrections, qui remplace ces étiquettes ponctuelles par des cibles dites à ensemble de valeurs (set-valued action targets). Au lieu d'optimiser la politique vers un seul geste cible, CLIC utilise les corrections humaines en temps réel pour construire et affiner des ensembles d'actions désirées, puis entraîne le modèle à placer de la masse de probabilité sur cet ensemble plutôt que sur un point unique. Cette reformulation adresse un problème connu mais sous-estimé du BC classique : lorsque les démonstrations humaines sont imparfaites, gestes partiels, corrections relatives ("un peu plus à gauche"), ambiguïtés multimodales, forcer la politique à reproduire chaque label à la lettre peut la faire dériver loin du comportement voulu, notamment avec des modèles expressifs tels que les energy-based models (EBMs). Les expériences en simulation et sur robot réel montrent que CLIC reste compétitif avec l'état de l'art quand les données sont propres, et se révèle substantiellement plus robuste sous données bruitées, corrections relatives ou feedback partiel. Pour les équipes de déploiement robotique, c'est une voie concrète pour réduire les coûts de collecte de démonstrations de haute qualité : CLIC tolère des opérateurs moins expérimentés ou des interfaces de téléopération imprécises sans dégradation majeure des performances. Le BC reste une brique fondamentale de l'apprentissage par imitation, popularisé par les travaux de Pieter Abbeel au début des années 2000 et au coeur aujourd'hui des politiques VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou les politiques diffusion-based d'OpenPI. CLIC s'inscrit dans un courant "human-in-the-loop" qui inclut DAgger, HG-DAgger et TAMER, mais se distingue par la formalisation ensembliste des corrections. Le code et les environnements de test sont disponibles publiquement sur clic-webpage.github.io. Les auteurs n'annoncent pas de partenariat industriel ni de déploiement terrain, ce qui positionne ce travail comme une contribution aux fondations méthodologiques de l'imitation learning, avec des implications directes pour les pipelines de téléopération et de fine-tuning de politiques générales.

UEImpact indirect : la méthode CLIC, en réduisant les besoins en démonstrations de haute qualité, pourrait bénéficier aux équipes de R&D robotique européennes travaillant sur des pipelines d'imitation learning et de téléopération, sans lien direct avec un acteur français ou une réglementation UE.

RechercheOpinion
1 source