Aller au contenu principal
RecherchearXiv cs.RO2h

Apprentissage inverse de récompenses transférables par abstraction d'états

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (identifiant 2501.01669) une méthode d'apprentissage par renforcement inverse (IRL) visant à extraire des fonctions de récompense abstraites et transférables à partir de trajectoires comportementales observées dans plusieurs configurations différentes d'un même domaine. Plutôt que de simplement reproduire le comportement observé, l'approche cherche à inférer les préférences intrinsèques sous-jacentes, puis à les réutiliser pour générer des comportements adaptés à des instances du domaine non vues pendant l'entraînement. La méthode requiert au minimum deux instances du domaine source pour apprendre la fonction abstraite, qui est ensuite testée sur une troisième instance distincte. Les expériences sont conduites exclusivement en simulation sur les benchmarks OpenAI Gym et AssistiveGym ; aucune validation sur hardware physique n'est présentée dans ce papier.

L'enjeu opérationnel pour la robotique industrielle est direct : intégrer un robot dans une nouvelle ligne de production implique aujourd'hui une reprogrammation quasi-complète dès que la tâche évolue, même marginalement. Si une fonction de récompense abstraite peut capturer ce qui est "intrinsèquement souhaité" dans une famille de tâches alignées, un intégrateur pourrait déployer un robot sur une variante de tâche sans repartir de zéro. La méthode teste explicitement cette transférabilité, ce qui constitue une preuve de généralisation au-delà du simple ajustement de paramètres. Le gap sim-to-real n'est pas adressé dans cette version, ce qui limite la portée pratique immédiate, et les métriques présentées restent confinées aux benchmarks de simulation.

L'IRL est un domaine de recherche actif depuis les travaux fondateurs d'Abbeel et Ng (début des années 2000), avec des développements récents vers les approches adversariales comme GAIL (Generative Adversarial Imitation Learning) et AIRL (Adversarial IRL). Cette contribution se distingue par l'utilisation de l'abstraction des états comme levier de transfert, plutôt que par l'adaptation de domaine ou le fine-tuning d'un modèle pré-entraîné. Les approches concurrentes incluent le méta-IRL et les méthodes IRL multi-tâches, qui partagent l'objectif de généralisation mais avec des formulations différentes. La suite logique serait une validation sur des plateformes robotiques physiques, en manipulation notamment sur des bras comme Franka Emika ou UR5, pour confirmer que l'abstraction apprise en simulation survit au passage au monde réel.

Dans nos dossiers

À lire aussi

ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits
1arXiv cs.RO 

ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits

ExpertGen est un framework de recherche publié sur arXiv (2603.15956) qui automatise l'apprentissage de politiques de manipulation robotique en simulation pour en faciliter le transfert vers du matériel réel. Le système initialise une politique de diffusion à partir de démonstrations imparfaites, générées par un grand modèle de langage ou fournies manuellement, puis applique du renforcement pour l'affiner sans jamais modifier les poids du modèle préentraîné. L'optimisation porte uniquement sur le bruit initial de la diffusion, ce qui maintient l'exploration dans des trajectoires cohérentes avec le comportement humain, même avec des récompenses binaires éparses. Sur les benchmarks publiés, ExpertGen atteint 90,5 % de succès sur des tâches d'assemblage industriel et 85 % sur des tâches de manipulation à long horizon, surpassant toutes les méthodes de référence testées. Le transfert sim-to-réel est validé par distillation DAgger : les politiques d'état apprises en simulation sont converties en politiques visuomotrices et déployées sur du matériel robotique physique. Ce résultat s'attaque directement au principal goulot d'étranglement du robot learning industriel : la collecte de données de qualité. La téléopération à grande échelle est coûteuse, lente et ne se généralise pas. ExpertGen propose une alternative crédible en utilisant des démonstrations imparfaites, y compris synthétiques, comme amorce, puis en laissant le renforcement corriger l'écart de qualité en simulation. Le fait de geler la politique de diffusion est une décision architecturale clé : elle évite le mode collapse typique du fine-tuning RL sur des politiques expressives, tout en permettant la convergence sans reward engineering manuel. Pour les intégrateurs industriels, c'est un signal concret que le sim-to-real gap sur des tâches d'assemblage n'est pas insurmontable, à condition de disposer d'un simulateur suffisamment fidèle. Ce travail s'inscrit dans la vague des politiques de diffusion pour la robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et prolongée par des systèmes comme pi-zero de Physical Intelligence ou les politiques dextères développées chez Google DeepMind et NVIDIA avec GR00T N2. ExpertGen reste pour l'instant un résultat académique : les métriques de succès sont issues de benchmarks de simulation contrôlés, et le déploiement réel mentionné dans le papier est préliminaire. Aucune timeline commerciale ni partenaire industriel ne sont annoncés. Les prochaines étapes logiques incluent des tests de robustesse à des variations de capteurs et d'environnement plus sévères, ainsi qu'une intégration éventuelle avec des politiques de fondation multimodales pour généraliser au-delà des tâches d'assemblage structurées.

RechercheOpinion
1 source
Des étiquettes aux ensembles d'actions : repenser la supervision pour l'apprentissage par imitation à partir de retours correctifs
2arXiv cs.RO 

Des étiquettes aux ensembles d'actions : repenser la supervision pour l'apprentissage par imitation à partir de retours correctifs

Le comportement par clonage (behavior cloning, BC) est l'une des méthodes les plus utilisées pour entraîner des politiques robotiques à partir de démonstrations humaines : chaque geste fourni par l'opérateur y est traité comme une étiquette exacte à reproduire. Des chercheurs ont publié en février 2025 (arXiv:2502.07645, version 3 disponible) une alternative baptisée CLIC, Contrastive policy Learning from Interactive Corrections, qui remplace ces étiquettes ponctuelles par des cibles dites à ensemble de valeurs (set-valued action targets). Au lieu d'optimiser la politique vers un seul geste cible, CLIC utilise les corrections humaines en temps réel pour construire et affiner des ensembles d'actions désirées, puis entraîne le modèle à placer de la masse de probabilité sur cet ensemble plutôt que sur un point unique. Cette reformulation adresse un problème connu mais sous-estimé du BC classique : lorsque les démonstrations humaines sont imparfaites, gestes partiels, corrections relatives ("un peu plus à gauche"), ambiguïtés multimodales, forcer la politique à reproduire chaque label à la lettre peut la faire dériver loin du comportement voulu, notamment avec des modèles expressifs tels que les energy-based models (EBMs). Les expériences en simulation et sur robot réel montrent que CLIC reste compétitif avec l'état de l'art quand les données sont propres, et se révèle substantiellement plus robuste sous données bruitées, corrections relatives ou feedback partiel. Pour les équipes de déploiement robotique, c'est une voie concrète pour réduire les coûts de collecte de démonstrations de haute qualité : CLIC tolère des opérateurs moins expérimentés ou des interfaces de téléopération imprécises sans dégradation majeure des performances. Le BC reste une brique fondamentale de l'apprentissage par imitation, popularisé par les travaux de Pieter Abbeel au début des années 2000 et au coeur aujourd'hui des politiques VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou les politiques diffusion-based d'OpenPI. CLIC s'inscrit dans un courant "human-in-the-loop" qui inclut DAgger, HG-DAgger et TAMER, mais se distingue par la formalisation ensembliste des corrections. Le code et les environnements de test sont disponibles publiquement sur clic-webpage.github.io. Les auteurs n'annoncent pas de partenariat industriel ni de déploiement terrain, ce qui positionne ce travail comme une contribution aux fondations méthodologiques de l'imitation learning, avec des implications directes pour les pipelines de téléopération et de fine-tuning de politiques générales.

UEImpact indirect : la méthode CLIC, en réduisant les besoins en démonstrations de haute qualité, pourrait bénéficier aux équipes de R&D robotique européennes travaillant sur des pipelines d'imitation learning et de téléopération, sans lien direct avec un acteur français ou une réglementation UE.

RechercheOpinion
1 source
Apprentissage par imitation : sélection efficace des données d'échec via les différences de distribution dans l'attention
3arXiv cs.RO 

Apprentissage par imitation : sélection efficace des données d'échec via les différences de distribution dans l'attention

Des chercheurs ont déposé sur arXiv en mai 2026 (arXiv:2605.07560) une méthode visant à exploiter les démonstrations d'échec dans l'apprentissage par imitation pour la robotique. La quasi-totalité des politiques d'imitation sont actuellement entraînées exclusivement sur des démonstrations réussies, bien que la collecte humaine produise inévitablement une proportion significative d'échecs. La méthode proposée apprend des représentations latentes des divergences succès-échec et les intègre dans le mécanisme d'attention du réseau, permettant au système de sélectionner au moment de l'inférence un mode latent adapté à partir de l'observation initiale. Les auteurs introduisent également une métrique post-entraînement qui quantifie la divergence d'attention entre chaque démonstration d'échec et le corpus de succès, afin de filtrer automatiquement les échantillons d'échec réellement bénéfiques à l'apprentissage. L'enjeu est considérable pour les pipelines industriels de collecte de données robotiques : une fraction structurelle des démonstrations humaines sont des échecs, jusqu'ici systématiquement écartés ou nécessitant un traitement manuel coûteux. Les approches existantes pour exploiter ces données s'appuient généralement sur des mises à jour itératives de la politique via des rollouts autonomes, ce qui complique leur intégration stable et directe dans un pipeline de production. Cette méthode opère en revanche directement sur les données brutes collectées sans itérations supplémentaires, ce qui la rend potentiellement plus accessible pour des équipes travaillant en conditions réelles de déploiement. Les résultats en simulation montrent une amélioration des taux de succès par rapport à un entraînement basé uniquement sur des démonstrations réussies, et la métrique proposée identifie correctement les échantillons d'échec dont l'ajout est bénéfique. L'apprentissage par imitation est devenu un paradigme central en robotique manipulatrice, porté par des architectures comme ACT, Diffusion Policy ou pi-0 de Physical Intelligence, et la gestion des données hors-distribution reste un défi ouvert du domaine. Que faire des trajectoires partiellement réussies ou des démonstrations ambiguës constitue une question de recherche active, d'autant que les coûts de re-collecte sur robot physique sont prohibitifs à grande échelle. Ce travail s'inscrit dans ce courant sans rupture radicale : les résultats sont limités à la simulation et aucun déploiement sur hardware réel n'est mentionné dans le preprint, ce qui appelle une validation expérimentale indépendante. La prochaine étape naturelle sera la validation sur robots physiques en manipulation dextère, contexte où le taux d'échec lors de la collecte humaine est structurellement élevé et où le gain potentiel d'un tel filtrage automatique serait le plus significatif.

RecherchePaper
1 source
Apprentissage de compétences motrices transférables pour des tâches robotiques adaptées à la géométrie des surfaces
4arXiv cs.RO 

Apprentissage de compétences motrices transférables pour des tâches robotiques adaptées à la géométrie des surfaces

Des chercheurs ont déposé sur arXiv (référence 2605.24881) un cadre modulaire visant à améliorer la robotique de surface sur des tâches comme la peinture par pulvérisation ou le soudage. L'idée centrale : séparer la planification géométrique du chemin et l'exécution experte du mouvement, deux problèmes que les approches actuelles couplent trop étroitement. Le savoir-faire opérateur est formalisé comme un vocabulaire de règles motrices atomiques interprétables - scaling de vitesse, offsets d'orientation - appliquées en surcouche d'un chemin planifié classiquement. Un réseau de neurones multimodal apprend à inférer les paramètres de ces règles à partir de trajectoires cinématiques et de géométrie CAO. L'évaluation porte sur des objets en L et en forme de fenêtre en simulation dynamique, où le modèle extrait correctement les règles de vitesse et d'orientation sur les deux topologies. L'enjeu est direct pour les intégrateurs industriels : la peinture et le soudage robotisés restent des domaines où les opérateurs experts surpassent les robots sur la qualité de surface. Le principal apport de l'approche est la transferabilité géométrique - une limitation connue du learning from demonstration, où les modèles entraînés sur une pièce échouent généralement sur des géométries différentes. En découplant expertise et géométrie, le framework permet théoriquement d'appliquer des règles apprises sur une forme simple à des pièces variées sans réentraînement complet. La représentation interprétable par règles atomiques offre également un levier de validation pour les ingénieurs procédés, critère souvent déterminant en aéronautique et automobile où les certifications imposent une traçabilité des décisions système. Cette publication s'inscrit dans la lignée des travaux sur les primitives motrices (DMP, ProDMP) mais avec une couche d'inférence CAO explicite, une direction explorée aussi par des équipes à Berkeley, ETH Zurich et l'INRIA. À noter que l'évaluation reste entièrement en simulation - aucun résultat sur robot physique n'est présenté, ce qui limite les conclusions sur le transfert sim-to-real effectif. Les prochaines étapes naturelles seraient une validation sur bras 6-DOF (UR10, FANUC) et un test sur des surfaces courbées continues, bien plus représentatives des conditions industrielles réelles que les géométries à arêtes vives utilisées ici.

UELa recherche sur les primitives motrices transférables appliquées à la peinture et au soudage intéresse directement les intégrateurs robotiques européens (aéronautique, automobile), et l'INRIA travaille sur des directions similaires, mais l'absence totale de validation sur robot physique limite l'impact opérationnel immédiat.

RecherchePaper
1 source