Apprentissage inverse de récompenses transférables par abstraction d'états
Une équipe de chercheurs a publié sur arXiv (identifiant 2501.01669) une méthode d'apprentissage par renforcement inverse (IRL) visant à extraire des fonctions de récompense abstraites et transférables à partir de trajectoires comportementales observées dans plusieurs configurations différentes d'un même domaine. Plutôt que de simplement reproduire le comportement observé, l'approche cherche à inférer les préférences intrinsèques sous-jacentes, puis à les réutiliser pour générer des comportements adaptés à des instances du domaine non vues pendant l'entraînement. La méthode requiert au minimum deux instances du domaine source pour apprendre la fonction abstraite, qui est ensuite testée sur une troisième instance distincte. Les expériences sont conduites exclusivement en simulation sur les benchmarks OpenAI Gym et AssistiveGym ; aucune validation sur hardware physique n'est présentée dans ce papier.
L'enjeu opérationnel pour la robotique industrielle est direct : intégrer un robot dans une nouvelle ligne de production implique aujourd'hui une reprogrammation quasi-complète dès que la tâche évolue, même marginalement. Si une fonction de récompense abstraite peut capturer ce qui est "intrinsèquement souhaité" dans une famille de tâches alignées, un intégrateur pourrait déployer un robot sur une variante de tâche sans repartir de zéro. La méthode teste explicitement cette transférabilité, ce qui constitue une preuve de généralisation au-delà du simple ajustement de paramètres. Le gap sim-to-real n'est pas adressé dans cette version, ce qui limite la portée pratique immédiate, et les métriques présentées restent confinées aux benchmarks de simulation.
L'IRL est un domaine de recherche actif depuis les travaux fondateurs d'Abbeel et Ng (début des années 2000), avec des développements récents vers les approches adversariales comme GAIL (Generative Adversarial Imitation Learning) et AIRL (Adversarial IRL). Cette contribution se distingue par l'utilisation de l'abstraction des états comme levier de transfert, plutôt que par l'adaptation de domaine ou le fine-tuning d'un modèle pré-entraîné. Les approches concurrentes incluent le méta-IRL et les méthodes IRL multi-tâches, qui partagent l'objectif de généralisation mais avec des formulations différentes. La suite logique serait une validation sur des plateformes robotiques physiques, en manipulation notamment sur des bras comme Franka Emika ou UR5, pour confirmer que l'abstraction apprise en simulation survit au passage au monde réel.
Dans nos dossiers




