Stabilité de la récompense par transition d'étapes pour l'apprentissage par renforcement
Une équipe de recherche présente STDR (Stage-Transition Dense Reward), un framework qui transforme des vidéos de démonstration non structurées en récompenses denses pour entraîner des agents d'apprentissage par renforcement (RL) sur des tâches de manipulation robotique à long horizon, sans design manuel de fonction de récompense. Le système infère automatiquement la structure en étapes d'une tâche à partir des démonstrations, puis fournit deux signaux complémentaires pendant l'entraînement en ligne : une récompense orientée objectif à chaque transition d'étape, et un signal de progression fine à l'intérieur de chaque étape. Un mécanisme de détection hors distribution (OOD) et un module de régulation de la préhension ont été ajoutés pour éviter le "reward hacking", ce biais classique où l'agent exploite des failles de la fonction de récompense plutôt que d'accomplir réellement la tâche. Les tests couvrent 14 tâches de manipulation réparties sur trois bancs d'essai standards du domaine, MetaWorld, ManiSkill et Franka Kitchen, avec des validations complémentaires sur robot réel.
L'enjeu dépasse la seule performance académique. Concevoir des récompenses denses à la main reste l'un des goulots d'étranglement majeurs du RL appliqué à la robotique industrielle : chaque nouvelle tâche, chaque nouvelle configuration d'objets impose de retravailler manuellement le signal d'apprentissage, ce qui freine le déploiement à grande échelle chez les intégrateurs. En montrant que STDR égale voire dépasse les récompenses handcrafted sur plusieurs tâches complexes, tout en gagnant en efficacité d'échantillonnage, l'étude appuie l'hypothèse selon laquelle l'apprentissage par vidéos de démonstration peut remplacer l'ingénierie de récompense ad hoc, un argument déterminant pour accélérer l'entraînement de bras robotiques ou de mains manipulatrices en environnement réel plutôt qu'en simulation pure.
Ce travail s'inscrit dans la lignée des recherches sur l'apprentissage de récompenses par vision (reward learning from video), un axe actif face aux limites du reward shaping manuel et aux coûts d'annotation. Les résultats sur robot réel, où STDR assigne des récompenses stables et bien calibrées sur les exécutions réussies tout en pénalisant correctement les échecs, suggèrent une robustesse au bruit visuel qui manquait souvent aux approches précédentes. Les prochaines étapes attendues porteront sur l'extension à des tâches encore plus longues et sur l'intégration avec des politiques de type VLA (vision-language-action) pour la généralisation multi-tâches.
Dans nos dossiers




