Aller au contenu principal
RecherchearXiv cs.RO58min

Stabilité de la récompense par transition d'étapes pour l'apprentissage par renforcement

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche présente STDR (Stage-Transition Dense Reward), un framework qui transforme des vidéos de démonstration non structurées en récompenses denses pour entraîner des agents d'apprentissage par renforcement (RL) sur des tâches de manipulation robotique à long horizon, sans design manuel de fonction de récompense. Le système infère automatiquement la structure en étapes d'une tâche à partir des démonstrations, puis fournit deux signaux complémentaires pendant l'entraînement en ligne : une récompense orientée objectif à chaque transition d'étape, et un signal de progression fine à l'intérieur de chaque étape. Un mécanisme de détection hors distribution (OOD) et un module de régulation de la préhension ont été ajoutés pour éviter le "reward hacking", ce biais classique où l'agent exploite des failles de la fonction de récompense plutôt que d'accomplir réellement la tâche. Les tests couvrent 14 tâches de manipulation réparties sur trois bancs d'essai standards du domaine, MetaWorld, ManiSkill et Franka Kitchen, avec des validations complémentaires sur robot réel.

L'enjeu dépasse la seule performance académique. Concevoir des récompenses denses à la main reste l'un des goulots d'étranglement majeurs du RL appliqué à la robotique industrielle : chaque nouvelle tâche, chaque nouvelle configuration d'objets impose de retravailler manuellement le signal d'apprentissage, ce qui freine le déploiement à grande échelle chez les intégrateurs. En montrant que STDR égale voire dépasse les récompenses handcrafted sur plusieurs tâches complexes, tout en gagnant en efficacité d'échantillonnage, l'étude appuie l'hypothèse selon laquelle l'apprentissage par vidéos de démonstration peut remplacer l'ingénierie de récompense ad hoc, un argument déterminant pour accélérer l'entraînement de bras robotiques ou de mains manipulatrices en environnement réel plutôt qu'en simulation pure.

Ce travail s'inscrit dans la lignée des recherches sur l'apprentissage de récompenses par vision (reward learning from video), un axe actif face aux limites du reward shaping manuel et aux coûts d'annotation. Les résultats sur robot réel, où STDR assigne des récompenses stables et bien calibrées sur les exécutions réussies tout en pénalisant correctement les échecs, suggèrent une robustesse au bruit visuel qui manquait souvent aux approches précédentes. Les prochaines étapes attendues porteront sur l'extension à des tâches encore plus longues et sur l'intégration avec des politiques de type VLA (vision-language-action) pour la généralisation multi-tâches.

Dans nos dossiers

À lire aussi

Stabilité de l'apprentissage par renforcement guidé par fonction de Lyapunov de contrôle
1arXiv cs.RO 

Stabilité de l'apprentissage par renforcement guidé par fonction de Lyapunov de contrôle

Une équipe de chercheurs a publié mi-mai 2026 sur arXiv (arXiv:2605.01978) une analyse théorique de la stabilité des politiques de contrôle issues du reinforcement learning (RL) appliqué à la locomotion humanoïde. Le cœur du travail porte sur la technique dite CLF-RL, qui consiste à construire les fonctions de récompense du RL à partir de fonctions de Lyapunov de contrôle (Control Lyapunov Functions, CLF), un outil classique de la théorie du contrôle. Les auteurs démontrent formellement la stabilité exponentielle des contrôleurs optimaux résultants, aussi bien en temps continu qu'en temps discret, en traitant le problème RL comme un problème de commande optimale. Les résultats sont vérifiés numériquement sur des systèmes de référence académiques (double intégrateur, cart-pole), puis les récompenses guidées par CLF sont appliquées à un robot humanoïde marchant pour générer des orbites périodiques stables. Ce travail comble un écart critique entre la pratique et la théorie dans le domaine de la robotique humanoïde. Le RL est aujourd'hui la méthode dominante pour faire marcher des humanoïdes, avec des déploiements chez Figure, Tesla, Agility Robotics ou encore Unitree, mais ces systèmes manquent de garanties de stabilité formelles, ce qui freine leur certification pour des environnements industriels ou la cohabitation humain-robot. Prouver la stabilité exponentielle, c'est-à-dire démontrer que le système converge vers sa trajectoire cible à un taux borné même après une perturbation, est un résultat nettement plus fort que la simple stabilité au sens de Lyapunov. Pour un intégrateur ou un COO industriel, cela ouvre la voie à une qualification plus rigoureuse des systèmes RL en production. La CLF-RL s'inscrit dans un courant académique plus large qui tente de réconcilier l'efficacité empirique du RL avec la rigueur de la théorie du contrôle, un programme de recherche actif depuis les travaux sur la Control Barrier Function (CBF) et les approches de type safety-critical control. Face aux approches purement model-based (Boston Dynamics) ou au RL non guidé (Agility, Figure Gen-2), la CLF-RL propose une voie intermédiaire. Ce papier reste une contribution théorique et de simulation, sans déploiement matériel annoncé sur un humanoïde commercial, et la généralisation à des dynamiques complètes à haute dimension (32 DOF et plus) reste un défi ouvert.

UECes garanties formelles de stabilité exponentielle pourraient alimenter les futurs cadres de certification des humanoïdes en environnement industriel européen (AI Act, normes IEC 61508), mais aucun acteur français ou européen n'est impliqué dans ces travaux.

RecherchePaper
1 source
Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement
2arXiv cs.RO 

Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement

Une équipe de chercheurs a publié RE-GoT (Reward Evolution with Graph-of-Thoughts), un cadre de conception automatique de fonctions de récompense pour l'apprentissage par renforcement (RL). La méthode, présentée dans l'article arXiv:2509.16136 (version 5), associe des grands modèles de langage (LLM) à des modèles visuels (VLM) via un raisonnement structuré en graphe. RE-GoT décompose d'abord la tâche cible en un graphe d'attributs textuels, génère une fonction de récompense correspondante, puis la raffine itérativement en exploitant les retours visuels fournis par un VLM, sans intervention humaine. Évalué sur 10 tâches RoboGen et 4 tâches ManiSkill2, le système améliore le taux de succès moyen de 32,25 % sur RoboGen par rapport aux baselines LLM existantes, et atteint 93,73 % de taux de succès sur les quatre tâches de manipulation de ManiSkill2, dépassant même les récompenses conçues manuellement par des experts. L'enjeu est significatif : la conception des fonctions de récompense représente l'un des principaux goulots d'étranglement du RL appliqué à la robotique, et elle exige aujourd'hui une expertise humaine considérable ainsi que de nombreuses itérations manuelles. RE-GoT adresse deux faiblesses chroniques des approches LLM existantes : les hallucinations, que la structure en graphe réduit en contraignant le raisonnement, et l'incapacité à traiter des tâches multi-étapes complexes. Le fait que RE-GoT surpasse les récompenses expertes sur ManiSkill2 est notable, bien qu'il convienne de nuancer : les expériences restent dans des environnements simulés, et la question du sim-to-real gap, cruciale pour les industriels souhaitant déployer ces méthodes sur des robots physiques, n'est pas traitée dans ce travail. Ce travail s'inscrit dans une dynamique de recherche active depuis 2023, notamment portée par Eureka (NVIDIA, octobre 2023), qui utilisait GPT-4 pour générer des fonctions de récompense sur IsaacGym, ou par FunsSearch (DeepMind). RE-GoT se distingue en introduisant le paradigme Graph-of-Thoughts, une extension du Chain-of-Thought qui organise le raisonnement en graphe plutôt qu'en chaîne linéaire, permettant une analyse plus exhaustive des dépendances entre sous-tâches. Les prochaines étapes naturelles concernent la validation sur robots physiques et l'intégration à des pipelines sim-to-real comme ceux utilisés par Figure AI, Agility Robotics ou Boston Dynamics dans leurs boucles d'entraînement.

RecherchePaper
1 source
Apprentissage inverse de récompenses transférables par abstraction d'états
3arXiv cs.RO 

Apprentissage inverse de récompenses transférables par abstraction d'états

Une équipe de chercheurs a publié sur arXiv (identifiant 2501.01669) une méthode d'apprentissage par renforcement inverse (IRL) visant à extraire des fonctions de récompense abstraites et transférables à partir de trajectoires comportementales observées dans plusieurs configurations différentes d'un même domaine. Plutôt que de simplement reproduire le comportement observé, l'approche cherche à inférer les préférences intrinsèques sous-jacentes, puis à les réutiliser pour générer des comportements adaptés à des instances du domaine non vues pendant l'entraînement. La méthode requiert au minimum deux instances du domaine source pour apprendre la fonction abstraite, qui est ensuite testée sur une troisième instance distincte. Les expériences sont conduites exclusivement en simulation sur les benchmarks OpenAI Gym et AssistiveGym ; aucune validation sur hardware physique n'est présentée dans ce papier. L'enjeu opérationnel pour la robotique industrielle est direct : intégrer un robot dans une nouvelle ligne de production implique aujourd'hui une reprogrammation quasi-complète dès que la tâche évolue, même marginalement. Si une fonction de récompense abstraite peut capturer ce qui est "intrinsèquement souhaité" dans une famille de tâches alignées, un intégrateur pourrait déployer un robot sur une variante de tâche sans repartir de zéro. La méthode teste explicitement cette transférabilité, ce qui constitue une preuve de généralisation au-delà du simple ajustement de paramètres. Le gap sim-to-real n'est pas adressé dans cette version, ce qui limite la portée pratique immédiate, et les métriques présentées restent confinées aux benchmarks de simulation. L'IRL est un domaine de recherche actif depuis les travaux fondateurs d'Abbeel et Ng (début des années 2000), avec des développements récents vers les approches adversariales comme GAIL (Generative Adversarial Imitation Learning) et AIRL (Adversarial IRL). Cette contribution se distingue par l'utilisation de l'abstraction des états comme levier de transfert, plutôt que par l'adaptation de domaine ou le fine-tuning d'un modèle pré-entraîné. Les approches concurrentes incluent le méta-IRL et les méthodes IRL multi-tâches, qui partagent l'objectif de généralisation mais avec des formulations différentes. La suite logique serait une validation sur des plateformes robotiques physiques, en manipulation notamment sur des bras comme Franka Emika ou UR5, pour confirmer que l'abstraction apprise en simulation survit au passage au monde réel.

RecherchePaper
1 source
RMTL : apprentissage par renforcement sur micro-tâches pour la manipulation à long terme avec récompenses VLM
4arXiv cs.RO 

RMTL : apprentissage par renforcement sur micro-tâches pour la manipulation à long terme avec récompenses VLM

Une équipe de chercheurs a publié en juin 2026, via arXiv (identifiant 2606.26175), une méthode baptisée RMTL (Reinforced Micro-Task Learning) visant à résoudre un problème central de l'apprentissage par renforcement appliqué à la manipulation robotique : la conception du signal de récompense. Plutôt que de s'appuyer sur une fonction de récompense dense codée manuellement (coûteuse à calibrer et souvent fragile) ou sur des démonstrations humaines, RMTL exploite des modèles vision-langage (VLM) préentraînés comme signaux de récompense zero-shot. La nouveauté réside dans la décomposition de la tâche globale en un petit ensemble de micro-tâches décrites en langage naturel, chacune associée à un prompt dédié. À chaque étape, l'agent reçoit une récompense calculée par le VLM selon la micro-tâche active, moyennée sur plusieurs angles de caméra pour atténuer les effets d'occlusion. Un curriculum inverse expose progressivement l'agent à des conditions initiales plus difficiles, tandis qu'un gestionnaire hiérarchique appris remplace une règle de sélection de phase basée sur la distance. Les expériences ont été menées sur l'environnement Fetch, benchmark standard de la manipulation en simulation, avec seulement trois prompts courts sans ajustement supplémentaire. L'apport principal est l'amélioration significative du signal d'apprentissage par rapport à une approche VLM à prompt unique. Un prompt global produit un signal de récompense quasi-plat en début de trajectoire : l'agent ne détecte pas ses progrès précoces, ce qui ralentit drastiquement la convergence sur des tâches à long horizon. RMTL répond à ce problème structurel en rendant chaque micro-tâche localement observable. Pour les équipes cherchant à réduire leur dépendance aux démonstrations humaines ou à l'ingénierie manuelle des récompenses, cela représente une piste sérieuse pour rendre le RL guidé par le langage plus scalable sans coût d'annotation supplémentaire. Ce travail s'inscrit dans une vague active de recherches utilisant les VLMs comme substituts de fonctions de récompense, dont EUREKA de NVIDIA ou les approches SayCan de Google DeepMind. Contrairement à certaines de ces méthodes qui nécessitent un fine-tuning ou des démonstrations vidéo, RMTL mise sur une décomposition minimale en trois phases sans recalibrage des prompts. L'évaluation reste cependant confinée à la simulation sur robot Fetch, et aucun résultat sur plateforme physique n'est rapporté. La prochaine étape critique sera de valider si cette approche tient face au gap sim-to-real, notamment sur des manipulateurs physiques avec variabilité sensorielle réelle.

RechercheActu
1 source