Évolution des récompenses par graphe de pensées :…

Stabilité de la récompense par transition d'étapes pour l'apprentissage par renforcement

39

1arXiv cs.RO

Stabilité de la récompense par transition d'étapes pour l'apprentissage par renforcement

Une équipe de recherche présente STDR (Stage-Transition Dense Reward), un framework qui transforme des vidéos de démonstration non structurées en récompenses denses pour entraîner des agents d'apprentissage par renforcement (RL) sur des tâches de manipulation robotique à long horizon, sans design manuel de fonction de récompense. Le système infère automatiquement la structure en étapes d'une tâche à partir des démonstrations, puis fournit deux signaux complémentaires pendant l'entraînement en ligne : une récompense orientée objectif à chaque transition d'étape, et un signal de progression fine à l'intérieur de chaque étape. Un mécanisme de détection hors distribution (OOD) et un module de régulation de la préhension ont été ajoutés pour éviter le "reward hacking", ce biais classique où l'agent exploite des failles de la fonction de récompense plutôt que d'accomplir réellement la tâche. Les tests couvrent 14 tâches de manipulation réparties sur trois bancs d'essai standards du domaine, MetaWorld, ManiSkill et Franka Kitchen, avec des validations complémentaires sur robot réel. L'enjeu dépasse la seule performance académique. Concevoir des récompenses denses à la main reste l'un des goulots d'étranglement majeurs du RL appliqué à la robotique industrielle : chaque nouvelle tâche, chaque nouvelle configuration d'objets impose de retravailler manuellement le signal d'apprentissage, ce qui freine le déploiement à grande échelle chez les intégrateurs. En montrant que STDR égale voire dépasse les récompenses handcrafted sur plusieurs tâches complexes, tout en gagnant en efficacité d'échantillonnage, l'étude appuie l'hypothèse selon laquelle l'apprentissage par vidéos de démonstration peut remplacer l'ingénierie de récompense ad hoc, un argument déterminant pour accélérer l'entraînement de bras robotiques ou de mains manipulatrices en environnement réel plutôt qu'en simulation pure. Ce travail s'inscrit dans la lignée des recherches sur l'apprentissage de récompenses par vision (reward learning from video), un axe actif face aux limites du reward shaping manuel et aux coûts d'annotation. Les résultats sur robot réel, où STDR assigne des récompenses stables et bien calibrées sur les exécutions réussies tout en pénalisant correctement les échecs, suggèrent une robustesse au bruit visuel qui manquait souvent aux approches précédentes. Les prochaines étapes attendues porteront sur l'extension à des tâches encore plus longues et sur l'intégration avec des politiques de type VLA (vision-language-action) pour la généralisation multi-tâches.

RecherchePaper

1 source

HARBOR : un cadre d'apprentissage par renforcement pour robots à base d'agents

42

2arXiv cs.RO

HARBOR : un cadre d'apprentissage par renforcement pour robots à base d'agents

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.08610) HARBOR, un framework agentique conçu pour automatiser les pipelines d'apprentissage par renforcement (RL) appliqués à la robotique. Partant d'une spécification de tâche et d'une base de code simulateur, le système prend en charge l'ensemble du workflow : configuration de l'environnement, conception des fonctions de récompense, entraînement de la politique et tuning des hyperparamètres. HARBOR décompose ces objectifs de haut niveau en étapes bornées confiées à des agents spécialisés, coordonnés via des commandes standardisées, des artefacts persistants et des portes d'exécution vérifiables. Il scale l'itération par essais parallèles décentralisés et capitalise sur l'expérience accumulée entre les runs. Le framework a été évalué sur 6 benchmarks couvrant 16 tâches de manipulation, locomotion et contrôle bimanuel dextère. Les politiques entraînées en simulation ont ensuite été transférées sur de vrais robots. L'intérêt principal de HARBOR tient à ce qu'il attaque directement le principal frein à l'adoption du RL en robotique industrielle : la charge d'ingénierie experte requise pour chaque nouvelle tâche. Reward shaping, sélection d'algorithmes, tuning fin des hyperparamètres représentent aujourd'hui des semaines de travail spécialisé avant d'obtenir une politique viable. En automatisant ce cycle de bout en bout à un coût pratique en tokens et en temps de calcul, HARBOR abaisse concrètement la barrière d'entrée pour les intégrateurs et les équipes R&D industrielles. Le fait que les politiques se transfèrent au robot réel adresse le "sim-to-real gap", un verrou persistant du secteur. Les résultats publiés indiquent que le framework égale ou surpasse les configurations par défaut sur les benchmarks testés, bien que les conditions exactes d'évaluation méritent d'être examinées dans le papier complet avant d'en tirer des conclusions généralisées. HARBOR s'inscrit dans une tendance émergente qui consiste à utiliser des LLMs comme orchestrateurs de pipelines ML complexes, dans la lignée de travaux comme Eureka (NVIDIA, 2023), qui utilisait GPT-4 pour générer automatiquement des reward functions via evolutionary search, ou des approches AutoRL de Berkeley et Google DeepMind. HARBOR semble aller plus loin en couvrant l'intégralité du workflow plutôt que le seul reward design. Les auteurs ne sont pas identifiés dans l'abstract disponible, et aucune affiliation institutionnelle ni application industrielle spécifique n'est mentionnée : il s'agit d'un preprint de recherche, pas d'un produit commercialisé. Les prochaines étapes naturelles concerneront l'intégration avec des simulateurs standards (Isaac Sim, MuJoCo), des validations sur des plateformes humanoïdes complexes, et une éventuelle ouverture du code.

RecherchePaper

1 source

RARM : modèle de récompenses de progression à seuil de confiance pour l'apprentissage par renforcement en manipulation

42

3arXiv cs.RO

RARM : modèle de récompenses de progression à seuil de confiance pour l'apprentissage par renforcement en manipulation

Des chercheurs ont publié sur arXiv (réf. 2606.22027) RARM, pour Reference-Anchored Reward Model, une approche visant à résoudre un verrou central de l'apprentissage par renforcement (RL) en manipulation robotique : la conception des fonctions de récompense. La méthode repose sur un comparateur visuel léger qui, à partir d'une seule démonstration réussie, génère automatiquement un signal de récompense dense et progressif. RARM est pré-entraîné une unique fois sur des vidéos généralistes via un objectif de contraste temporel, sans données robot-spécifiques ni étiquetage manuel. Au déploiement, il compare des extraits de la tentative courante à des clips de référence et ne délivre une récompense que lorsque la correspondance dépasse un seuil de confiance (d'où l'appellation confidence-gated). Évalué sur 9 tâches de manipulation simulées issues des benchmarks LIBERO et MetaWorld ainsi que sur 4 tâches réelles, RARM obtient les meilleurs taux de succès globaux en entraînement RL, avec des gains particulièrement marqués sur des tâches longue durée comme le pliage de tissu. Le verrou qu'attaque RARM est fondamental : les récompenses éparses (succès/échec en fin de séquence) produisent un signal trop faible pour les tâches longues, tandis que les récompenses denses codées manuellement exigent une ingénierie fastidieuse et se généralisent mal d'une tâche à l'autre. Les approches de progression existantes souffraient d'un biais critique : elles attribuaient des récompenses élevées à des états visuellement plausibles mais physiquement incorrects, ce que la porte de confiance de RARM réduit directement. L'implication concrète pour les intégrateurs est qu'une seule vidéo de démonstration humaine suffit désormais à bootstrapper l'entraînement RL sur une nouvelle tâche, sans ré-ingénierie de la fonction de récompense. RARM se positionne en concurrence directe avec EUREKA (OpenAI, génération de récompenses via LLM) et les méthodes d'imitation inverse (IRL), dont il se distingue par sa légèreté et l'absence de données robot-spécifiques. Son objectif de généralisation le rapproche des ambitions des modèles VLA comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La publication reste un preprint arXiv, pas encore un produit ni un déploiement industriel ; les prochaines étapes attendues incluent une validation sur des plateformes hardware diversifiées et une intégration dans des pipelines de fine-tuning de modèles fondationnels robotiques.

RecherchePaper

1 source

SOLE-R1 : le raisonnement vidéo-langage comme unique récompense pour l'apprentissage par renforcement sur robot

45

4arXiv cs.RO

SOLE-R1 : le raisonnement vidéo-langage comme unique récompense pour l'apprentissage par renforcement sur robot

Des chercheurs du MIT ont publié SOLE-R1 (Self-Observing LEarner), un modèle de raisonnement vidéo-langage conçu pour fonctionner comme signal de récompense exclusif dans l'apprentissage par renforcement (RL) en robotique, sans aucun accès à des récompenses terrain, indicateurs de succès, démonstrations ou réglages spécifiques à la tâche. Soumis sur arXiv (2503.28730v2), le système prend en entrée uniquement des observations vidéo brutes et un objectif en langage naturel, puis génère à chaque pas de temps un raisonnement spatiotemporel de type chain-of-thought (CoT) pour estimer de façon dense la progression de la tâche. Entraîné sur un pipeline de synthèse massif de trajectoires vidéo annotées temporellement, SOLE-R1 combine fine-tuning supervisé et RL depuis des récompenses vérifiables. Évalué sur quatre environnements de simulation distincts et en setting réel, il réussit 24 tâches de manipulation inédites en apprentissage zéro-shot depuis une initialisation aléatoire. L'enjeu central que résout SOLE-R1 est celui du reward hacking : aujourd'hui, utiliser un VLM généraliste comme évaluateur RL expose le système à des erreurs perceptuelles sous observabilité partielle ou changement de distribution, que la politique apprenante exploite rapidement au lieu de résoudre réellement la tâche. SOLE-R1 surpasse nettement des comparatifs forts - Robometer, RoboReward, ReWiND, mais aussi GPT-5 et Gemini-3-Pro - sur la robustesse à ce phénomène. Pour les intégrateurs et ingénieurs robotique, c'est un signal concret que le goulot d'étranglement du RL sur robot réel (définir une fonction de récompense dense et fiable) peut être délégué à un modèle de raisonnement vidéo entraîné spécifiquement, sans instrumentation matérielle supplémentaire. SOLE-R1 s'inscrit dans un courant actif qui cherche à remplacer les récompenses codées à la main par des superviseurs fondationnels (EUREKA d'NVIDIA, VLM-RM, SuSIE). La différence revendiquée ici est le raisonnement CoT temporel explicite par pas de temps, contre des évaluations épisodiques ou des scores scalaires instantanés. Le projet est encore au stade preprint sans déploiement industriel annoncé, mais les modèles, données et code sont publiés en open access sur la page anonyme du MIT. Les prochaines étapes naturelles seraient la validation sur des plateformes commerciales (Figure, Unitree, Boston Dynamics Spot) et l'extension à des tâches longue-horizon en environnement non structuré, deux gaps que l'article ne comble pas encore.

RechercheOpinion

1 source

Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement

À lire aussi

Stabilité de la récompense par transition d'étapes pour l'apprentissage par renforcement

HARBOR : un cadre d'apprentissage par renforcement pour robots à base d'agents

RARM : modèle de récompenses de progression à seuil de confiance pour l'apprentissage par renforcement en manipulation

SOLE-R1 : le raisonnement vidéo-langage comme unique récompense pour l'apprentissage par renforcement sur robot