Aller au contenu principal
RMTL : apprentissage par renforcement sur micro-tâches pour la manipulation à long terme avec récompenses VLM
RecherchearXiv cs.RO2h

RMTL : apprentissage par renforcement sur micro-tâches pour la manipulation à long terme avec récompenses VLM

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié en juin 2026, via arXiv (identifiant 2606.26175), une méthode baptisée RMTL (Reinforced Micro-Task Learning) visant à résoudre un problème central de l'apprentissage par renforcement appliqué à la manipulation robotique : la conception du signal de récompense. Plutôt que de s'appuyer sur une fonction de récompense dense codée manuellement (coûteuse à calibrer et souvent fragile) ou sur des démonstrations humaines, RMTL exploite des modèles vision-langage (VLM) préentraînés comme signaux de récompense zero-shot. La nouveauté réside dans la décomposition de la tâche globale en un petit ensemble de micro-tâches décrites en langage naturel, chacune associée à un prompt dédié. À chaque étape, l'agent reçoit une récompense calculée par le VLM selon la micro-tâche active, moyennée sur plusieurs angles de caméra pour atténuer les effets d'occlusion. Un curriculum inverse expose progressivement l'agent à des conditions initiales plus difficiles, tandis qu'un gestionnaire hiérarchique appris remplace une règle de sélection de phase basée sur la distance. Les expériences ont été menées sur l'environnement Fetch, benchmark standard de la manipulation en simulation, avec seulement trois prompts courts sans ajustement supplémentaire.

L'apport principal est l'amélioration significative du signal d'apprentissage par rapport à une approche VLM à prompt unique. Un prompt global produit un signal de récompense quasi-plat en début de trajectoire : l'agent ne détecte pas ses progrès précoces, ce qui ralentit drastiquement la convergence sur des tâches à long horizon. RMTL répond à ce problème structurel en rendant chaque micro-tâche localement observable. Pour les équipes cherchant à réduire leur dépendance aux démonstrations humaines ou à l'ingénierie manuelle des récompenses, cela représente une piste sérieuse pour rendre le RL guidé par le langage plus scalable sans coût d'annotation supplémentaire.

Ce travail s'inscrit dans une vague active de recherches utilisant les VLMs comme substituts de fonctions de récompense, dont EUREKA de NVIDIA ou les approches SayCan de Google DeepMind. Contrairement à certaines de ces méthodes qui nécessitent un fine-tuning ou des démonstrations vidéo, RMTL mise sur une décomposition minimale en trois phases sans recalibrage des prompts. L'évaluation reste cependant confinée à la simulation sur robot Fetch, et aucun résultat sur plateforme physique n'est rapporté. La prochaine étape critique sera de valider si cette approche tient face au gap sim-to-real, notamment sur des manipulateurs physiques avec variabilité sensorielle réelle.

À lire aussi

RARM : modèle de récompenses de progression à seuil de confiance pour l'apprentissage par renforcement en manipulation
1arXiv cs.RO 

RARM : modèle de récompenses de progression à seuil de confiance pour l'apprentissage par renforcement en manipulation

Des chercheurs ont publié sur arXiv (réf. 2606.22027) RARM, pour Reference-Anchored Reward Model, une approche visant à résoudre un verrou central de l'apprentissage par renforcement (RL) en manipulation robotique : la conception des fonctions de récompense. La méthode repose sur un comparateur visuel léger qui, à partir d'une seule démonstration réussie, génère automatiquement un signal de récompense dense et progressif. RARM est pré-entraîné une unique fois sur des vidéos généralistes via un objectif de contraste temporel, sans données robot-spécifiques ni étiquetage manuel. Au déploiement, il compare des extraits de la tentative courante à des clips de référence et ne délivre une récompense que lorsque la correspondance dépasse un seuil de confiance (d'où l'appellation confidence-gated). Évalué sur 9 tâches de manipulation simulées issues des benchmarks LIBERO et MetaWorld ainsi que sur 4 tâches réelles, RARM obtient les meilleurs taux de succès globaux en entraînement RL, avec des gains particulièrement marqués sur des tâches longue durée comme le pliage de tissu. Le verrou qu'attaque RARM est fondamental : les récompenses éparses (succès/échec en fin de séquence) produisent un signal trop faible pour les tâches longues, tandis que les récompenses denses codées manuellement exigent une ingénierie fastidieuse et se généralisent mal d'une tâche à l'autre. Les approches de progression existantes souffraient d'un biais critique : elles attribuaient des récompenses élevées à des états visuellement plausibles mais physiquement incorrects, ce que la porte de confiance de RARM réduit directement. L'implication concrète pour les intégrateurs est qu'une seule vidéo de démonstration humaine suffit désormais à bootstrapper l'entraînement RL sur une nouvelle tâche, sans ré-ingénierie de la fonction de récompense. RARM se positionne en concurrence directe avec EUREKA (OpenAI, génération de récompenses via LLM) et les méthodes d'imitation inverse (IRL), dont il se distingue par sa légèreté et l'absence de données robot-spécifiques. Son objectif de généralisation le rapproche des ambitions des modèles VLA comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La publication reste un preprint arXiv, pas encore un produit ni un déploiement industriel ; les prochaines étapes attendues incluent une validation sur des plateformes hardware diversifiées et une intégration dans des pipelines de fine-tuning de modèles fondationnels robotiques.

RecherchePaper
1 source
Apprentissage par renforcement avec supervision humaine calibré sur les préférences pour la manipulation robotique
2arXiv cs.RO 

Apprentissage par renforcement avec supervision humaine calibré sur les préférences pour la manipulation robotique

Une équipe de chercheurs publie dans un préprint arXiv daté du 3 juin 2026 PACT (Preference-calibrated Actor-Critic Training), un cadre d'apprentissage par renforcement avec supervision humaine (HIL-RL) pour la manipulation robotique. Le problème ciblé est connu : quand un opérateur reprend la main pour corriger le robot, les trajectoires collectées contiennent des segments suboptimaux que les méthodes actuelles propagent indistinctement dans le calcul des récompenses, surestimant les Q-valeurs et biaisant la politique vers des comportements sous-performants. PACT introduit un modèle de progression entraîné sur des démonstrations humaines pour identifier ces segments défaillants, puis construit des paires de préférence entre l'action correctrice humaine et l'action rééchantillonnée de la politique au même état d'intervention. Cette comparaison génère un avantage contrefactuel qui pénalise les cibles de Bellman sur les segments suboptimaux, complété par un alignement direct de la politique sur les actions correctives dans l'espace des moyennes bornées. Sur cinq tâches de manipulation réelle-robot, PACT affiche une amélioration moyenne du taux de succès de 24,5 % et une convergence 1,3 fois plus rapide que les méthodes HIL-RL de référence. Le code est disponible en open source sur dépôt GitHub anonymisé. Ces résultats s'attaquent à un goulot d'étranglement pratique du HIL-RL : la supervision humaine améliore l'efficacité en échantillons, mais introduit du bruit quand les corrections arrivent après plusieurs actions déjà incorrectes. En extrayant les signaux de préférence implicitement des interventions, sans annotation post-hoc coûteuse, PACT permet à un opérateur non-expert d'intervenir naturellement pendant l'entraînement sans dégrader la qualité des données. La convergence accélérée réduit directement le temps d'adaptation sur de nouvelles tâches, un facteur critique pour le déploiement en environnements industriels variables. Le HIL-RL s'appuie sur des travaux fondateurs comme DAgger (Ross et al., 2011) et IWR (Mandlekar et al., 2020), complétés par des variantes comme HG-DAgger, qui pondèrent les transitions différemment sans toutefois distinguer explicitement les segments suboptimaux. PACT se positionne comme une extension ciblée de cette famille. La manipulation robotique est par ailleurs traversée par les approches VLA (Vision-Language-Action), comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui misent sur la généralisation zero-shot, une stratégie complémentaire plutôt qu'opposée au fine-tuning supervisé par intervention humaine. Le préprint, non encore peer-reviewed, ne mentionne ni partenaires industriels ni calendrier de déploiement ; la distance entre banc de test robotique de laboratoire et production industrielle reste entière.

UEImpact indirect : ce cadre HIL-RL open-source pourrait accélérer les travaux des équipes européennes de robotique industrielle cherchant à réduire le coût d'adaptation de robots à de nouvelles tâches en production.

RecherchePaper
1 source
VE2VF : distillation vision vers sans vision par apprentissage par renforcement pour la manipulation robuste avec contacts
3arXiv cs.RO 

VE2VF : distillation vision vers sans vision par apprentissage par renforcement pour la manipulation robuste avec contacts

Des chercheurs ont présenté VE2VF (Vision-Enabled to Vision-Free), un cadre d'apprentissage par renforcement (RL) pour la manipulation robotique en contact riche, publié en préprint sur arXiv (2605.29564). La méthode repose sur une distillation enseignant-élève conduite intégralement sur robot réel, sans simulation ni randomisation de domaine. Un module "enseignant" équipé de vision apprend d'abord la tâche, puis transfère sa politique à un "élève" n'utilisant que la pose, le twist et le wrench (position/orientation, vitesse et couple de force), sans aucun flux caméra. Sur le benchmark NIST d'assemblage, référence standardisée pour les tâches d'insertion de précision, le système atteint 95 % de taux de succès global après environ 50 minutes d'entraînement sur 3 tâches représentatives, et généralise à 8 variantes non vues lors de l'entraînement. Un fine-tuning par distillation permet d'atteindre 100 % de succès sur la variante la plus difficile. Ce résultat adresse un problème structurel en robotique industrielle: les politiques basées sur la vision surapprennent les conditions d'éclairage et de fond vues à l'entraînement, ce qui fragilise leur déploiement en environnement de production variable. En éliminant la vision à l'inférence tout en l'exploitant pendant l'apprentissage, VE2VF produit des politiques robustes aux perturbations visuelles sans coût supplémentaire en données. Plus significatif encore: atteindre cette généralisation en moins d'une heure d'entraînement réel suggère qu'on peut contourner le sim-to-real gap sans simulateur haute-fidélité ni dataset synthétique massif. Pour les intégrateurs déployant des cellules d'assemblage de précision, la combinaison rapidité d'adaptation et robustesse proprioceptive est directement actionnable. Le benchmark NIST Assembly Task Board est utilisé depuis plusieurs années comme terrain de comparaison inter-équipes en manipulation de précision, ce qui confère à ces résultats une lisibilité relative face aux travaux antérieurs. Les approches concurrentes combinent généralement simulation, randomisation de domaine et larges volumes de données synthétiques avant transfert sur robot réel. VE2VF se positionne comme une alternative ancrée dans le réel, avec une boucle human-in-the-loop permettant de superviser l'apprentissage en cours de session. Il s'agit à ce stade d'un préprint de recherche, non d'un système en production ni d'un produit commercialisé. Les suites naturelles incluent des tests sur d'autres plateformes matérielles et des tâches industrielles plus complexes, ainsi qu'une confrontation directe avec les approches de type VLA (Vision-Language-Action) qui ciblent elles aussi la généralisation en manipulation contact-riche à grande échelle.

RecherchePaper
1 source
Comparaison des espaces d'action en apprentissage par renforcement pour la manipulation robotique basée sur la vision
4arXiv cs.RO 

Comparaison des espaces d'action en apprentissage par renforcement pour la manipulation robotique basée sur la vision

Des chercheurs ont publié le 23 juin 2026 une étude comparative systématique (arXiv:2606.18594) évaluant quatre types d'espaces d'action en apprentissage par renforcement (RL) pour la manipulation robotique visuelle : l'incrément de pose, la vitesse de pose, l'incrément de position articulaire, et la vitesse articulaire. Les politiques ont été entraînées en simulation puis déployées sur robot réel via transfert sim-to-réel, sur deux tâches benchmark : la saisie d'objet et la poussée d'objet. Résultat principal : l'espace d'action en vitesse articulaire (joint velocity) surpasse les trois autres alternatives, aussi bien en fluidité de mouvement qu'en performance finale sur les deux tâches testées. Ce résultat a une portée pratique directe pour les ingénieurs qui conçoivent des systèmes de manipulation autonome. Le choix de l'espace d'action est une décision d'architecture souvent sous-documentée dans la littérature RL appliquée, et les praticiens se retrouvent fréquemment à tâtonner empiriquement. En démontrant que la vitesse articulaire favorise à la fois la sécurité (mouvements plus lisses, moins de à-coups) et la performance sur des tâches visuelles, l'étude fournit une recommandation actionnable. Elle confirme aussi que le gap sim-to-réel dépend non seulement de la politique apprise, mais de la représentation même des actions, un levier souvent négligé dans les pipelines de transfert. Pour les intégrateurs travaillant avec des bras industriels ou des cobots, cette granularité de contrôle peut directement influer sur la durée de vie mécanique et la robustesse opérationnelle. L'étude s'inscrit dans un courant de recherche croissant sur la robustesse du transfert sim-to-réel pour la manipulation visuelle, aux côtés de travaux sur les politiques visuomotrices à base de transformeurs (VLA) comme pi-0 de Physical Intelligence ou les approches diffusion-policy popularisées par Columbia et Toyota Research Institute. Contrairement à ces méthodes qui s'intéressent à l'architecture du modèle, ce papier intervient en amont, au niveau du signal de commande lui-même. Les auteurs annoncent des recommandations pratiques pour le choix d'espace d'action selon le contexte (simulation seule ou déploiement réel), ce qui en fait une référence méthodologique utile pour les équipes démarrant un projet RL sur hardware.

RecherchePaper
1 source