
RMTL : apprentissage par renforcement sur micro-tâches pour la manipulation à long terme avec récompenses VLM
Une équipe de chercheurs a publié en juin 2026, via arXiv (identifiant 2606.26175), une méthode baptisée RMTL (Reinforced Micro-Task Learning) visant à résoudre un problème central de l'apprentissage par renforcement appliqué à la manipulation robotique : la conception du signal de récompense. Plutôt que de s'appuyer sur une fonction de récompense dense codée manuellement (coûteuse à calibrer et souvent fragile) ou sur des démonstrations humaines, RMTL exploite des modèles vision-langage (VLM) préentraînés comme signaux de récompense zero-shot. La nouveauté réside dans la décomposition de la tâche globale en un petit ensemble de micro-tâches décrites en langage naturel, chacune associée à un prompt dédié. À chaque étape, l'agent reçoit une récompense calculée par le VLM selon la micro-tâche active, moyennée sur plusieurs angles de caméra pour atténuer les effets d'occlusion. Un curriculum inverse expose progressivement l'agent à des conditions initiales plus difficiles, tandis qu'un gestionnaire hiérarchique appris remplace une règle de sélection de phase basée sur la distance. Les expériences ont été menées sur l'environnement Fetch, benchmark standard de la manipulation en simulation, avec seulement trois prompts courts sans ajustement supplémentaire.
L'apport principal est l'amélioration significative du signal d'apprentissage par rapport à une approche VLM à prompt unique. Un prompt global produit un signal de récompense quasi-plat en début de trajectoire : l'agent ne détecte pas ses progrès précoces, ce qui ralentit drastiquement la convergence sur des tâches à long horizon. RMTL répond à ce problème structurel en rendant chaque micro-tâche localement observable. Pour les équipes cherchant à réduire leur dépendance aux démonstrations humaines ou à l'ingénierie manuelle des récompenses, cela représente une piste sérieuse pour rendre le RL guidé par le langage plus scalable sans coût d'annotation supplémentaire.
Ce travail s'inscrit dans une vague active de recherches utilisant les VLMs comme substituts de fonctions de récompense, dont EUREKA de NVIDIA ou les approches SayCan de Google DeepMind. Contrairement à certaines de ces méthodes qui nécessitent un fine-tuning ou des démonstrations vidéo, RMTL mise sur une décomposition minimale en trois phases sans recalibrage des prompts. L'évaluation reste cependant confinée à la simulation sur robot Fetch, et aucun résultat sur plateforme physique n'est rapporté. La prochaine étape critique sera de valider si cette approche tient face au gap sim-to-real, notamment sur des manipulateurs physiques avec variabilité sensorielle réelle.
Dans nos dossiers




