Des démonstrations aux récompenses : optimisation de prompts au moment du test pour les modèles de récompense VLM
Des chercheurs ont publié sur arXiv (arXiv:2606.00083) une méthode baptisée Demo2Reward, qui adapte automatiquement les instructions textuelles d'un modèle de récompense basé sur un VLM (Vision-Language Model) à partir d'un petit nombre de trajectoires expertes, typiquement 3 à 10 démonstrations. L'objectif est de réduire les faux positifs que produisent les VLMs utilisés tel quel comme évaluateurs de politique en apprentissage par renforcement. La technique opère en phase de test (test-time adaptation), sans ré-entraînement du modèle ni ressources de calcul supplémentaires pendant l'apprentissage de la politique. Les auteurs démontrent que Demo2Reward surpasse les approches zero-shot et few-shot existantes sur plusieurs tâches robotiques simulées, et valident le transfert vers un scénario d'apprentissage en environnement réel.
La conception de fonctions de récompense reste l'un des principaux goulots d'étranglement en robotique par renforcement. Les approches manuelles exigent une expertise domaine significative et ne passent pas à l'échelle sur des tâches variées. L'utilisation des VLMs comme juges zero-shot est prometteuse mais fragile: un faux positif, c'est-à-dire le modèle qui valide une trajectoire incorrecte, corrompt l'entraînement de façon cumulative. Demo2Reward résout ce problème pragmatiquement en exploitant les quelques démonstrations déjà collectées pour amorcer l'apprentissage, afin de calibrer automatiquement le prompt du VLM, sans annotation supplémentaire. Ce résultat suggère que le fossé entre ingénierie de récompense manuelle et supervision automatique via VLM peut être comblé à faible coût computationnel, argument concret pour les équipes cherchant à réduire l'intervention humaine dans leurs pipelines RL.
L'exploitation des VLMs comme fonctions de récompense est un axe actif depuis 2023, porté notamment par EUREKA (NVIDIA, qui utilise GPT-4 pour générer du code de récompense) et des approches basées sur CLIP comme évaluateurs de trajectoires. Demo2Reward se différencie par son focus sur la correction du prompt plutôt que sur la génération de code, et par l'utilisation explicite de démonstrations comme signal de calibration, ce qui le rend directement exploitable dans les pipelines existants. Du côté des acteurs concurrents, Google DeepMind, Physical Intelligence avec pi0, et plusieurs laboratoires académiques explorent des pistes proches pour automatiser la supervision en robotique. La contribution reste un preprint arXiv sans déploiement industriel ni partenariat commercial annoncé. Les étapes naturelles seraient une validation sur des manipulateurs en environnement industriel non structuré ou sur des plateformes humanoïdes, là où les récompenses manuelles sont les plus coûteuses à concevoir.
Dans nos dossiers




