
RARM : modèle de récompenses de progression à seuil de confiance pour l'apprentissage par renforcement en manipulation
Des chercheurs ont publié sur arXiv (réf. 2606.22027) RARM, pour Reference-Anchored Reward Model, une approche visant à résoudre un verrou central de l'apprentissage par renforcement (RL) en manipulation robotique : la conception des fonctions de récompense. La méthode repose sur un comparateur visuel léger qui, à partir d'une seule démonstration réussie, génère automatiquement un signal de récompense dense et progressif. RARM est pré-entraîné une unique fois sur des vidéos généralistes via un objectif de contraste temporel, sans données robot-spécifiques ni étiquetage manuel. Au déploiement, il compare des extraits de la tentative courante à des clips de référence et ne délivre une récompense que lorsque la correspondance dépasse un seuil de confiance (d'où l'appellation confidence-gated). Évalué sur 9 tâches de manipulation simulées issues des benchmarks LIBERO et MetaWorld ainsi que sur 4 tâches réelles, RARM obtient les meilleurs taux de succès globaux en entraînement RL, avec des gains particulièrement marqués sur des tâches longue durée comme le pliage de tissu.
Le verrou qu'attaque RARM est fondamental : les récompenses éparses (succès/échec en fin de séquence) produisent un signal trop faible pour les tâches longues, tandis que les récompenses denses codées manuellement exigent une ingénierie fastidieuse et se généralisent mal d'une tâche à l'autre. Les approches de progression existantes souffraient d'un biais critique : elles attribuaient des récompenses élevées à des états visuellement plausibles mais physiquement incorrects, ce que la porte de confiance de RARM réduit directement. L'implication concrète pour les intégrateurs est qu'une seule vidéo de démonstration humaine suffit désormais à bootstrapper l'entraînement RL sur une nouvelle tâche, sans ré-ingénierie de la fonction de récompense.
RARM se positionne en concurrence directe avec EUREKA (OpenAI, génération de récompenses via LLM) et les méthodes d'imitation inverse (IRL), dont il se distingue par sa légèreté et l'absence de données robot-spécifiques. Son objectif de généralisation le rapproche des ambitions des modèles VLA comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La publication reste un preprint arXiv, pas encore un produit ni un déploiement industriel ; les prochaines étapes attendues incluent une validation sur des plateformes hardware diversifiées et une intégration dans des pipelines de fine-tuning de modèles fondationnels robotiques.




