
Robometer : mise à l'échelle des modèles de récompense robotique généralistes par comparaison de trajectoires
Des chercheurs ont publié Robometer, un cadre de modélisation de récompense (reward model) généraliste pour robots, conçu pour s'entraîner sur de grands datasets incluant des trajectoires échouées et sous-optimales. Le système repose sur un double objectif d'apprentissage : une perte de progression par frame ancrée sur des données expertes, et une perte de comparaison de préférences entre trajectoires imposant des contraintes d'ordonnancement global entre différentes exécutions d'une même tâche. Pour soutenir cette approche à grande échelle, les auteurs ont constitué RBM-1M, un dataset dédié à l'apprentissage de récompenses comprenant plus d'un million de trajectoires couvrant des robots de morphologies et de tâches variées, avec une fraction substantielle de données sous-optimales et d'échecs avérés. Le code, les poids du modèle et des vidéos sont accessibles sur robometer.github.io.
L'enjeu est de surmonter la limitation fondamentale des reward models actuels, entraînés à prédire la progression absolue d'une tâche uniquement depuis des démonstrations expertes, ce qui confère une supervision purement locale et se révèle peu scalable face aux vastes datasets robotiques peuplés de trajectoires ratées ou imparfaites. Robometer exploite les comparaisons inter-trajectoires comme signal de supervision global, permettant d'extraire de l'information utile même des séquences d'échec et de lever l'ambiguïté de l'assignation de labels de progression denses. Ce changement de paradigme est significatif pour les praticiens : si les gains annoncés sur benchmarks et évaluations en conditions réelles se confirment indépendamment, les coûts de curation de données pour l'entraînement de politiques robotiques pourraient être substantiellement réduits.
La modélisation de récompenses à grande échelle est un problème ouvert depuis plusieurs années dans la communauté robotique, avec des approches comme EUREKA d'NVIDIA ou les variantes robotiques du RLHF (Reinforcement Learning from Human Feedback) qui cherchent toutes à réduire la dépendance à l'annotation humaine dense. Robometer se positionne comme une alternative généraliste et multi-embodiment, sans être lié à une architecture ou un robot spécifique. Les suites naturelles incluent l'intégration dans des pipelines VLA (Vision-Language-Action), où la qualité du signal de récompense conditionne directement la généralisabilité des politiques apprises à l'échelle ; l'ouverture du code et des poids rend désormais possible des validations indépendantes, condition nécessaire pour confirmer les bénéfices au-delà du cadre expérimental des auteurs.




