
SOLE-R1 : le raisonnement vidéo-langage comme unique récompense pour l'apprentissage par renforcement sur robot
Des chercheurs du MIT ont publié SOLE-R1 (Self-Observing LEarner), un modèle de raisonnement vidéo-langage conçu pour fonctionner comme signal de récompense exclusif dans l'apprentissage par renforcement (RL) en robotique, sans aucun accès à des récompenses terrain, indicateurs de succès, démonstrations ou réglages spécifiques à la tâche. Soumis sur arXiv (2503.28730v2), le système prend en entrée uniquement des observations vidéo brutes et un objectif en langage naturel, puis génère à chaque pas de temps un raisonnement spatiotemporel de type chain-of-thought (CoT) pour estimer de façon dense la progression de la tâche. Entraîné sur un pipeline de synthèse massif de trajectoires vidéo annotées temporellement, SOLE-R1 combine fine-tuning supervisé et RL depuis des récompenses vérifiables. Évalué sur quatre environnements de simulation distincts et en setting réel, il réussit 24 tâches de manipulation inédites en apprentissage zéro-shot depuis une initialisation aléatoire.
L'enjeu central que résout SOLE-R1 est celui du reward hacking : aujourd'hui, utiliser un VLM généraliste comme évaluateur RL expose le système à des erreurs perceptuelles sous observabilité partielle ou changement de distribution, que la politique apprenante exploite rapidement au lieu de résoudre réellement la tâche. SOLE-R1 surpasse nettement des comparatifs forts - Robometer, RoboReward, ReWiND, mais aussi GPT-5 et Gemini-3-Pro - sur la robustesse à ce phénomène. Pour les intégrateurs et ingénieurs robotique, c'est un signal concret que le goulot d'étranglement du RL sur robot réel (définir une fonction de récompense dense et fiable) peut être délégué à un modèle de raisonnement vidéo entraîné spécifiquement, sans instrumentation matérielle supplémentaire.
SOLE-R1 s'inscrit dans un courant actif qui cherche à remplacer les récompenses codées à la main par des superviseurs fondationnels (EUREKA d'NVIDIA, VLM-RM, SuSIE). La différence revendiquée ici est le raisonnement CoT temporel explicite par pas de temps, contre des évaluations épisodiques ou des scores scalaires instantanés. Le projet est encore au stade preprint sans déploiement industriel annoncé, mais les modèles, données et code sont publiés en open access sur la page anonyme du MIT. Les prochaines étapes naturelles seraient la validation sur des plateformes commerciales (Figure, Unitree, Boston Dynamics Spot) et l'extension à des tâches longue-horizon en environnement non structuré, deux gaps que l'article ne comble pas encore.
Dans nos dossiers




