Le RL contraint par le support permet d'améliorer les politiques réelles sans expérience du monde réel
Des chercheurs du Weird Lab (Université de Washington) ont publié en juin 2026 SCORE (Support-Constrained Off-Domain REinforcement), un framework real-to-sim-to-real conçu pour améliorer des politiques robotiques sans collecte supplémentaire de données réelles. Évalué sur huit tâches de manipulation dextère multi-doigts en conditions réelles, SCORE fait passer le taux de succès moyen de 37,8 % à 89,9 %, contre 59,5 % pour la meilleure méthode de référence testée. Le système atteint son objectif en 36,8 % moins d'étapes que la politique de base. La méthode repose sur du RL en simulation, contraint via une technique appelée "flow steering" : les actions explorées restent dans le support de la politique générative pré-entraînée sur données réelles, garantissant ainsi le transfert vers le matériel physique. SCORE apprend à partir de récompenses éparses, n'exige pas de distillation, et laisse la politique de base intacte.
Le principal verrou du déploiement industriel de la manipulation généraliste est précisément le "reality gap" : le RL non contraint en simulation exploite les approximations de contact et de dynamique pour produire des comportements qui échouent sur hardware. SCORE apporte une réponse structurée : améliorer substantiellement une politique existante par simulation seule, sans rollouts physiques coûteux ni risqués, et sans modifier la politique de base. Pour un COO industriel ou un intégrateur, le signal est clair, il devient possible de tirer davantage de politiques déjà déployées (issues de démonstrations ou de VLA pré-entraînés) sans nouvelle campagne de collecte terrain.
Les travaux s'inscrivent dans la lignée des architectures basées sur le flow-matching, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, dont les politiques génératives constituent un prior comportemental exploitable par "flow steering". Par rapport aux approches concurrentes (DAgger, fine-tuning RL en simulation sans contrainte), SCORE se distingue en contraignant l'espace d'action plutôt qu'en régularisant globalement le comportement, ce qui préserve l'amélioration tout en évitant la sur-contrainte. Le code et les vidéos sont disponibles publiquement ; la validation à plus grande échelle sur des VLA déployés en environnement industriel ou de service constituera l'étape critique suivante.
Les équipes R&D européennes travaillant avec des politiques VLA pré-entraînées (Pi-0, GR00T N2) pourraient exploiter SCORE pour améliorer leurs systèmes sans collecte supplémentaire de données terrain, mais aucune entité française ou européenne n'est directement impliquée.
Dans nos dossiers




