
ROVE : l'apprentissage par renforcement pour débloquer les interventions humaines dans la manipulation par humanoïdes
Une équipe de chercheurs a publié fin juin 2026 ROVE (Reinforcement learning for humanoid VLA post-training with imperfect human interventions), un framework de renforcement dédié à l'amélioration des modèles Vision-Language-Action (VLA) sur robots humanoïdes à partir d'interventions humaines imparfaites. Le principe : un opérateur prend la main sur le robot lors des phases d'échec, générant des trajectoires correctives qui servent ensuite à affiner le modèle. Le problème bien identifié par les auteurs est que ces interventions humaines sont souvent hésitantes, sous-optimales, voire erronées, ce qui rend l'imitation naïve contre-productive. ROVE introduit deux mécanismes centraux : un pipeline human-in-the-loop capable de collecter simultanément des données de déploiement autonome et d'intervention, et une méthode d'estimation de valeur dite "optimiste" (Optimistic Value Estimation, OVE) qui filtre les comportements à haute valeur depuis des trajectoires de qualité mixte. Le framework intègre également des vidéos d'expériences humaines cross-embodiment pour enrichir la supervision sur les modes de défaillance et de récupération rares. Sur des tâches réelles de manipulation à contact-riche et fine-grained, ROVE surpasse les baselines par apprentissage par expérience et s'améliore de manière consistante à chaque itération rollout-intervention.
L'enjeu central ici est la scalabilité du déploiement humanoïde en conditions réelles. Les modèles VLA, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA -- ont démontré des capacités de généralisation remarquables, mais leur post-training sur hardware humanoïde reste un goulot d'étranglement : la cinématique whole-body et le contrôle de mains dextères compliquent radicalement la collecte de données téléopérées de qualité. ROVE invalide l'hypothèse selon laquelle l'intervention humaine doit être experte pour être utile : OVE permet d'extraire un signal d'avantage informatif même depuis des démonstrations imparfaites, ce qui signifie qu'on peut utiliser des opérateurs non-spécialistes pour améliorer continûment le modèle en production. C'est un changement de paradigme potentiellement significatif pour les intégrateurs : la qualité du déploiement n'est plus bornée par la disponibilité d'experts en téléopération.
Ce travail s'inscrit dans une vague de recherches sur le RLHF appliqué à la robotique physique, après les travaux pionniers sur l'imitation par intervention (HATO, HITL-TAMER) et les approches par feedback correctif. Les humanoïdes ciblés restent non précisés dans l'abstract (preprint arXiv, les détails hardware seront à vérifier dans le papier complet), mais les résultats sur tâches contact-rich suggèrent une applicabilité aux plateformes type Figure 03, Unitree H1/G1 ou Agility Digit. Le positionnement concurrentiel est clair : là où Physical Intelligence mise sur la qualité des données téléopérées en amont, ROVE parie sur la rectification en boucle fermée en aval. Les prochaines étapes probables incluent des tests à plus grande échelle et une évaluation sur plusieurs architectures VLA, mais en l'état de preprint, aucun déploiement commercial n'est annoncé.
Dans nos dossiers




