Au-delà du progrès monotone : apprentissage de la valeur supervisé par réessais pour l'imitation robotique
Des chercheurs proposent ReTVL (ReTry-Supervised Value Learning), publié sur arXiv (2606.24633) le 24 juin 2026, un cadre d'apprentissage par imitation conçu pour exploiter les démonstrations robotiques imparfaites plutôt que de les éliminer. Le constat de départ : lorsqu'un opérateur humain rate une prise, repositionne un objet ou recommence une séquence, ces instants de relance constituent une information structurée sur l'échec d'exécution et la manière d'en sortir. ReTVL identifie ces événements de "retry" comme supervision parcimonieuse sous forme de keypoints annotés, combine une calibration de progression globale avec un apprentissage par préférence par paires (pairwise preference learning) au niveau local, puis utilise le modèle de valeur résultant pour repondérer les chunks de démonstration en behavior cloning. Des tests sur des tâches de manipulation réelle montrent des estimations de valeur plus fines que les baselines à progression monotone.
L'enjeu est direct pour les équipes qui constituent des datasets de téléopération : le tri manuel des démonstrations imparfaites est coûteux, et les modèles de récompense classiques, qui mesurent l'avancement global d'une tâche, ne capturent pas les dégradations locales d'exécution (prise instable, mauvais alignement, contact incertain). Ces erreurs propagées dans le policy appris dégradent silencieusement les performances. ReTVL ouvre une voie pour entraîner des politiques robustes depuis des données non curées, ce que visent des pipelines à grande échelle comme Open X-Embodiment, sans passer par un étiquetage dense ou un RLHF robotique onéreux.
Ce travail s'inscrit dans un courant actif sur la qualité des données pour le contrôle robotique, aux côtés de l'apprentissage par renforcement inverse (IRL), des méthodes de préférence de type DPO adaptées au robot, et du filtrage automatique via modèles de fondation tels que Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La distinction de ReTVL est d'exploiter la structure temporelle des retries comme signal disponible naturellement dans toute session de téléopération, sans reward engineering explicite. Il s'agit pour l'instant d'un preprint ; valider l'approche sur des architectures VLA à plus grande échelle et des datasets publics reste la prochaine étape pour confirmer la portée réelle de la méthode.
Dans nos dossiers




