
Apprentissage par renforcement avec supervision humaine calibré sur les préférences pour la manipulation robotique
Une équipe de chercheurs publie dans un préprint arXiv daté du 3 juin 2026 PACT (Preference-calibrated Actor-Critic Training), un cadre d'apprentissage par renforcement avec supervision humaine (HIL-RL) pour la manipulation robotique. Le problème ciblé est connu : quand un opérateur reprend la main pour corriger le robot, les trajectoires collectées contiennent des segments suboptimaux que les méthodes actuelles propagent indistinctement dans le calcul des récompenses, surestimant les Q-valeurs et biaisant la politique vers des comportements sous-performants. PACT introduit un modèle de progression entraîné sur des démonstrations humaines pour identifier ces segments défaillants, puis construit des paires de préférence entre l'action correctrice humaine et l'action rééchantillonnée de la politique au même état d'intervention. Cette comparaison génère un avantage contrefactuel qui pénalise les cibles de Bellman sur les segments suboptimaux, complété par un alignement direct de la politique sur les actions correctives dans l'espace des moyennes bornées. Sur cinq tâches de manipulation réelle-robot, PACT affiche une amélioration moyenne du taux de succès de 24,5 % et une convergence 1,3 fois plus rapide que les méthodes HIL-RL de référence. Le code est disponible en open source sur dépôt GitHub anonymisé.
Ces résultats s'attaquent à un goulot d'étranglement pratique du HIL-RL : la supervision humaine améliore l'efficacité en échantillons, mais introduit du bruit quand les corrections arrivent après plusieurs actions déjà incorrectes. En extrayant les signaux de préférence implicitement des interventions, sans annotation post-hoc coûteuse, PACT permet à un opérateur non-expert d'intervenir naturellement pendant l'entraînement sans dégrader la qualité des données. La convergence accélérée réduit directement le temps d'adaptation sur de nouvelles tâches, un facteur critique pour le déploiement en environnements industriels variables.
Le HIL-RL s'appuie sur des travaux fondateurs comme DAgger (Ross et al., 2011) et IWR (Mandlekar et al., 2020), complétés par des variantes comme HG-DAgger, qui pondèrent les transitions différemment sans toutefois distinguer explicitement les segments suboptimaux. PACT se positionne comme une extension ciblée de cette famille. La manipulation robotique est par ailleurs traversée par les approches VLA (Vision-Language-Action), comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui misent sur la généralisation zero-shot, une stratégie complémentaire plutôt qu'opposée au fine-tuning supervisé par intervention humaine. Le préprint, non encore peer-reviewed, ne mentionne ni partenaires industriels ni calendrier de déploiement ; la distance entre banc de test robotique de laboratoire et production industrielle reste entière.
Impact indirect : ce cadre HIL-RL open-source pourrait accélérer les travaux des équipes européennes de robotique industrielle cherchant à réduire le coût d'adaptation de robots à de nouvelles tâches en production.




