Aller au contenu principal
Apprentissage par renforcement avec supervision humaine calibré sur les préférences pour la manipulation robotique
RecherchearXiv cs.RO2h

Apprentissage par renforcement avec supervision humaine calibré sur les préférences pour la manipulation robotique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie dans un préprint arXiv daté du 3 juin 2026 PACT (Preference-calibrated Actor-Critic Training), un cadre d'apprentissage par renforcement avec supervision humaine (HIL-RL) pour la manipulation robotique. Le problème ciblé est connu : quand un opérateur reprend la main pour corriger le robot, les trajectoires collectées contiennent des segments suboptimaux que les méthodes actuelles propagent indistinctement dans le calcul des récompenses, surestimant les Q-valeurs et biaisant la politique vers des comportements sous-performants. PACT introduit un modèle de progression entraîné sur des démonstrations humaines pour identifier ces segments défaillants, puis construit des paires de préférence entre l'action correctrice humaine et l'action rééchantillonnée de la politique au même état d'intervention. Cette comparaison génère un avantage contrefactuel qui pénalise les cibles de Bellman sur les segments suboptimaux, complété par un alignement direct de la politique sur les actions correctives dans l'espace des moyennes bornées. Sur cinq tâches de manipulation réelle-robot, PACT affiche une amélioration moyenne du taux de succès de 24,5 % et une convergence 1,3 fois plus rapide que les méthodes HIL-RL de référence. Le code est disponible en open source sur dépôt GitHub anonymisé.

Ces résultats s'attaquent à un goulot d'étranglement pratique du HIL-RL : la supervision humaine améliore l'efficacité en échantillons, mais introduit du bruit quand les corrections arrivent après plusieurs actions déjà incorrectes. En extrayant les signaux de préférence implicitement des interventions, sans annotation post-hoc coûteuse, PACT permet à un opérateur non-expert d'intervenir naturellement pendant l'entraînement sans dégrader la qualité des données. La convergence accélérée réduit directement le temps d'adaptation sur de nouvelles tâches, un facteur critique pour le déploiement en environnements industriels variables.

Le HIL-RL s'appuie sur des travaux fondateurs comme DAgger (Ross et al., 2011) et IWR (Mandlekar et al., 2020), complétés par des variantes comme HG-DAgger, qui pondèrent les transitions différemment sans toutefois distinguer explicitement les segments suboptimaux. PACT se positionne comme une extension ciblée de cette famille. La manipulation robotique est par ailleurs traversée par les approches VLA (Vision-Language-Action), comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui misent sur la généralisation zero-shot, une stratégie complémentaire plutôt qu'opposée au fine-tuning supervisé par intervention humaine. Le préprint, non encore peer-reviewed, ne mentionne ni partenaires industriels ni calendrier de déploiement ; la distance entre banc de test robotique de laboratoire et production industrielle reste entière.

Impact France/UE

Impact indirect : ce cadre HIL-RL open-source pourrait accélérer les travaux des équipes européennes de robotique industrielle cherchant à réduire le coût d'adaptation de robots à de nouvelles tâches en production.

À lire aussi

RoHIL : apprentissage par renforcement robotique robuste avec supervision humaine face aux variations d'éclairage
1arXiv cs.RO 

RoHIL : apprentissage par renforcement robotique robuste avec supervision humaine face aux variations d'éclairage

Les systèmes de reinforcement learning avec humain dans la boucle (HIL-RL) atteignent des taux de succès quasi parfaits sur le poste de travail où ils sont entraînés, mais s'effondrent lorsque le même robot est déplacé de quelques mètres vers un poste différent. La cause est simple : des variations d'éclairage (position des lampes, lumière naturelle) perturbent suffisamment la distribution des entrées visuelles pour invalider la politique apprise. Pour combler ce "cross-domain gap" sans recollecte de données terrain, des chercheurs présentent RoHIL (Robust Human-in-the-Loop), un framework de fine-tuning hors ligne évalué sur quatre tâches de manipulation robotique réelle. RoHIL repose sur trois mécanismes : un re-lighting basé sur un world model qui resynthétise le flux visuel des trajectoires sources sous plusieurs environnements HDRI virtuels sans modifier les actions ni les récompenses, un mécanisme anti-oubli appelé Illumination-Retention Replay (IRR) qui entrelace transitions d'adaptation et transitions de rétention, et un régulariseur Bellman-acteur ancré limitant la dérive de représentation par rapport à la politique source. L'enjeu industriel est direct : recollecte de démonstrations et ré-entraînement HIL à chaque nouveau poste sont incompatibles avec un déploiement à l'échelle. La fragilité aux variations lumineuses reste l'un des obstacles les plus sous-estimés entre laboratoire et production réelle. RoHIL répond à ce problème sans interaction robot supplémentaire, ce qui réduit le coût d'intégration pour les opérateurs. La combinaison IRR et régulariseur Bellman démontre qu'il est possible d'adapter une politique à de nouvelles conditions visuelles tout en préservant les performances sur l'environnement d'origine, résultat non trivial face à l'oubli catastrophique classique. Ce travail, déposé sur arXiv en mai 2025 sous soumission anonyme et vraisemblablement en cours d'évaluation par une conférence, s'inscrit dans la vague de recherches visant à rendre les politiques robotiques robustes aux variations de domaine. Les approches concurrentes incluent la randomisation de domaine à l'entraînement, les politiques multi-environnements ou l'augmentation visuelle agressive, mais ces techniques nécessitent d'anticiper les variations en amont. RoHIL se distingue par son mode entièrement offline. Aucun déploiement commercial ni partenariat industriel n'est mentionné : il s'agit d'un résultat académique à ce stade, dont les extensions naturelles porteront sur un plus grand nombre de postes, de conditions lumineuses et de tâches à degrés de liberté élevés.

RecherchePaper
1 source
TwinRL : apprentissage par renforcement piloté par jumeau numérique pour la manipulation robotique réelle
2arXiv cs.RO 

TwinRL : apprentissage par renforcement piloté par jumeau numérique pour la manipulation robotique réelle

Une équipe de chercheurs a publié TwinRL (arXiv:2602.09023), un framework de post-entraînement qui couple un jumeau numérique reconstruit par smartphone avec du reinforcement learning (RL) en monde réel pour affiner des modèles Vision-Language-Action (VLA) en manipulation robotique. La méthode se déroule en trois phases successives : un warm-up par fine-tuning supervisé (SFT), un warm-up RL dans le jumeau numérique, puis du RL directement sur robot. Sur quatre tâches de manipulation testées, TwinRL atteint un taux de succès proche de 100 % en configuration distributionnelle et hors-distribution, avec une convergence 30 % plus rapide que les méthodes de RL réel existantes. Élément frappant : seulement 20 minutes d'interaction physique sur robot sont nécessaires pour obtenir ces résultats, contre des heures ou journées typiques pour les approches concurrentes. L'importance de ce résultat tient à un verrou bien connu du secteur : les modèles VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) généralisent bien mais restent coûteux à affiner, car ils dépendent de démonstrations expertes massives et leur exploration en RL réel est lente et peu couvrante. Les auteurs montrent expérimentalement que l'espace d'exploration du RL en ligne reste structurellement contraint par la distribution de trajectoires issue du SFT initial, ce qui explique les plafonds de performance observés dans la littérature. TwinRL contourne ce problème en utilisant le jumeau numérique non pas comme outil d'augmentation de données, mais comme guide actif d'exploration : il identifie les configurations difficiles et dirige les rollouts humains là où le robot échoue, réduisant drastiquement le temps on-robot. Pour un intégrateur ou un COO industriel, cela signifie que le déploiement de robots polyvalents pourrait ne plus nécessiter des semaines de collecte de données en production. Ce travail s'inscrit dans une vague de recherches cherchant à résoudre le sim-to-real gap sans recourir à des simulateurs coûteux : ici, la reconstruction du jumeau numérique part de simples captures smartphone, ce qui abaisse significativement la barrière d'entrée. Les approches concurrentes incluent le RL en simulation pure (souvent peu transférable), la distillation de politiques, et les méthodes de curriculum learning. TwinRL se distingue par son pipeline hybride et son usage ciblé de l'humain dans la boucle. Aucune date de déploiement industriel ni partenariat commercial n'est annoncé, il s'agit d'un résultat de recherche académique, mais la faible exigence en temps robot ouvre des perspectives concrètes pour des cellules de manipulation flexible dans l'industrie manufacturière ou logistique.

RechercheOpinion
1 source
VE2VF : distillation vision vers sans vision par apprentissage par renforcement pour la manipulation robuste avec contacts
3arXiv cs.RO 

VE2VF : distillation vision vers sans vision par apprentissage par renforcement pour la manipulation robuste avec contacts

Des chercheurs ont présenté VE2VF (Vision-Enabled to Vision-Free), un cadre d'apprentissage par renforcement (RL) pour la manipulation robotique en contact riche, publié en préprint sur arXiv (2605.29564). La méthode repose sur une distillation enseignant-élève conduite intégralement sur robot réel, sans simulation ni randomisation de domaine. Un module "enseignant" équipé de vision apprend d'abord la tâche, puis transfère sa politique à un "élève" n'utilisant que la pose, le twist et le wrench (position/orientation, vitesse et couple de force), sans aucun flux caméra. Sur le benchmark NIST d'assemblage, référence standardisée pour les tâches d'insertion de précision, le système atteint 95 % de taux de succès global après environ 50 minutes d'entraînement sur 3 tâches représentatives, et généralise à 8 variantes non vues lors de l'entraînement. Un fine-tuning par distillation permet d'atteindre 100 % de succès sur la variante la plus difficile. Ce résultat adresse un problème structurel en robotique industrielle: les politiques basées sur la vision surapprennent les conditions d'éclairage et de fond vues à l'entraînement, ce qui fragilise leur déploiement en environnement de production variable. En éliminant la vision à l'inférence tout en l'exploitant pendant l'apprentissage, VE2VF produit des politiques robustes aux perturbations visuelles sans coût supplémentaire en données. Plus significatif encore: atteindre cette généralisation en moins d'une heure d'entraînement réel suggère qu'on peut contourner le sim-to-real gap sans simulateur haute-fidélité ni dataset synthétique massif. Pour les intégrateurs déployant des cellules d'assemblage de précision, la combinaison rapidité d'adaptation et robustesse proprioceptive est directement actionnable. Le benchmark NIST Assembly Task Board est utilisé depuis plusieurs années comme terrain de comparaison inter-équipes en manipulation de précision, ce qui confère à ces résultats une lisibilité relative face aux travaux antérieurs. Les approches concurrentes combinent généralement simulation, randomisation de domaine et larges volumes de données synthétiques avant transfert sur robot réel. VE2VF se positionne comme une alternative ancrée dans le réel, avec une boucle human-in-the-loop permettant de superviser l'apprentissage en cours de session. Il s'agit à ce stade d'un préprint de recherche, non d'un système en production ni d'un produit commercialisé. Les suites naturelles incluent des tests sur d'autres plateformes matérielles et des tâches industrielles plus complexes, ainsi qu'une confrontation directe avec les approches de type VLA (Vision-Language-Action) qui ciblent elles aussi la généralisation en manipulation contact-riche à grande échelle.

RecherchePaper
1 source
OHP-RL : guidage par préférences humaines en ligne pour l'apprentissage par renforcement en manipulation robotique
4arXiv cs.RO 

OHP-RL : guidage par préférences humaines en ligne pour l'apprentissage par renforcement en manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2605.15971) un cadre appelé OHP-RL (Online Human Preference as Guidance in Reinforcement Learning) pour améliorer l'apprentissage par renforcement appliqué à la manipulation robotique en conditions réelles. L'approche introduit une "preference gate" dépendante de l'état du robot, qui détermine dynamiquement quand et dans quelle mesure les interventions humaines doivent influencer l'apprentissage de la politique de contrôle. Contrairement aux méthodes existantes qui traitent ces interventions comme de simples signaux d'imitation, OHP-RL les interprète comme des expressions de préférences relatives entre comportements, intégrant des contraintes de sécurité et de tâche. Le système a été évalué sur trois tâches de manipulation en contact réel sur un robot Franka, où il obtient des taux de réussite élevés, une convergence plus rapide et un volume d'interventions humaines significativement réduit par rapport aux approches antérieures. L'enjeu est bien connu des équipes de robotique industrielle : le RL en environnement réel souffre d'une exploration inefficace et potentiellement dangereuse, ce qui freine son déploiement hors laboratoire. Les méthodes humain-dans-la-boucle existantes comme HIRL ou IWR exploitent les corrections humaines comme des démonstrations à imiter, une hypothèse qui surestime la précision et la cohérence des opérateurs réels. OHP-RL change de paradigme en traitant l'intervention non pas comme une action idéale à reproduire, mais comme un signal de préférence entre deux comportements, ce qui correspond mieux à la réalité opérationnelle. Un opérateur peu expert ou fatigué génère ainsi un signal utile, et le système tolère une supervision intermittente. Pour un intégrateur ou un responsable de production, cela signifie un coût de supervision réduit pendant l'apprentissage et un déploiement potentiellement plus rapide sur des tâches de manipulation en contact, vissage, assemblage, insertion, que les pipelines de programmation classiques peinent encore à automatiser. OHP-RL se positionne à l'intersection du RLHF (Reinforcement Learning from Human Feedback, popularisé par les LLMs) et du HiL-RL pour la robotique physique, un rapprochement conceptuel qu'explorent aussi Physical Intelligence avec pi0, Google DeepMind sur les plateformes Aloha et Franka, et plusieurs labos académiques travaillant sur les VLA (Vision-Language-Action models). L'utilisation du Franka Research 3, référence académique mondiale, facilite la comparaison directe avec ces concurrents. Le papier reste un preprint arXiv sans revue par les pairs confirmée, il convient donc de lire les résultats comme prometteurs plutôt que validés ; les prochaines étapes naturelles seraient une validation sur des bras industriels à plus fort payload et une intégration dans des pipelines de déploiement continu.

UEImpact indirect : les intégrateurs européens spécialisés en manipulation en contact (assemblage, vissage, insertion) pourraient suivre cette approche pour réduire le coût de supervision lors du déploiement de RL en production, sans lien direct avec une entreprise ou réglementation française ou européenne.

IA physiquePaper
1 source