Aller au contenu principal
RoHIL : apprentissage par renforcement robotique robuste avec supervision humaine face aux variations d'éclairage
RecherchearXiv cs.RO6sem

RoHIL : apprentissage par renforcement robotique robuste avec supervision humaine face aux variations d'éclairage

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Les systèmes de reinforcement learning avec humain dans la boucle (HIL-RL) atteignent des taux de succès quasi parfaits sur le poste de travail où ils sont entraînés, mais s'effondrent lorsque le même robot est déplacé de quelques mètres vers un poste différent. La cause est simple : des variations d'éclairage (position des lampes, lumière naturelle) perturbent suffisamment la distribution des entrées visuelles pour invalider la politique apprise. Pour combler ce "cross-domain gap" sans recollecte de données terrain, des chercheurs présentent RoHIL (Robust Human-in-the-Loop), un framework de fine-tuning hors ligne évalué sur quatre tâches de manipulation robotique réelle. RoHIL repose sur trois mécanismes : un re-lighting basé sur un world model qui resynthétise le flux visuel des trajectoires sources sous plusieurs environnements HDRI virtuels sans modifier les actions ni les récompenses, un mécanisme anti-oubli appelé Illumination-Retention Replay (IRR) qui entrelace transitions d'adaptation et transitions de rétention, et un régulariseur Bellman-acteur ancré limitant la dérive de représentation par rapport à la politique source.

L'enjeu industriel est direct : recollecte de démonstrations et ré-entraînement HIL à chaque nouveau poste sont incompatibles avec un déploiement à l'échelle. La fragilité aux variations lumineuses reste l'un des obstacles les plus sous-estimés entre laboratoire et production réelle. RoHIL répond à ce problème sans interaction robot supplémentaire, ce qui réduit le coût d'intégration pour les opérateurs. La combinaison IRR et régulariseur Bellman démontre qu'il est possible d'adapter une politique à de nouvelles conditions visuelles tout en préservant les performances sur l'environnement d'origine, résultat non trivial face à l'oubli catastrophique classique.

Ce travail, déposé sur arXiv en mai 2025 sous soumission anonyme et vraisemblablement en cours d'évaluation par une conférence, s'inscrit dans la vague de recherches visant à rendre les politiques robotiques robustes aux variations de domaine. Les approches concurrentes incluent la randomisation de domaine à l'entraînement, les politiques multi-environnements ou l'augmentation visuelle agressive, mais ces techniques nécessitent d'anticiper les variations en amont. RoHIL se distingue par son mode entièrement offline. Aucun déploiement commercial ni partenariat industriel n'est mentionné : il s'agit d'un résultat académique à ce stade, dont les extensions naturelles porteront sur un plus grand nombre de postes, de conditions lumineuses et de tâches à degrés de liberté élevés.

À lire aussi

Apprentissage par renforcement avec supervision humaine calibré sur les préférences pour la manipulation robotique
1arXiv cs.RO 

Apprentissage par renforcement avec supervision humaine calibré sur les préférences pour la manipulation robotique

Une équipe de chercheurs publie dans un préprint arXiv daté du 3 juin 2026 PACT (Preference-calibrated Actor-Critic Training), un cadre d'apprentissage par renforcement avec supervision humaine (HIL-RL) pour la manipulation robotique. Le problème ciblé est connu : quand un opérateur reprend la main pour corriger le robot, les trajectoires collectées contiennent des segments suboptimaux que les méthodes actuelles propagent indistinctement dans le calcul des récompenses, surestimant les Q-valeurs et biaisant la politique vers des comportements sous-performants. PACT introduit un modèle de progression entraîné sur des démonstrations humaines pour identifier ces segments défaillants, puis construit des paires de préférence entre l'action correctrice humaine et l'action rééchantillonnée de la politique au même état d'intervention. Cette comparaison génère un avantage contrefactuel qui pénalise les cibles de Bellman sur les segments suboptimaux, complété par un alignement direct de la politique sur les actions correctives dans l'espace des moyennes bornées. Sur cinq tâches de manipulation réelle-robot, PACT affiche une amélioration moyenne du taux de succès de 24,5 % et une convergence 1,3 fois plus rapide que les méthodes HIL-RL de référence. Le code est disponible en open source sur dépôt GitHub anonymisé. Ces résultats s'attaquent à un goulot d'étranglement pratique du HIL-RL : la supervision humaine améliore l'efficacité en échantillons, mais introduit du bruit quand les corrections arrivent après plusieurs actions déjà incorrectes. En extrayant les signaux de préférence implicitement des interventions, sans annotation post-hoc coûteuse, PACT permet à un opérateur non-expert d'intervenir naturellement pendant l'entraînement sans dégrader la qualité des données. La convergence accélérée réduit directement le temps d'adaptation sur de nouvelles tâches, un facteur critique pour le déploiement en environnements industriels variables. Le HIL-RL s'appuie sur des travaux fondateurs comme DAgger (Ross et al., 2011) et IWR (Mandlekar et al., 2020), complétés par des variantes comme HG-DAgger, qui pondèrent les transitions différemment sans toutefois distinguer explicitement les segments suboptimaux. PACT se positionne comme une extension ciblée de cette famille. La manipulation robotique est par ailleurs traversée par les approches VLA (Vision-Language-Action), comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui misent sur la généralisation zero-shot, une stratégie complémentaire plutôt qu'opposée au fine-tuning supervisé par intervention humaine. Le préprint, non encore peer-reviewed, ne mentionne ni partenaires industriels ni calendrier de déploiement ; la distance entre banc de test robotique de laboratoire et production industrielle reste entière.

UEImpact indirect : ce cadre HIL-RL open-source pourrait accélérer les travaux des équipes européennes de robotique industrielle cherchant à réduire le coût d'adaptation de robots à de nouvelles tâches en production.

RecherchePaper
1 source
VE2VF : distillation vision vers sans vision par apprentissage par renforcement pour la manipulation robuste avec contacts
2arXiv cs.RO 

VE2VF : distillation vision vers sans vision par apprentissage par renforcement pour la manipulation robuste avec contacts

Des chercheurs ont présenté VE2VF (Vision-Enabled to Vision-Free), un cadre d'apprentissage par renforcement (RL) pour la manipulation robotique en contact riche, publié en préprint sur arXiv (2605.29564). La méthode repose sur une distillation enseignant-élève conduite intégralement sur robot réel, sans simulation ni randomisation de domaine. Un module "enseignant" équipé de vision apprend d'abord la tâche, puis transfère sa politique à un "élève" n'utilisant que la pose, le twist et le wrench (position/orientation, vitesse et couple de force), sans aucun flux caméra. Sur le benchmark NIST d'assemblage, référence standardisée pour les tâches d'insertion de précision, le système atteint 95 % de taux de succès global après environ 50 minutes d'entraînement sur 3 tâches représentatives, et généralise à 8 variantes non vues lors de l'entraînement. Un fine-tuning par distillation permet d'atteindre 100 % de succès sur la variante la plus difficile. Ce résultat adresse un problème structurel en robotique industrielle: les politiques basées sur la vision surapprennent les conditions d'éclairage et de fond vues à l'entraînement, ce qui fragilise leur déploiement en environnement de production variable. En éliminant la vision à l'inférence tout en l'exploitant pendant l'apprentissage, VE2VF produit des politiques robustes aux perturbations visuelles sans coût supplémentaire en données. Plus significatif encore: atteindre cette généralisation en moins d'une heure d'entraînement réel suggère qu'on peut contourner le sim-to-real gap sans simulateur haute-fidélité ni dataset synthétique massif. Pour les intégrateurs déployant des cellules d'assemblage de précision, la combinaison rapidité d'adaptation et robustesse proprioceptive est directement actionnable. Le benchmark NIST Assembly Task Board est utilisé depuis plusieurs années comme terrain de comparaison inter-équipes en manipulation de précision, ce qui confère à ces résultats une lisibilité relative face aux travaux antérieurs. Les approches concurrentes combinent généralement simulation, randomisation de domaine et larges volumes de données synthétiques avant transfert sur robot réel. VE2VF se positionne comme une alternative ancrée dans le réel, avec une boucle human-in-the-loop permettant de superviser l'apprentissage en cours de session. Il s'agit à ce stade d'un préprint de recherche, non d'un système en production ni d'un produit commercialisé. Les suites naturelles incluent des tests sur d'autres plateformes matérielles et des tâches industrielles plus complexes, ainsi qu'une confrontation directe avec les approches de type VLA (Vision-Language-Action) qui ciblent elles aussi la généralisation en manipulation contact-riche à grande échelle.

RecherchePaper
1 source
RDGen : génération de démonstrations pour l'apprentissage robotique par renforcement
3arXiv cs.RO 

RDGen : génération de démonstrations pour l'apprentissage robotique par renforcement

Une équipe de chercheurs a publié le 30 mai 2026 sur arXiv (référence 2605.30957) un framework appelé RDGen, pour "Reinforcement Learning Demonstration Generation", destiné à automatiser la collecte de données d'entraînement pour les modèles Vision-Language-Action (VLA). Le système combine trois composants : un module d'analyse de tâches basé sur un modèle de langage visuel (VLM), un localisateur d'objets fondé sur Grounding DINO, et une politique de contrôle entraînée par apprentissage par renforcement (RL) en simulation puis transférée sur un robot réel. Testé sur une tâche de saisie et de dépose, RDGen atteint un taux de succès élevé après transfert sim-to-real, sans que les auteurs ne publient de chiffre précis dans le résumé disponible. Les trajectoires générées sont ensuite réutilisées directement comme données d'entraînement pour affiner des politiques VLA en aval. L'enjeu central est celui du goulot d'étranglement dans la chaîne d'entraînement des robots généralistes : la télé-opération humaine, méthode dominante pour collecter des démonstrations, est lente, coûteuse, et produit des trajectoires variables selon l'opérateur. RDGen propose de substituer cet effort humain par une politique RL, qui génère des trajectoires mécaniquement cohérentes et reproductibles, plus lisses selon les auteurs que ce que produit un opérateur humain, et avec un coût marginal quasi nul en simulation. Cela renforce l'hypothèse que le problème sim-to-real pour des tâches de manipulation simples est largement résolu, et déplace la question vers la scalabilité de la diversité des tâches plutôt que la qualité individuelle des démos. RDGen s'inscrit dans un débat actif sur la meilleure façon d'alimenter les VLA, dont les architectures de référence actuelles incluent pi0 (Physical Intelligence), OpenVLA et les travaux de RT-2/RT-X chez Google DeepMind. La collecte de données reste le principal frein industriel à leur déploiement, ce que tentent aussi d'adresser des approches concurrentes comme la génération vidéo synthétique (ex. travaux UniSim, Genie) ou l'augmentation par world models. La contribution de RDGen est plus modeste et ciblée : un pipeline sim-to-real structuré pour des tâches de manipulation définies, avec réutilisation des rollouts réussis. Il s'agit d'un preprint non encore peer-reviewed ; les expériences restent limitées à pick-and-place, et l'absence de métriques quantitatives précises dans le résumé invite à attendre la version complète avant d'en tirer des conclusions générales sur la scalabilité.

RechercheOpinion
1 source
Une seule démonstration suffit pour l'apprentissage par renforcement robotique en conditions réelles
4arXiv cs.RO 

Une seule démonstration suffit pour l'apprentissage par renforcement robotique en conditions réelles

Des chercheurs présentent AutoSERL, un framework d'apprentissage par renforcement (RL) pour robots qui n'a besoin que d'une seule démonstration humaine pour apprendre des tâches de manipulation complexes en conditions réelles, sans intervention humaine continue pendant l'entraînement. Le système repose sur trois mécanismes complémentaires : une fenêtre glissante d'intervention qui guide l'exploration pour éviter les minima locaux et les mouvements dangereux, un mécanisme de récupération de sécurité qui détecte les échecs et corrige la trajectoire via des points de reprise prédéfinis, et un critère d'arrêt automatique qui coupe le guidage dès que la politique apprise devient autonome. Les auteurs ont testé AutoSERL sur six tâches de manipulation à contact intensif (insertion, accrochage, tâches à charnière) réparties sur deux plateformes robotiques différentes. Le framework atteint 100% de réussite sur les tâches d'insertion et dépasse systématiquement SERL entraîné avec 20 démonstrations, l'apprentissage par imitation classique (behavior cloning) et MILES, une méthode dédiée à l'apprentissage en un coup, tout en égalant les performances de HIL-SERL qui nécessite lui une supervision humaine continue. L'intérêt pour l'industrie tient à la réduction drastique du coût de collecte de données, généralement le principal frein au déploiement de RL sur du matériel physique. La plupart des approches existantes exigent soit des dizaines de démonstrations, soit un opérateur qui intervient en permanence pendant l'entraînement, ce qui limite le passage à l'échelle en usine ou en intégration industrielle. En automatisant l'intervention à partir d'un seul exemple tout en conservant une robustesse aux variations de position des pièces, AutoSERL rapproche le RL réel de tâches d'assemblage fin, un terrain où les approches purement basées sur l'imitation ou les politiques VLA préentraînées peinent encore à garantir une fiabilité industrielle. Ce travail s'inscrit dans la lignée de SERL et HIL-SERL, frameworks de référence pour le RL avec intervention humaine sur robots physiques, en cherchant à supprimer leur principale contrainte opérationnelle. Le code et les vidéos de démonstration sont publiés par les auteurs sur un site dédié, mais le papier, déposé sur arXiv le 1er juillet 2026, reste à ce stade une contribution de recherche académique évaluée en laboratoire sur deux plateformes robotiques, sans indication de déploiement industriel ni de partenariat commercial annoncé.

RecherchePaper
1 source