Aller au contenu principal
BORA : apprentissage par renforcement hors ligne et adaptation résiduelle en ligne pour modèles VLA dextériques
RecherchearXiv cs.RO20h

BORA : apprentissage par renforcement hors ligne et adaptation résiduelle en ligne pour modèles VLA dextériques

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (arXiv:2605.30226) BORA, un cadre de post-entraînement mêlant apprentissage par renforcement hors ligne et adaptation résiduelle en ligne, conçu pour les modèles VLA (Vision-Language-Action) appliqués à la manipulation dextre. Le système fonctionne en deux phases: hors ligne, un réseau critique est entraîné en prenant comme entrées les tokens cognitifs du modèle de langage-vision et les chunks d'actions, ce qui lui permet d'évaluer les mouvements de main au-delà du seul contexte visuel. En ligne, le modèle VLA de base est gelé et une couche d'adaptation résiduelle légère de type chunk-wise est introduite, guidée par un mécanisme Human-in-the-Loop (HiL) générant des récompenses à partir d'interventions humaines. Évalué sur cinq tâches réelles de manipulation dextre complexe, BORA affiche une hausse absolue de 33 points de pourcentage du taux de succès moyen face aux baselines standards, et jusqu'à +43 points sur des objets non vus lors de l'entraînement.

Ces résultats s'attaquent à l'un des verrous persistants de la robotique dextre: les mains à haute dimensionnalité amplifient les erreurs d'exécution cumulées, rendant l'exploration RL en conditions réelles à la fois inefficace et risquée pour le matériel. L'approche de BORA, qui préserve le modèle pré-entraîné comme prior stable et n'ajoute qu'une couche corrective légère, circonscrit l'espace d'exploration plutôt que de le réouvrir entièrement. Le gain de 43% sur objets non vus suggère une généralisation réelle plutôt qu'un surapprentissage des démonstrations, ce qui distingue ce travail des pipelines d'imitation learning classiques. Pour un intégrateur ou un décideur B2B, cela valide une trajectoire concrète: spécialiser un VLA généraliste pour une tâche dextre sans repartir d'un entraînement complet.

Les VLA ont connu une accélération notable depuis Pi-0 de Physical Intelligence, OpenVLA (Berkeley) ou RoboVLMs (Google DeepMind), mais la manipulation fine multi-doigts reste leur point faible documenté. BORA s'inscrit dans un mouvement offline-to-online concurrent d'approches comme RLPD ou Cal-QL, qui cherchent à rendre le RL online moins destructif pour les politiques pré-apprises. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la publication; il s'agit pour l'instant d'un résultat de recherche sans annonce de commercialisation. La dépendance au HiL en phase online reste par ailleurs une limite pratique non résolue pour un passage à l'échelle industrielle.

À lire aussi

Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne
1arXiv cs.RO 

Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne

Des chercheurs ont publié sur arXiv (arXiv:2605.05544, mai 2026) une méthode appelée Adaptive Q-Chunking (AQC), visant à résoudre une limitation structurelle de l'apprentissage par renforcement offline-to-online avec action chunking. Toutes les approches existantes appliquent une taille de chunk fixe à chaque état, ce qui est sous-optimal : près d'un contact physique, des chunks courts sont nécessaires pour un contrôle réactif ; en déplacement libre, des chunks longs améliorent l'attribution du crédit temporel. La solution naïve, entraîner un critique par taille de chunk puis comparer les valeurs Q, échoue systématiquement par désalignement des échelles de remise (discount-scale mismatch) et dégénère en bruit dans les états à faible valeur. AQC corrige ce double problème en comparant l'avantage relatif de chaque horizon par rapport à une baseline normalisée par le facteur de remise, rendant les comparaisons non biaisées même en l'absence de signal discriminant. La méthode atteint des taux de succès état de l'art sur les benchmarks OGBench et Robomimic, et améliore significativement les performances de modèles VLA à grande échelle sur les tâches RoboCasa-GR1. L'enjeu est concret pour les équipes qui intègrent des modèles Vision-Language-Action en production. Ces architectures, dont Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI, prédisent des séquences d'actions dont l'efficacité dépend directement de la granularité temporelle de ces séquences. AQC est applicable sans modifier l'architecture sous-jacente, ce qui en fait un correctif plug-and-play pour des pipelines existants. Les auteurs fournissent également des bornes formelles sur l'immunité au bruit du sélecteur d'avantage et sur la dominance en valeur du chunking adaptatif face à toute taille fixe, donnant une assise théorique à des performances que les benchmarks confirment empiriquement. L'action chunking s'est imposé comme paradigme de référence en manipulation apprise depuis ACT (Action Chunking with Transformers, Chi et al., 2023) et Diffusion Policy. La limitation d'une taille fixe était documentée mais sans solution rigoureuse. Des approches concurrentes adressent la granularité temporelle via la planification hiérarchique ou le fine-tuning online de politiques de diffusion, sans résoudre le biais de comparaison entre horizons. AQC se positionne comme correctif algorithmique orthogonal, applicable en surcouche de ces méthodes. Les résultats présentés portent intégralement sur des environnements simulés ; la validation sur plateformes physiques reste à établir, le gap sim-to-real demeurant une variable non résolue dans ce domaine.

RechercheOpinion
1 source
Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne
2arXiv cs.RO 

Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne

Des chercheurs ont publié sur arXiv (arXiv:2510.18518v2) un algorithme d'apprentissage par renforcement basé sur un modèle (MBRL) conçu pour contrôler des systèmes robotiques complexes directement dans le monde réel, sans passer par une phase de simulation intensive. L'approche construit un modèle de dynamique à partir des données d'interaction en temps réel, puis effectue des mises à jour de politique guidées par ce modèle appris. Les validations expérimentales ont été conduites sur deux plateformes distinctes : un bras d'excavatrice hydraulique et un bras robot souple. Dans les deux cas, l'algorithme atteint des performances comparables aux méthodes model-free en quelques heures d'entraînement, là où ces dernières réclament habituellement des millions d'interactions simulées. La robustesse de l'adaptation a également été évaluée sous conditions de charge utile (payload) aléatoire, avec des résultats stables malgré le changement de dynamique. L'enjeu principal est la réduction de ce que le secteur appelle le "sim-to-real gap" : l'écart entre les politiques apprises en simulation et leur comportement réel une fois déployées sur du matériel. Les pipelines dominants, adoptés aussi bien par des labos académiques que par des industriels comme Boston Dynamics ou Figure AI, reposent sur des millions de rollouts en simulation avant tout contact avec un robot physique, ce qui introduit un biais systématique difficile à corriger. Cet algorithme court-circuite cette étape en apprenant directement sur données réelles, avec une garantie formelle de progression : les auteurs démontrent des bornes de regret sous-linéaires (sublinear regret bounds) sous hypothèses d'optimisation stochastique en ligne, ce qui est rare dans la littérature MBRL appliquée à la robotique physique. Pour un intégrateur ou un industriel, cela se traduit par une réduction potentielle du temps de mise en service sur des tâches à dynamique variable (variation de charge, usure mécanique, changement de matériau). Ce travail s'inscrit dans un débat structurant du champ : model-based vs model-free RL pour la robotique physique. Les méthodes model-free comme PPO ou SAC dominent les benchmarks simulés mais peinent à s'adapter efficacement en production réelle. Des approches hybrides comme MBPO ou DreamerV3 ont tenté de combler cet écart, mais rarement validées sur des systèmes aussi hétérogènes qu'un bras hydraulique industriel et un manipulateur souple. La prochaine étape naturelle serait une validation sur des plateformes humanoïdes ou des AMR (autonomous mobile robots) à haute dimension, où les enjeux de sample efficiency sont directement liés aux coûts d'exploitation et à la durée de vie des actionneurs.

RecherchePaper
1 source
Apprentissage par renforcement résiduel pour la téléopération de robots sous délais stochastiques
3arXiv cs.RO 

Apprentissage par renforcement résiduel pour la téléopération de robots sous délais stochastiques

Les délais de communication en téleopération robotique ne sont jamais constants : latences variables selon la charge réseau, paquets perdus, jitter. Ces instabilités stochastiques introduisent des discontinuités dans les observations reçues par le contrôleur. En conditions réelles, les méthodes classiques d'apprentissage par renforcement (RL) s'effondrent face à ces délais : l'agent, confronté à des états incohérents, produit des commandes oscillantes à haute fréquence, un phénomène dit de chattering, qui dégrade la stabilité mécanique et l'exécution des tâches. Une équipe de chercheurs publie sur arXiv (identifiant 2605.15480, mai 2025) un cadre hybride baptisé delay-resilient RL, combinant un estimateur d'état basé sur un réseau LSTM (Long Short-Term Memory) avec une politique RL résiduelle. Le LSTM reconstruit des estimations d'état lisses et continues à partir des observations retardées, permettant à l'agent d'apprendre une politique de compensation résiduelle en couple (residual torque). La validation expérimentale a été conduite sur des robots Franka Panda, bras 7-DOF largement utilisé comme référence en recherche sur la manipulation. L'approche tire parti de la complémentarité de deux techniques établies : les réseaux LSTM pour la reconstruction temporelle de séquences, et le RL résiduel pour corriger un contrôleur de base sans le remplacer. En séparant l'estimation d'état du problème de contrôle, les auteurs évitent que le chattering contamine le signal de commande, un défaut récurrent des architectures RL pures opérant avec des espaces d'observation augmentés. Pour les opérateurs industriels déployant des systèmes de téleopération en conditions réseau dégradées, maintenance en milieu hostile, chirurgie à distance ou contrôle d'assets offshore, la robustesse aux délais à forte variance représente un critère discriminant souvent absent des benchmarks académiques. Les résultats publiés montrent une supériorité sur les baselines état de l'art même sous des délais stochastiques élevés, suggérant une voie viable vers des contrôleurs plus robustes en déploiement réel. Le Franka Panda, produit par Franka Robotics (Munich), s'est imposé comme référence de facto dans les laboratoires de manipulation grâce à sa compliance active et son API ouverte. Les approches concurrentes pour gérer les délais en RL incluent l'augmentation de l'espace d'états avec l'historique d'observations ou les prédicteurs à horizon fixe ; la combinaison LSTM et RL résiduel reste une direction moins explorée dans la littérature. Ce travail est un preprint arXiv non évalué par les pairs, et les résultats restent limités à un environnement expérimental contrôlé avec un seul type de robot. Les prochaines étapes naturelles impliquent des validations sur des plateformes bimanuelles ou humanoïdes, ainsi que des tests en conditions réseau réelles plutôt que simulées.

UEFranka Robotics (Munich) est la plateforme de référence utilisée, et cette approche de robustesse aux délais stochastiques pourrait intéresser les équipes européennes travaillant sur la téleopération industrielle en milieu hostile ou la chirurgie à distance, domaines en développement dans l'UE.

RecherchePaper
1 source
Transformer de décision conditionné par objectif pour l'apprentissage par renforcement hors ligne multi-objectifs
4arXiv cs.RO 

Transformer de décision conditionné par objectif pour l'apprentissage par renforcement hors ligne multi-objectifs

Des chercheurs ont publié en octobre 2024 sur arXiv (identifiant 2410.06347, version 2) une méthode baptisée Goal-Conditioned Decision Transformer (GCDT), conçue pour entraîner des robots à accomplir plusieurs tâches distinctes sans interaction en temps réel avec l'environnement. L'approche repose sur l'apprentissage par renforcement hors ligne (offline RL) : le modèle apprend uniquement à partir de données collectées au préalable, sans générer de nouvelles trajectoires coûteuses. La validation se fait sur le bras collaboratif Franka Emika Panda (7 degrés de liberté), à partir d'un jeu de données offline nouvellement publié pour cette plateforme. Les résultats annoncés montrent que GCDT surpasse des baselines en ligne considérées comme état de l'art sur des tâches complexes, et conserve ses performances dans des environnements à récompenses éparses, même avec un nombre limité de démonstrations expertes. L'enjeu technique est réel : le principal frein à l'industrialisation du RL en robotique reste le coût des interactions d'entraînement, chaque collision, chaque reset prend du temps physique et use les équipements. En découplant l'apprentissage de l'exécution grâce à des données hors ligne, GCDT réduit ce verrou. Ce qui est plus notable, c'est la capacité à gérer des objectifs multiples et variables dans un seul modèle, là où la plupart des politiques offline sont entraînées tâche par tâche. La reformulation sous forme de séquences (héritage du Decision Transformer) permet d'injecter explicitement l'état-cible dans le contexte du modèle, ce qui facilite la généralisation. Il faut toutefois rester prudent : il s'agit d'un preprint non encore publié en conférence majeure, et les résultats portent sur un dataset contrôlé, pas sur un déploiement industriel réel. Le Decision Transformer original (Chen et al., 2021, Google Brain / UC Berkeley) avait montré qu'un transformer entraîné sur des trajectoires étiquetées par leur retour cumulatif pouvait rivaliser avec des méthodes RL classiques. GCDT étend cette idée au cadre multi-objectifs, un problème que des travaux concurrents comme MTDIFF ou Goal-Conditioned IQL abordent différemment. Le bras Panda de Franka Robotics (acquis par Agile Robots en 2021) reste la plateforme de référence en robotique manipulation académique. La prochaine étape logique serait un transfert sim-to-real sur des tâches de manipulation industrielle, et une comparaison avec des approches VLA (Vision-Language-Action) comme Pi-0 ou OpenVLA, qui opèrent elles aussi en généralisation multi-tâches mais via des modèles de fondation beaucoup plus lourds.

UEImpact indirect uniquement : le bras Franka Panda, d'origine allemande, est la plateforme de manipulation de référence dans de nombreux labos académiques européens (INRIA, CEA-List inclus), mais l'étude n'implique directement aucune institution ou entreprise française ou européenne.

RecherchePaper
1 source