RecherchearXiv cs.RO 29 mai 2026

BORA : apprentissage par renforcement hors ligne et adaptation résiduelle en ligne pour modèles VLA dextériques

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (arXiv:2605.30226) BORA, un cadre de post-entraînement mêlant apprentissage par renforcement hors ligne et adaptation résiduelle en ligne, conçu pour les modèles VLA (Vision-Language-Action) appliqués à la manipulation dextre. Le système fonctionne en deux phases: hors ligne, un réseau critique est entraîné en prenant comme entrées les tokens cognitifs du modèle de langage-vision et les chunks d'actions, ce qui lui permet d'évaluer les mouvements de main au-delà du seul contexte visuel. En ligne, le modèle VLA de base est gelé et une couche d'adaptation résiduelle légère de type chunk-wise est introduite, guidée par un mécanisme Human-in-the-Loop (HiL) générant des récompenses à partir d'interventions humaines. Évalué sur cinq tâches réelles de manipulation dextre complexe, BORA affiche une hausse absolue de 33 points de pourcentage du taux de succès moyen face aux baselines standards, et jusqu'à +43 points sur des objets non vus lors de l'entraînement.

Ces résultats s'attaquent à l'un des verrous persistants de la robotique dextre: les mains à haute dimensionnalité amplifient les erreurs d'exécution cumulées, rendant l'exploration RL en conditions réelles à la fois inefficace et risquée pour le matériel. L'approche de BORA, qui préserve le modèle pré-entraîné comme prior stable et n'ajoute qu'une couche corrective légère, circonscrit l'espace d'exploration plutôt que de le réouvrir entièrement. Le gain de 43% sur objets non vus suggère une généralisation réelle plutôt qu'un surapprentissage des démonstrations, ce qui distingue ce travail des pipelines d'imitation learning classiques. Pour un intégrateur ou un décideur B2B, cela valide une trajectoire concrète: spécialiser un VLA généraliste pour une tâche dextre sans repartir d'un entraînement complet.

Les VLA ont connu une accélération notable depuis Pi-0 de Physical Intelligence, OpenVLA (Berkeley) ou RoboVLMs (Google DeepMind), mais la manipulation fine multi-doigts reste leur point faible documenté. BORA s'inscrit dans un mouvement offline-to-online concurrent d'approches comme RLPD ou Cal-QL, qui cherchent à rendre le RL online moins destructif pour les politiques pré-apprises. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la publication; il s'agit pour l'instant d'un résultat de recherche sans annonce de commercialisation. La dépendance au HiL en phase online reste par ailleurs une limite pratique non résolue pour un passage à l'échelle industrielle.

Dans nos dossiers

Physical Intelligence — π0 OpenVLA / RT-X arXiv cs.RO

À lire aussi

1arXiv cs.RO

Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne

Des chercheurs ont publié sur arXiv (arXiv:2605.05544, mai 2026) une méthode appelée Adaptive Q-Chunking (AQC), visant à résoudre une limitation structurelle de l'apprentissage par renforcement offline-to-online avec action chunking. Toutes les approches existantes appliquent une taille de chunk fixe à chaque état, ce qui est sous-optimal : près d'un contact physique, des chunks courts sont nécessaires pour un contrôle réactif ; en déplacement libre, des chunks longs améliorent l'attribution du crédit temporel. La solution naïve, entraîner un critique par taille de chunk puis comparer les valeurs Q, échoue systématiquement par désalignement des échelles de remise (discount-scale mismatch) et dégénère en bruit dans les états à faible valeur. AQC corrige ce double problème en comparant l'avantage relatif de chaque horizon par rapport à une baseline normalisée par le facteur de remise, rendant les comparaisons non biaisées même en l'absence de signal discriminant. La méthode atteint des taux de succès état de l'art sur les benchmarks OGBench et Robomimic, et améliore significativement les performances de modèles VLA à grande échelle sur les tâches RoboCasa-GR1. L'enjeu est concret pour les équipes qui intègrent des modèles Vision-Language-Action en production. Ces architectures, dont Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI, prédisent des séquences d'actions dont l'efficacité dépend directement de la granularité temporelle de ces séquences. AQC est applicable sans modifier l'architecture sous-jacente, ce qui en fait un correctif plug-and-play pour des pipelines existants. Les auteurs fournissent également des bornes formelles sur l'immunité au bruit du sélecteur d'avantage et sur la dominance en valeur du chunking adaptatif face à toute taille fixe, donnant une assise théorique à des performances que les benchmarks confirment empiriquement. L'action chunking s'est imposé comme paradigme de référence en manipulation apprise depuis ACT (Action Chunking with Transformers, Chi et al., 2023) et Diffusion Policy. La limitation d'une taille fixe était documentée mais sans solution rigoureuse. Des approches concurrentes adressent la granularité temporelle via la planification hiérarchique ou le fine-tuning online de politiques de diffusion, sans résoudre le biais de comparaison entre horizons. AQC se positionne comme correctif algorithmique orthogonal, applicable en surcouche de ces méthodes. Les résultats présentés portent intégralement sur des environnements simulés ; la validation sur plateformes physiques reste à établir, le gap sim-to-real demeurant une variable non résolue dans ce domaine.

RechercheOpinion

1 source

2arXiv cs.RO

Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques

Des chercheurs proposent VLAJS (Vision-Language-Action Jump-Starting), une méthode publiée sur arXiv (réf. 2604.13733v2) visant à accélérer l'apprentissage par renforcement (RL) en manipulation robotique. Le principe repose sur l'utilisation d'un modèle VLA comme guide transitoire en début d'entraînement, sans imitation stricte ni démonstrations humaines. VLAJS augmente l'algorithme PPO (Proximal Policy Optimization) d'une régularisation directionnelle qui aligne progressivement les actions de l'agent RL avec les suggestions du VLA, avant d'annuler cette contrainte à mesure que l'agent gagne en compétence. La méthode a été évaluée sur six tâches simulées (levée d'objet, pick-and-place, réorientation et insertion de cheville, poking, pushing), dont un sous-ensemble validé sur un bras Franka Panda réel. Elle réduit de plus de 50 % le nombre d'interactions d'entraînement nécessaires par rapport à PPO seul ou aux baselines de distillation, et démontre un transfert sim-to-real zero-shot robuste face à des encombrements, variations d'objets et perturbations externes. Ce résultat répond à une tension structurelle bien connue du domaine: les modèles VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) excellent dans le raisonnement à l'échelle de la tâche grâce à leur préentraînement multimodal massif, mais restent trop lents pour le contrôle en boucle fermée à haute fréquence. Inversement, le RL classique assure cette précision mais explore de façon inefficace sur des tâches longues avec récompenses éparses. VLAJS prouve qu'un VLA peut être utile sans être interrogé en continu, réduisant potentiellement les coûts d'entraînement pour des applications de manipulation industrielle et validant l'hypothèse qu'un modèle généraliste peut servir d'amorce dans des pipelines RL orientés production. VLAJS émerge dans un contexte de convergence entre fondations VLA et contrôle temps-réel, où Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Google DeepMind (RT-2) s'affrontent sur la généralisation pendant que le RL pur domine en précision. Cette contribution reste académique: validée sur le Franka Panda à 7 degrés de liberté, elle n'est pas encore un produit déployé ni industrialisé, et la réduction de 50 % des interactions porte sur des tâches relativement courtes en simulation. Les suites naturelles incluent l'extension à des morphologies plus complexes (humanoïdes, systèmes bimanuels) et l'intégration dans des frameworks d'entraînement open-source comme Isaac Lab ou ManiSkill.

RechercheOpinion

1 source

3arXiv cs.RO

Robo-ValueRL : une estimation fiable de la valeur pour l'apprentissage par renforcement hors ligne vers en ligne

Des chercheurs publient Robo-ValueRL, un framework d'apprentissage par renforcement offline-to-online pour la manipulation robotique, décrit dans un article arXiv (2607.09866v1) diffusé cette semaine. Le système entraîne un estimateur de valeur conditionné par l'historique des actions, dont la fiabilité est mesurée via deux métriques, la progression globale et la préférence locale. Ces estimations de valeur alimentent ensuite deux étapes : un pré-entraînement de politique par cohérence conditionnée à la qualité des données, puis un module d'adaptation résiduelle appliqué lors des déploiements en ligne. Les expériences s'appuient sur un volume conséquent, 240 heures de démonstrations hors ligne et plus de 3 000 trajectoires de rollout en ligne. Sur deux tâches de précision, l'insertion de puces électroniques au millimètre près et le désassemblage générique de blocs, le système atteint respectivement 86% et 84% de taux de réussite. L'apport principal ne se situe pas dans un nouveau record de performance mais dans la démonstration d'un lien direct entre la fiabilité de la fonction de valeur et la qualité de la politique finale. Concrètement, un estimateur de valeur fiable permet de prioriser les données de meilleure qualité parmi un ensemble hétérogène de démonstrations, ce qui bat le clonage comportemental classique, indifférent à la qualité des données, et stabilise la phase d'amélioration en ligne. Pour les équipes qui construisent des pipelines de RL robotique à partir de données de téléopération ou de simulation de qualité inégale, ce résultat justifie d'investir dans le diagnostic de la fonction de valeur plutôt que de simplement augmenter le volume de données ou la taille des modèles de politique. Le travail s'inscrit dans la tendance actuelle du secteur à combiner pré-entraînement hors ligne sur de larges jeux de démonstrations et affinage en ligne par rollouts réels, une approche jugée prometteuse pour la manipulation robotique généralisable mais dont la complexité technique rend la reproduction et le diagnostic difficiles, un point que les auteurs soulignent explicitement comme motivation de leur étude. Robo-ValueRL se positionne comme un banc d'essai unifié plutôt qu'un produit fini, destiné à isoler l'effet de la fiabilité de l'estimation de valeur des autres composants du pipeline. L'article ne précise pas de suite industrielle ni de partenaire de déploiement identifié à ce stade, le travail restant à un niveau de recherche académique.

RecherchePaper

1 source

4arXiv cs.RO

Apprentissage résiduel multi-échelle et adaptation en ligne pour manipulateurs aériens

Des chercheurs présentent, dans un preprint arXiv (2603.11638v2, juin 2026), un cadre de modélisation adaptative en temps réel pour les manipulateurs aériens autonomes (AAMs), c'est-à-dire des drones équipés de bras robotiques destinés à l'inspection, la saisie ou l'assemblage en environnements difficiles d'accès. L'architecture repose sur deux modules : le Factorized Dynamics Transformer (FDT), qui traite chaque variable physique comme un token indépendant et sépare explicitement les effets inertiels à court terme des effets aérodynamiques à long horizon, et le Latent Residual Adapter (LRA), qui adapte les résidus de dynamique en temps réel dans l'espace latent via les Moindres Carrés Récursifs (RLS). Les expériences en conditions réelles, avec des charges utiles inédites non vues à l'entraînement, montrent une meilleure fidélité de prédiction, une atténuation des perturbations plus rapide et une précision de suivi en boucle fermée supérieure aux baselines de l'état de l'art, tout en respectant la contrainte temps réel. Ce travail adresse un verrou central de la manipulation aérienne : la dynamique d'un AAM change brutalement lors de la reconfiguration du bras ou d'une variation de charge, ce que ni les modèles analytiques à paramètres fixes ni les modèles ML statiques ne gèrent correctement. En factorisant explicitement les couplages inter-variables et en adaptant les résidus sans ré-entraînement complet, le framework réduit le coût computationnel tout en préservant la représentation non-linéaire apprise hors-ligne. Pour les intégrateurs industriels, c'est un signal que le gap sim-to-real des AAMs peut être partiellement comblé par adaptation en ligne, évitant des cycles coûteux de re-collecte de données sur site. Les AAMs font l'objet de recherches actives depuis le milieu des années 2010, avec des débouchés visés dans l'inspection d'infrastructures électriques, la construction et la logistique verticale. Les approches concurrentes misent sur le MPC robuste ou les réseaux récurrents pour la compensation de dynamiques résiduelles. Ce preprint n'est pas encore évalué par les pairs, et les résultats constituent des validations en laboratoire sur charges limitées, pas un déploiement industriel. Les prochaines étapes naturelles incluent des tests sur des configurations de bras plus complexes, des amplitudes de payload plus importantes, et une validation sur sites opérationnels réels.

RecherchePaper

1 source