WAM-RL : apprentissage par renforcement avec…

HALO-WA : apprentissage par renforcement en ligne guidé par le latent, à attention hybride, pour modèles monde-action

46

1arXiv cs.RO

HALO-WA : apprentissage par renforcement en ligne guidé par le latent, à attention hybride, pour modèles monde-action

Des chercheurs viennent de publier sur arXiv (7 juillet 2026, arXiv:2607.04265) HALO-WA, un framework d'apprentissage par renforcement en ligne destine aux modèles "world-action" (WA), ces systèmes capables de générer de longues séquences d'actions pour la manipulation robotique généraliste. Le problème cible: ces modèles échouent fréquemment dans les derniers millimètres d'un alignement ou d'une insertion, a cause d'erreurs de calibration, de perception ou de dynamique de contact. HALO-WA ajoute un adaptateur acteur-critique léger qui exploite les caractéristiques latentes et les a priori d'action déjà produits par le modèle WA, via une structure d'attention hybride qui préservé la cohérence temporelle des séquences tout en intégrant le contexte visuel et les besoins de correction en fin de tache. Teste sur quatre taches de manipulation de précision en conditions réelles, le système fait grimper le taux de succès moyen de 26,4% pour le modèle WA de base a 87,1%, soit 19,2 points devant le meilleur système concurrent, avec seulement 45 a 75 minutes d'entrainement en ligne par tache. Des expériences complémentaires ont été menées en simulation sur RoboTwin, et le code est disponible sur GitHub (YeanRoot/HALO-WA). L'enjeu dépasse la prouesse technique isolée: la manipulation de précision, ce dernier millimètre ou tout se joue lors d'un vissage, d'une insertion de connecteur ou d'un assemblage fin, reste le talon d'Achille des modèles VLA/WA généralistes vantes par des systèmes comme GR00T N2, Pi-0 ou Helix. Ces architectures génèrent des séquences d'actions impressionnantes en démonstration mais s'effondrent souvent des que la tolérance géométrique se resserre, illustrant l'écart persistant entre la démo et le déploiement industriel réel. En montrant qu'un correctif RL léger, applique en quelques dizaines de minutes et sans reentrainer le modèle de base, peut tripler le taux de réussite, HALO-WA offre une piste concrète pour les intégrateurs qui cherchent a fiabiliser des cellules robotiques sans repasser par des mois de collecte de données et de fine-tuning lourd. C'est un argument en faveur de pipelines hybrides ou un gros modèle généraliste fournit la structure d'action pendant qu'un module d'adaptation local, bon marche, absorbe les erreurs spécifiques au site de déploiement. Cette approche s'inscrit dans la vague des modèles world-action apparus avec les VLA de nouvelle génération, censés unifier perception, langage et contrôle moteur pour la manipulation généraliste, une famille qui mélange offres commerciales et travaux de recherche ouverte. Le choix de RoboTwin comme banc d'essai simule et la publication du code renforcent une logique de reproductibilité plutôt que de simple annonce marketing, une distinction que le secteur peine parfois a maintenir face a des communiques mettant en avant des vidéos sélectionnées. Reste a voir si cette méthode d'adaptation en ligne se généralisé au-delà des quatre taches testées et des architectures WA existantes, et si des acteurs industriels, européens ou américains, intègreront ce type de correctif léger dans leurs propres piles logicielles pour accélérer le passage du prototype au déploiement en usine.

RecherchePaper

1 source

RARM : modèle de récompenses de progression à seuil de confiance pour l'apprentissage par renforcement en manipulation

42

2arXiv cs.RO

RARM : modèle de récompenses de progression à seuil de confiance pour l'apprentissage par renforcement en manipulation

Des chercheurs ont publié sur arXiv (réf. 2606.22027) RARM, pour Reference-Anchored Reward Model, une approche visant à résoudre un verrou central de l'apprentissage par renforcement (RL) en manipulation robotique : la conception des fonctions de récompense. La méthode repose sur un comparateur visuel léger qui, à partir d'une seule démonstration réussie, génère automatiquement un signal de récompense dense et progressif. RARM est pré-entraîné une unique fois sur des vidéos généralistes via un objectif de contraste temporel, sans données robot-spécifiques ni étiquetage manuel. Au déploiement, il compare des extraits de la tentative courante à des clips de référence et ne délivre une récompense que lorsque la correspondance dépasse un seuil de confiance (d'où l'appellation confidence-gated). Évalué sur 9 tâches de manipulation simulées issues des benchmarks LIBERO et MetaWorld ainsi que sur 4 tâches réelles, RARM obtient les meilleurs taux de succès globaux en entraînement RL, avec des gains particulièrement marqués sur des tâches longue durée comme le pliage de tissu. Le verrou qu'attaque RARM est fondamental : les récompenses éparses (succès/échec en fin de séquence) produisent un signal trop faible pour les tâches longues, tandis que les récompenses denses codées manuellement exigent une ingénierie fastidieuse et se généralisent mal d'une tâche à l'autre. Les approches de progression existantes souffraient d'un biais critique : elles attribuaient des récompenses élevées à des états visuellement plausibles mais physiquement incorrects, ce que la porte de confiance de RARM réduit directement. L'implication concrète pour les intégrateurs est qu'une seule vidéo de démonstration humaine suffit désormais à bootstrapper l'entraînement RL sur une nouvelle tâche, sans ré-ingénierie de la fonction de récompense. RARM se positionne en concurrence directe avec EUREKA (OpenAI, génération de récompenses via LLM) et les méthodes d'imitation inverse (IRL), dont il se distingue par sa légèreté et l'absence de données robot-spécifiques. Son objectif de généralisation le rapproche des ambitions des modèles VLA comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La publication reste un preprint arXiv, pas encore un produit ni un déploiement industriel ; les prochaines étapes attendues incluent une validation sur des plateformes hardware diversifiées et une intégration dans des pipelines de fine-tuning de modèles fondationnels robotiques.

RecherchePaper

1 source

BORA : apprentissage par renforcement hors ligne et adaptation résiduelle en ligne pour modèles VLA dextériques

42

3arXiv cs.RO

BORA : apprentissage par renforcement hors ligne et adaptation résiduelle en ligne pour modèles VLA dextériques

Des chercheurs ont publié sur arXiv (arXiv:2605.30226) BORA, un cadre de post-entraînement mêlant apprentissage par renforcement hors ligne et adaptation résiduelle en ligne, conçu pour les modèles VLA (Vision-Language-Action) appliqués à la manipulation dextre. Le système fonctionne en deux phases: hors ligne, un réseau critique est entraîné en prenant comme entrées les tokens cognitifs du modèle de langage-vision et les chunks d'actions, ce qui lui permet d'évaluer les mouvements de main au-delà du seul contexte visuel. En ligne, le modèle VLA de base est gelé et une couche d'adaptation résiduelle légère de type chunk-wise est introduite, guidée par un mécanisme Human-in-the-Loop (HiL) générant des récompenses à partir d'interventions humaines. Évalué sur cinq tâches réelles de manipulation dextre complexe, BORA affiche une hausse absolue de 33 points de pourcentage du taux de succès moyen face aux baselines standards, et jusqu'à +43 points sur des objets non vus lors de l'entraînement. Ces résultats s'attaquent à l'un des verrous persistants de la robotique dextre: les mains à haute dimensionnalité amplifient les erreurs d'exécution cumulées, rendant l'exploration RL en conditions réelles à la fois inefficace et risquée pour le matériel. L'approche de BORA, qui préserve le modèle pré-entraîné comme prior stable et n'ajoute qu'une couche corrective légère, circonscrit l'espace d'exploration plutôt que de le réouvrir entièrement. Le gain de 43% sur objets non vus suggère une généralisation réelle plutôt qu'un surapprentissage des démonstrations, ce qui distingue ce travail des pipelines d'imitation learning classiques. Pour un intégrateur ou un décideur B2B, cela valide une trajectoire concrète: spécialiser un VLA généraliste pour une tâche dextre sans repartir d'un entraînement complet. Les VLA ont connu une accélération notable depuis Pi-0 de Physical Intelligence, OpenVLA (Berkeley) ou RoboVLMs (Google DeepMind), mais la manipulation fine multi-doigts reste leur point faible documenté. BORA s'inscrit dans un mouvement offline-to-online concurrent d'approches comme RLPD ou Cal-QL, qui cherchent à rendre le RL online moins destructif pour les politiques pré-apprises. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la publication; il s'agit pour l'instant d'un résultat de recherche sans annonce de commercialisation. La dépendance au HiL en phase online reste par ailleurs une limite pratique non résolue pour un passage à l'échelle industrielle.

RechercheOpinion

1 source

WorldSample : apprentissage par renforcement en boucle fermée sur robot réel avec modélisation du monde

37

4arXiv cs.RO

WorldSample : apprentissage par renforcement en boucle fermée sur robot réel avec modélisation du monde

Des chercheurs présentent WorldSample, un framework d'apprentissage par renforcement (RL) pour robots réels qui combine rollouts physiques et modèle du monde génératif afin de réduire le coût des interactions réelles. Le système ferme une boucle "réel-synthétique" : à partir de trajectoires observées sur un robot physique, un modèle du monde post-entraîné génère des transitions synthétiques haute fidélité, limitant fortement les hallucinations visuelles typiques de ces modèles génératifs. Plutôt que de traiter ces données synthétiques comme de simples remplacements de l'expérience réelle, les auteurs introduisent le Policy-Paced Learning (PPL), un mécanisme de sélection et d'ordonnancement des échantillons qui équilibre l'apport de l'augmentation de données contre le risque de surestimation de la valeur et le bruit induit par les hallucinations résiduelles. Sur des tâches de manipulation robotique riches en contacts et exigeant une précision fine, WorldSample améliore le taux de réussite des politiques de 28% tout en réduisant de 59% le nombre d'étapes d'entraînement nécessaires, par rapport aux méthodes de référence. La fidélité visuelle du modèle du monde progresse également nettement : +19,4dB en PSNR et +0,47 en SSIM par rapport à un post-entraînement uniquement basé sur les démonstrations. L'enjeu dépasse la simple performance : le RL sur robot réel reste handicapé par le coût de chaque rollout physique, qui ne révèle qu'un seul chemin action-résultat parmi d'innombrables possibles. En générant des variations synthétiques crédibles autour de trajectoires réelles, WorldSample attaque directement ce goulot d'étranglement, un problème central pour tout acteur cherchant à déployer du RL au-delà du simple apprentissage par imitation, limité par la couverture des démonstrations disponibles. C'est aussi une réponse concrète au problème classique de la surestimation de valeur en RL offline et à l'écart de fidélité (sim-to-real) qui plombe habituellement les modèles du monde utilisés comme simulateurs d'entraînement. Le travail s'inscrit dans la lignée des recherches récentes sur les modèles du monde appliqués à la robotique, où la génération vidéo/action sert de simulateur bon marché pour compléter des données réelles rares. Contrairement aux approches purement génératives qui risquent d'halluciner des dynamiques physiques irréalistes, WorldSample ancre systématiquement sa génération sur des rollouts réels et régule l'usage des données synthétiques via PPL. L'article, publié sur arXiv (2607.02431, catégorie "new"), ouvre la voie à des extensions vers d'autres familles de tâches manipulatoires et à une meilleure compréhension du compromis entre volume d'augmentation synthétique et risque d'erreur cumulée en boucle fermée.

RecherchePaper

1 source

WAM-RL : apprentissage par renforcement avec modèle du monde, récompenses de reconstruction et SFT vidéo en ligne

À lire aussi

HALO-WA : apprentissage par renforcement en ligne guidé par le latent, à attention hybride, pour modèles monde-action

RARM : modèle de récompenses de progression à seuil de confiance pour l'apprentissage par renforcement en manipulation

BORA : apprentissage par renforcement hors ligne et adaptation résiduelle en ligne pour modèles VLA dextériques

WorldSample : apprentissage par renforcement en boucle fermée sur robot réel avec modélisation du monde