Aller au contenu principal
WAM-RL : apprentissage par renforcement avec modèle du monde, récompenses de reconstruction et SFT vidéo en ligne
RecherchearXiv cs.RO1h

WAM-RL : apprentissage par renforcement avec modèle du monde, récompenses de reconstruction et SFT vidéo en ligne

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 17 juin 2026 sur arXiv (2606.17906) WAM-RL, un cadre d'apprentissage par renforcement conçu pour les modèles World-Action (WA), une classe d'architectures qui couplent un modèle de monde (world model, chargé de prédire les états futurs de l'environnement) avec un modèle d'action (actor, chargé de sélectionner les commandes). L'originalité de WAM-RL tient à l'optimisation conjointe et en ligne de ces deux composants via une méthode d'optimisation hiérarchique, complétée par des récompenses de reconstruction et un fine-tuning supervisé sur vidéos en ligne (online video SFT). L'ensemble des expériences a été conduit en interaction réelle avec l'environnement, sans dépendre uniquement de trajectoires d'expert pré-collectées.

Ce travail comble une lacune structurelle des modèles WA actuels : entraînés exclusivement sur des démonstrations, ils ne peuvent pas acquérir de compétences de manipulation fines au-delà de la distribution couverte par ces données, ni s'améliorer en continu par l'expérience. L'insight central mis en évidence par les auteurs est particulièrement net : optimiser uniquement l'actor suffit à progresser sur des tâches à horizon court, mais échoue à produire des gains significatifs sur des tâches à horizon long. C'est la co-évolution du world model et de l'actor qui s'avère déterminante pour les scénarios complexes, ce qui implique que les pipelines de fine-tuning RL qui ignorent le world model introduisent un plafond de performance non trivial dans les applications de manipulation séquentielle.

WAM-RL s'inscrit dans une tendance plus large qui vise à dépasser les limites du behavioral cloning dans les robots à apprentissage (VLA, diffusion policies, pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) en intégrant des boucles de feedback online. Les travaux connexes comme DreamerV3 ou TD-MPC2 ont montré la puissance du model-based RL, mais leur application aux modèles WA multimodaux restait inexplorée. Il s'agit, selon les auteurs, de la première introduction du RL dans le paradigme World-Action. Il faut noter que l'article est un preprint non encore évalué par les pairs, que les benchmarks et environnements expérimentaux ne sont pas détaillés dans le résumé, et que la transférabilité vers du matériel réel (sim-to-real gap) reste à démontrer.

À lire aussi

BORA : apprentissage par renforcement hors ligne et adaptation résiduelle en ligne pour modèles VLA dextériques
1arXiv cs.RO 

BORA : apprentissage par renforcement hors ligne et adaptation résiduelle en ligne pour modèles VLA dextériques

Des chercheurs ont publié sur arXiv (arXiv:2605.30226) BORA, un cadre de post-entraînement mêlant apprentissage par renforcement hors ligne et adaptation résiduelle en ligne, conçu pour les modèles VLA (Vision-Language-Action) appliqués à la manipulation dextre. Le système fonctionne en deux phases: hors ligne, un réseau critique est entraîné en prenant comme entrées les tokens cognitifs du modèle de langage-vision et les chunks d'actions, ce qui lui permet d'évaluer les mouvements de main au-delà du seul contexte visuel. En ligne, le modèle VLA de base est gelé et une couche d'adaptation résiduelle légère de type chunk-wise est introduite, guidée par un mécanisme Human-in-the-Loop (HiL) générant des récompenses à partir d'interventions humaines. Évalué sur cinq tâches réelles de manipulation dextre complexe, BORA affiche une hausse absolue de 33 points de pourcentage du taux de succès moyen face aux baselines standards, et jusqu'à +43 points sur des objets non vus lors de l'entraînement. Ces résultats s'attaquent à l'un des verrous persistants de la robotique dextre: les mains à haute dimensionnalité amplifient les erreurs d'exécution cumulées, rendant l'exploration RL en conditions réelles à la fois inefficace et risquée pour le matériel. L'approche de BORA, qui préserve le modèle pré-entraîné comme prior stable et n'ajoute qu'une couche corrective légère, circonscrit l'espace d'exploration plutôt que de le réouvrir entièrement. Le gain de 43% sur objets non vus suggère une généralisation réelle plutôt qu'un surapprentissage des démonstrations, ce qui distingue ce travail des pipelines d'imitation learning classiques. Pour un intégrateur ou un décideur B2B, cela valide une trajectoire concrète: spécialiser un VLA généraliste pour une tâche dextre sans repartir d'un entraînement complet. Les VLA ont connu une accélération notable depuis Pi-0 de Physical Intelligence, OpenVLA (Berkeley) ou RoboVLMs (Google DeepMind), mais la manipulation fine multi-doigts reste leur point faible documenté. BORA s'inscrit dans un mouvement offline-to-online concurrent d'approches comme RLPD ou Cal-QL, qui cherchent à rendre le RL online moins destructif pour les politiques pré-apprises. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la publication; il s'agit pour l'instant d'un résultat de recherche sans annonce de commercialisation. La dépendance au HiL en phase online reste par ailleurs une limite pratique non résolue pour un passage à l'échelle industrielle.

RechercheOpinion
1 source
Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne
2arXiv cs.RO 

Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne

Des chercheurs ont publié sur arXiv (arXiv:2510.18518v2) un algorithme d'apprentissage par renforcement basé sur un modèle (MBRL) conçu pour contrôler des systèmes robotiques complexes directement dans le monde réel, sans passer par une phase de simulation intensive. L'approche construit un modèle de dynamique à partir des données d'interaction en temps réel, puis effectue des mises à jour de politique guidées par ce modèle appris. Les validations expérimentales ont été conduites sur deux plateformes distinctes : un bras d'excavatrice hydraulique et un bras robot souple. Dans les deux cas, l'algorithme atteint des performances comparables aux méthodes model-free en quelques heures d'entraînement, là où ces dernières réclament habituellement des millions d'interactions simulées. La robustesse de l'adaptation a également été évaluée sous conditions de charge utile (payload) aléatoire, avec des résultats stables malgré le changement de dynamique. L'enjeu principal est la réduction de ce que le secteur appelle le "sim-to-real gap" : l'écart entre les politiques apprises en simulation et leur comportement réel une fois déployées sur du matériel. Les pipelines dominants, adoptés aussi bien par des labos académiques que par des industriels comme Boston Dynamics ou Figure AI, reposent sur des millions de rollouts en simulation avant tout contact avec un robot physique, ce qui introduit un biais systématique difficile à corriger. Cet algorithme court-circuite cette étape en apprenant directement sur données réelles, avec une garantie formelle de progression : les auteurs démontrent des bornes de regret sous-linéaires (sublinear regret bounds) sous hypothèses d'optimisation stochastique en ligne, ce qui est rare dans la littérature MBRL appliquée à la robotique physique. Pour un intégrateur ou un industriel, cela se traduit par une réduction potentielle du temps de mise en service sur des tâches à dynamique variable (variation de charge, usure mécanique, changement de matériau). Ce travail s'inscrit dans un débat structurant du champ : model-based vs model-free RL pour la robotique physique. Les méthodes model-free comme PPO ou SAC dominent les benchmarks simulés mais peinent à s'adapter efficacement en production réelle. Des approches hybrides comme MBPO ou DreamerV3 ont tenté de combler cet écart, mais rarement validées sur des systèmes aussi hétérogènes qu'un bras hydraulique industriel et un manipulateur souple. La prochaine étape naturelle serait une validation sur des plateformes humanoïdes ou des AMR (autonomous mobile robots) à haute dimension, où les enjeux de sample efficiency sont directement liés aux coûts d'exploitation et à la durée de vie des actionneurs.

RecherchePaper
1 source
WOMBET : transfert d'expérience par modèle du monde pour un apprentissage par renforcement robuste et efficace
3arXiv cs.RO 

WOMBET : transfert d'expérience par modèle du monde pour un apprentissage par renforcement robuste et efficace

Une équipe de chercheurs présente WOMBET (World Model-Based Experience Transfer), un cadre d'apprentissage par renforcement (RL) publié sur arXiv sous la référence 2604.08958 (troisième version, indiquant un travail en révision active). Le constat de départ est simple : en robotique, collecter des données d'entraînement est coûteux et potentiellement risqué, ce qui freine l'adoption du RL réel. WOMBET répond à ce problème en deux temps. D'abord, un modèle du monde (world model) est appris sur une tâche source, et sert à générer synthétiquement un jeu de données hors-ligne via une planification pénalisée par l'incertitude épistémique. Les trajectoires générées sont ensuite filtrées selon deux critères : rendement cumulé élevé et faible incertitude. Ensuite, un agent s'affine en ligne sur la tâche cible, avec un échantillonnage adaptatif qui équilibre progressivement données offline (issues du world model) et données online (issues de l'environnement réel), assurant une transition stable. Les auteurs formalisent également que l'objectif pénalisé constitue une borne inférieure du rendement vrai, et décomposent l'erreur finie en termes de décalage de distribution et d'erreur d'approximation. Le gain pratique est réel : WOMBET améliore la vitesse de convergence et les performances finales sur des benchmarks de contrôle continu (probablement DeepMind Control Suite ou MuJoCo, non précisés dans l'abstract) par rapport à des baselines solides. Pour la robotique industrielle, où chaque heure de collecte sur robot physique se paie cher, la capacité à générer des données fiables via un modèle appris, tout en contrôlant leur qualité par l'incertitude, est un levier concret. La double garantie -- théorique et empirique -- est rare dans ce domaine et renforce la crédibilité de l'approche au-delà d'un simple résultat expérimental. Ce travail s'inscrit dans un courant actif qui associe world models et RL offline-to-online, où des systèmes comme DreamerV3 ou TD-MPC2 font référence. WOMBET se distingue en ciblant explicitement le problème du transfert inter-tâche, là où la majorité des approches existantes supposent un jeu de données fixe et pré-collecté. Aucune entreprise ni partenariat industriel n'est mentionné ; il s'agit de recherche académique à stade préprint. Trois versions déposées suggèrent des révisions significatives en cours, possiblement vers une soumission en conférence (NeurIPS, ICML, CoRL). Les prochaines étapes naturelles seraient une validation sur hardware réel et une comparaison avec des méthodes de sim-to-real transfer plus classiques.

RecherchePaper
1 source
Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne
4arXiv cs.RO 

Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne

Des chercheurs ont publié sur arXiv (arXiv:2605.05544, mai 2026) une méthode appelée Adaptive Q-Chunking (AQC), visant à résoudre une limitation structurelle de l'apprentissage par renforcement offline-to-online avec action chunking. Toutes les approches existantes appliquent une taille de chunk fixe à chaque état, ce qui est sous-optimal : près d'un contact physique, des chunks courts sont nécessaires pour un contrôle réactif ; en déplacement libre, des chunks longs améliorent l'attribution du crédit temporel. La solution naïve, entraîner un critique par taille de chunk puis comparer les valeurs Q, échoue systématiquement par désalignement des échelles de remise (discount-scale mismatch) et dégénère en bruit dans les états à faible valeur. AQC corrige ce double problème en comparant l'avantage relatif de chaque horizon par rapport à une baseline normalisée par le facteur de remise, rendant les comparaisons non biaisées même en l'absence de signal discriminant. La méthode atteint des taux de succès état de l'art sur les benchmarks OGBench et Robomimic, et améliore significativement les performances de modèles VLA à grande échelle sur les tâches RoboCasa-GR1. L'enjeu est concret pour les équipes qui intègrent des modèles Vision-Language-Action en production. Ces architectures, dont Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI, prédisent des séquences d'actions dont l'efficacité dépend directement de la granularité temporelle de ces séquences. AQC est applicable sans modifier l'architecture sous-jacente, ce qui en fait un correctif plug-and-play pour des pipelines existants. Les auteurs fournissent également des bornes formelles sur l'immunité au bruit du sélecteur d'avantage et sur la dominance en valeur du chunking adaptatif face à toute taille fixe, donnant une assise théorique à des performances que les benchmarks confirment empiriquement. L'action chunking s'est imposé comme paradigme de référence en manipulation apprise depuis ACT (Action Chunking with Transformers, Chi et al., 2023) et Diffusion Policy. La limitation d'une taille fixe était documentée mais sans solution rigoureuse. Des approches concurrentes adressent la granularité temporelle via la planification hiérarchique ou le fine-tuning online de politiques de diffusion, sans résoudre le biais de comparaison entre horizons. AQC se positionne comme correctif algorithmique orthogonal, applicable en surcouche de ces méthodes. Les résultats présentés portent intégralement sur des environnements simulés ; la validation sur plateformes physiques reste à établir, le gap sim-to-real demeurant une variable non résolue dans ce domaine.

RechercheOpinion
1 source