Aller au contenu principal
RecherchearXiv cs.RO1h

FLAG : la politique de flux par apprentissage par renforcement MaxEnt avec guidage latent augmenté

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

FLAG (Flow policy with Latent-Augmented Guidance) est un algorithme d'apprentissage par renforcement à entropie maximale (MaxEnt-RL) présenté dans un preprint arXiv (2605.30749) déposé fin mai 2026. L'approche s'attaque à une limitation connue des implémentations actuelles de MaxEnt-RL : la quasi-totalité restreint les politiques à des distributions gaussiennes simples, ce qui bride leur expressivité. Les tentatives récentes d'intégrer des politiques génératives via un apprentissage supervisé pondéré par importance butent sur le phénomène d'effondrement des poids d'importance (importance weight collapse), particulièrement sévère dans les espaces d'action de haute dimension. FLAG contourne ce problème en localisant la région d'échantillonnage : l'espace d'état est augmenté d'une variable latente de flux normalisants, et l'algorithme optimise un objectif proxy MaxEnt-RL dont la cohérence est démontrée formellement, réduisant la dégénérescence sans multiplier le nombre d'échantillons nécessaires.

L'importance de FLAG réside dans sa capacité à réconcilier expressivité des politiques et passage à l'échelle. Les politiques gaussiennes standard ne capturent pas les distributions multimodales qui émergent dans les tâches de contrôle complexes -- manipulation dextère, locomotion, planification en espace contraint. Les architectures de diffusion et de flux ont prouvé leur potentiel en robotique (Pi-0 de Physical Intelligence, les VLA de la famille GR00T N2 de NVIDIA), mais leur entraînement par RL restait instable à haute dimension. FLAG démontre empiriquement qu'on peut optimiser ces politiques expressives avec un nombre limité d'échantillons pondérés et atteindre des performances état de l'art sur des benchmarks réputés difficiles -- l'abstract ne précise pas lesquels, ce qui limite la vérifiabilité immédiate de la revendication.

MaxEnt-RL est un cadre théorique consolidé, popularisé notamment par les travaux de Sergey Levine et ses co-auteurs sur Soft Actor-Critic (SAC, 2018). Les approches concurrentes à FLAG incluent les politiques de diffusion en RL (DPPO, DIPO) ainsi que les méthodes hybrides flux-RL récentes issues de groupes comme Berkeley, CMU et Shanghai AI Lab. Ce preprint n'a pas encore été soumis à une conférence majeure au moment de l'annonce, et aucun code public n'est encore disponible. La prochaine étape naturelle serait une validation sur robots physiques, domaine où les espaces d'action haute dimension sont omniprésents et où le fossé sim-to-real reste le vrai test de toute méthode de ce type.

À lire aussi

ReActor : apprentissage par renforcement pour le reciblage de mouvement avec physique
1arXiv cs.RO 

ReActor : apprentissage par renforcement pour le reciblage de mouvement avec physique

Une équipe de chercheurs a publié ReActor (arXiv:2605.06593, mai 2026), un cadre d'optimisation bilevel qui résout simultanément le retargeting cinématique et l'entraînement de la politique de suivi par apprentissage par renforcement. Le problème est connu : transposer une séquence de mouvement humaine capturée sur un robot aux articulations différentes génère systématiquement des artefacts physiques rédhibitoires, glissement de pieds, auto-collisions ou trajectoires dynamiquement infaisables, qui dégradent l'imitation learning en aval. ReActor élimine ces pathologies en intégrant directement le retargeting dans la simulation physique, avec un gradient approximé pour le niveau supérieur de l'optimisation et un ensemble sparse de correspondances sémantiques entre corps rigides. Aucun réglage manuel n'est requis. Le framework a été validé en simulation et sur hardware réel, notamment sur un quadrupède, morphologie particulièrement éloignée du référentiel humain. Ce résultat cible un goulet d'étranglement concret dans les pipelines d'imitation learning : la majorité des démonstrations actuelles reposent sur des données de mouvement nettoyées à la main ou des trajectoires synthétiques, deux approches coûteuses qui freinent le passage à l'échelle. En garantissant la cohérence physique dès le retargeting, ReActor produit des données directement exploitables sans post-traitement, réduisant le cycle de production de policies. L'absence de tuning manuel est stratégique pour les intégrateurs : le même framework peut s'appliquer à des morphologies très différentes sans réingénierie spécifique. La validation hardware sur quadrupède renforce la crédibilité face à des travaux restés confinés au sim-to-sim. Ce champ de recherche s'est intensifié avec l'essor des modèles d'action visuels (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui exigent de larges corpus de démonstrations physiquement cohérentes pour généraliser. ReActor se positionne face à des approches comme PHC ou MoCapAct en se distinguant par son couplage natif à la simulation physique plutôt qu'une correction post-hoc. Il s'agit pour l'instant d'un preprint académique sans partenariat industriel annoncé. La prochaine étape logique serait une validation sur robot humanoïde complet, où les contraintes dynamiques et les degrés de liberté supplémentaires rendent le problème encore plus sévère.

RecherchePaper
1 source
Apprentissage par renforcement visuel avec politique primitive séparée pour l'assemblage par emboîtement
2arXiv cs.RO 

Apprentissage par renforcement visuel avec politique primitive séparée pour l'assemblage par emboîtement

Des chercheurs ont publié sur arXiv (référence 2504.14820) une approche de reinforcement learning visuel baptisée Separate Primitive Policy (S2P), conçue pour automatiser les tâches d'assemblage par insertion cheville-trou (peg-in-hole). La méthode s'inspire du comportement humain en vision binoculaire : un opérateur localise d'abord visuellement la cheville au-dessus de la surface cible, puis exécute l'insertion. S2P décompose ce processus en deux primitives apprises simultanément, la localisation et l'insertion, dans un cadre de reinforcement learning sans modèle (model-free). Les auteurs ont développé dix tâches d'insertion distinctes utilisant des formes polygonales variées comme banc d'essai standardisé, ont conduit des expériences en simulation avec contraintes de force, puis validé l'approche sur robot réel. L'intérêt principal de S2P réside dans son gain de sample efficiency, c'est-à-dire la capacité à apprendre une politique efficace avec moins d'interactions avec l'environnement, combiné à une amélioration du taux de succès même lorsque des contraintes de force sont imposées. Pour les intégrateurs industriels, c'est un signal concret : l'assemblage fin, encore largement opéré par des systèmes rigides à programmation manuelle, devient plus accessible à l'apprentissage automatique en présence de retour visuel. La compatibilité affichée avec n'importe quel algorithme RL model-free élargit le spectre d'application, même si les performances absolues restent à confirmer hors des conditions de laboratoire présentées dans le papier. Le peg-in-hole est un benchmark historique en manipulation robotique, standardisé notamment dans le cadre des compétitions NIST Assembly Task Board. Des approches concurrentes combinent typiquement vision et retour d'effort (force-torque control), ou s'appuient sur des politiques d'imitation comme les VLA (Vision-Language-Action models) de Physical Intelligence (Pi-0) ou les travaux de simulation massive de NVIDIA Isaac Lab. S2P se positionne dans un espace différent, celui du RL visuel pur avec décomposition de primitives, une direction que des équipes comme celles de DeepMind et CMU explorent également. Les prochaines étapes naturelles concernent la robustesse aux variations d'éclairage, aux tolérances mécaniques réelles, et la généralisation à des géométries non vues en entraînement.

UEImpact indirect : les équipes R&D et intégrateurs industriels européens travaillant sur l'assemblage automatisé peuvent intégrer S2P dans leur veille sur le RL visuel pour la manipulation fine, sans déploiement ni acteur européen directement impliqué.

RecherchePaper
1 source
ZAPS-DA : lissage de politique à phase zéro avec acteur découplé pour le contrôle continu en apprentissage par renforcement
3arXiv cs.RO 

ZAPS-DA : lissage de politique à phase zéro avec acteur découplé pour le contrôle continu en apprentissage par renforcement

ZAPS-DA (arXiv:2605.30612, juin 2026) est un cadre d'apprentissage par renforcement qui s'attaque à un problème concret de déploiement : les politiques de contrôle continu entraînées avec des algorithmes off-policy comme Soft Actor-Critic (SAC) produisent des commandes oscillantes à haute fréquence, le "jitter", qui rendent le transfert sur des actionneurs physiques hasardeux. L'approche couple l'acteur RL principal non modifié à un second acteur découplé, entraîné par imitation supervisée à partir de cibles filtrées zéro-phase (filtre Savitzky-Golay) stockées dans le replay buffer. L'acteur déployé est ce second acteur : une fonction feed-forward directe observation-action, sans filtre à l'inférence ni historique d'actions en entrée. Les auteurs nomment ce mécanisme "distillation causale d'un filtre non-causal". Validé sur deux simulateurs de conduite (MetaDrive et un environnement Webots de régulation de vitesse adaptative, protocoles n=150), ZAPS-DA affiche sur MetaDrive une réduction du jitter de direction de 14 à 21x et du jitter d'accélération de 3 à 5x (p < 10^-4, correction Bonferroni), sans dégradation de la complétion de tâche (p=0,28 réussite), pour un coût de 6,3 % en récompense. Sur Webots, l'amélioration est de type Pareto : parité de récompense (p=0,121), réduction du jitter de 8 à 45x, taux d'échec total ramené de 2,0 % à 0,7 %. Le problème est structurant pour le déploiement robotique : un signal de commande oscillant use prématurément les actionneurs, complique le sim-to-real et génère des comportements imprévisibles. Les deux solutions classiques avaient des défauts durs : le filtrage post-hoc introduit un délai de phase qui peut déstabiliser une boucle fermée ; pénaliser le jitter directement dans la perte RL mélange deux objectifs et fait régresser la performance de tâche. ZAPS-DA sépare proprement les deux responsabilités. La perte MSE à magnitude calibrée supprime aussi le besoin de re-tuning selon l'optimiseur, ce qui rend le cadre directement portable. Le papier s'inscrit dans les travaux sur le lissage de politiques RL (TD3 target policy smoothing, action repetition, action chunking d'ACT/Diffusion Policy), mais formalise pour la première fois la distillation d'un filtre non-causal dans un acteur causal. Les expériences restent limitées à deux simulateurs de conduite ; aucune validation sur plateforme physique ni code public ne sont annoncés, ce qui laisse ouverte la question du transfert vers la manipulation ou la locomotion. Les prochaines étapes naturelles seraient un test sur AMR, bras manipulateur ou véhicule RC, et une comparaison directe avec les méthodes de chunking temporel. ZAPS-DA demeure un preprint arXiv sans revue par les pairs confirmée.

RecherchePaper
1 source
RDGen : génération de démonstrations pour l'apprentissage robotique par renforcement
4arXiv cs.RO 

RDGen : génération de démonstrations pour l'apprentissage robotique par renforcement

Une équipe de chercheurs a publié le 30 mai 2026 sur arXiv (référence 2605.30957) un framework appelé RDGen, pour "Reinforcement Learning Demonstration Generation", destiné à automatiser la collecte de données d'entraînement pour les modèles Vision-Language-Action (VLA). Le système combine trois composants : un module d'analyse de tâches basé sur un modèle de langage visuel (VLM), un localisateur d'objets fondé sur Grounding DINO, et une politique de contrôle entraînée par apprentissage par renforcement (RL) en simulation puis transférée sur un robot réel. Testé sur une tâche de saisie et de dépose, RDGen atteint un taux de succès élevé après transfert sim-to-real, sans que les auteurs ne publient de chiffre précis dans le résumé disponible. Les trajectoires générées sont ensuite réutilisées directement comme données d'entraînement pour affiner des politiques VLA en aval. L'enjeu central est celui du goulot d'étranglement dans la chaîne d'entraînement des robots généralistes : la télé-opération humaine, méthode dominante pour collecter des démonstrations, est lente, coûteuse, et produit des trajectoires variables selon l'opérateur. RDGen propose de substituer cet effort humain par une politique RL, qui génère des trajectoires mécaniquement cohérentes et reproductibles, plus lisses selon les auteurs que ce que produit un opérateur humain, et avec un coût marginal quasi nul en simulation. Cela renforce l'hypothèse que le problème sim-to-real pour des tâches de manipulation simples est largement résolu, et déplace la question vers la scalabilité de la diversité des tâches plutôt que la qualité individuelle des démos. RDGen s'inscrit dans un débat actif sur la meilleure façon d'alimenter les VLA, dont les architectures de référence actuelles incluent pi0 (Physical Intelligence), OpenVLA et les travaux de RT-2/RT-X chez Google DeepMind. La collecte de données reste le principal frein industriel à leur déploiement, ce que tentent aussi d'adresser des approches concurrentes comme la génération vidéo synthétique (ex. travaux UniSim, Genie) ou l'augmentation par world models. La contribution de RDGen est plus modeste et ciblée : un pipeline sim-to-real structuré pour des tâches de manipulation définies, avec réutilisation des rollouts réussis. Il s'agit d'un preprint non encore peer-reviewed ; les expériences restent limitées à pick-and-place, et l'absence de métriques quantitatives précises dans le résumé invite à attendre la version complète avant d'en tirer des conclusions générales sur la scalabilité.

RechercheOpinion
1 source