Aller au contenu principal
RecherchearXiv cs.RO1h

ZAPS-DA : lissage de politique à phase zéro avec acteur découplé pour le contrôle continu en apprentissage par renforcement

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

ZAPS-DA (arXiv:2605.30612, juin 2026) est un cadre d'apprentissage par renforcement qui s'attaque à un problème concret de déploiement : les politiques de contrôle continu entraînées avec des algorithmes off-policy comme Soft Actor-Critic (SAC) produisent des commandes oscillantes à haute fréquence, le "jitter", qui rendent le transfert sur des actionneurs physiques hasardeux. L'approche couple l'acteur RL principal non modifié à un second acteur découplé, entraîné par imitation supervisée à partir de cibles filtrées zéro-phase (filtre Savitzky-Golay) stockées dans le replay buffer. L'acteur déployé est ce second acteur : une fonction feed-forward directe observation-action, sans filtre à l'inférence ni historique d'actions en entrée. Les auteurs nomment ce mécanisme "distillation causale d'un filtre non-causal". Validé sur deux simulateurs de conduite (MetaDrive et un environnement Webots de régulation de vitesse adaptative, protocoles n=150), ZAPS-DA affiche sur MetaDrive une réduction du jitter de direction de 14 à 21x et du jitter d'accélération de 3 à 5x (p < 10^-4, correction Bonferroni), sans dégradation de la complétion de tâche (p=0,28 réussite), pour un coût de 6,3 % en récompense. Sur Webots, l'amélioration est de type Pareto : parité de récompense (p=0,121), réduction du jitter de 8 à 45x, taux d'échec total ramené de 2,0 % à 0,7 %.

Le problème est structurant pour le déploiement robotique : un signal de commande oscillant use prématurément les actionneurs, complique le sim-to-real et génère des comportements imprévisibles. Les deux solutions classiques avaient des défauts durs : le filtrage post-hoc introduit un délai de phase qui peut déstabiliser une boucle fermée ; pénaliser le jitter directement dans la perte RL mélange deux objectifs et fait régresser la performance de tâche. ZAPS-DA sépare proprement les deux responsabilités. La perte MSE à magnitude calibrée supprime aussi le besoin de re-tuning selon l'optimiseur, ce qui rend le cadre directement portable.

Le papier s'inscrit dans les travaux sur le lissage de politiques RL (TD3 target policy smoothing, action repetition, action chunking d'ACT/Diffusion Policy), mais formalise pour la première fois la distillation d'un filtre non-causal dans un acteur causal. Les expériences restent limitées à deux simulateurs de conduite ; aucune validation sur plateforme physique ni code public ne sont annoncés, ce qui laisse ouverte la question du transfert vers la manipulation ou la locomotion. Les prochaines étapes naturelles seraient un test sur AMR, bras manipulateur ou véhicule RC, et une comparaison directe avec les méthodes de chunking temporel. ZAPS-DA demeure un preprint arXiv sans revue par les pairs confirmée.

Dans nos dossiers

À lire aussi

ReActor : apprentissage par renforcement pour le reciblage de mouvement avec physique
1arXiv cs.RO 

ReActor : apprentissage par renforcement pour le reciblage de mouvement avec physique

Une équipe de chercheurs a publié ReActor (arXiv:2605.06593, mai 2026), un cadre d'optimisation bilevel qui résout simultanément le retargeting cinématique et l'entraînement de la politique de suivi par apprentissage par renforcement. Le problème est connu : transposer une séquence de mouvement humaine capturée sur un robot aux articulations différentes génère systématiquement des artefacts physiques rédhibitoires, glissement de pieds, auto-collisions ou trajectoires dynamiquement infaisables, qui dégradent l'imitation learning en aval. ReActor élimine ces pathologies en intégrant directement le retargeting dans la simulation physique, avec un gradient approximé pour le niveau supérieur de l'optimisation et un ensemble sparse de correspondances sémantiques entre corps rigides. Aucun réglage manuel n'est requis. Le framework a été validé en simulation et sur hardware réel, notamment sur un quadrupède, morphologie particulièrement éloignée du référentiel humain. Ce résultat cible un goulet d'étranglement concret dans les pipelines d'imitation learning : la majorité des démonstrations actuelles reposent sur des données de mouvement nettoyées à la main ou des trajectoires synthétiques, deux approches coûteuses qui freinent le passage à l'échelle. En garantissant la cohérence physique dès le retargeting, ReActor produit des données directement exploitables sans post-traitement, réduisant le cycle de production de policies. L'absence de tuning manuel est stratégique pour les intégrateurs : le même framework peut s'appliquer à des morphologies très différentes sans réingénierie spécifique. La validation hardware sur quadrupède renforce la crédibilité face à des travaux restés confinés au sim-to-sim. Ce champ de recherche s'est intensifié avec l'essor des modèles d'action visuels (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui exigent de larges corpus de démonstrations physiquement cohérentes pour généraliser. ReActor se positionne face à des approches comme PHC ou MoCapAct en se distinguant par son couplage natif à la simulation physique plutôt qu'une correction post-hoc. Il s'agit pour l'instant d'un preprint académique sans partenariat industriel annoncé. La prochaine étape logique serait une validation sur robot humanoïde complet, où les contraintes dynamiques et les degrés de liberté supplémentaires rendent le problème encore plus sévère.

RecherchePaper
1 source
Apprentissage par renforcement visuel sur politique efficace via gradient de politique stochastique découplé
2arXiv cs.RO 

Apprentissage par renforcement visuel sur politique efficace via gradient de politique stochastique découplé

Une équipe de recherche publie sur arXiv (2605.26478, mai 2026) une méthode d'apprentissage par renforcement visuel appelée SDPG (Stochastic Decoupled Policy Gradient), capable d'entraîner des politiques visuomotrices end-to-end en quelques heures sur un seul GPU NVIDIA RTX 4080. La clé : estimer les gradients de politique via des perturbations stochastiques de trajectoires, plutôt que via des centaines d'environnements rendus en batch, réduisant drastiquement mémoire et temps de calcul. Sur les benchmarks visuels MuJoCo, référence standard pour l'évaluation des politiques de contrôle à entrées visuelles, SDPG surpasse les méthodes concurrentes sur les trois critères mesurés : temps d'entraînement, empreinte mémoire et récompenses obtenues. L'article inclut également un premier transfert sim-to-real démontré sur matériel physique, couvrant des tâches de manipulation dextère et de locomotion en terrain difficile. L'enjeu touche directement à l'accessibilité du RL visuel pour la robotique. Jusqu'ici, les méthodes on-policy visuomotrices exigeaient des clusters GPU pour rester compétitives, concentrant de fait la recherche dans quelques grands laboratoires. Ramener le coût d'entraînement à un seul GPU grand public ouvre potentiellement la voie aux équipes académiques moins dotées et aux startups. La publication simultanée d'une suite de benchmarks de robotique visuelle réaliste tente de combler un autre manque structurel : la fragmentation des protocoles d'évaluation dans le domaine. Le transfert sim-to-real annoncé reste cependant à confirmer à plus grande échelle, un résultat sur hardware physique dans un preprint n'équivalant pas à une validation industrielle. Ce travail s'inscrit dans une dynamique de démocratisation du RL pour la robotique. Des approches comme DrQ-v2 (DeepMind) ou DreamerV3 ont progressivement amélioré l'efficacité en entrées visuelles, mais restent lourdes pour les environnements réalistes. Les VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) contournent entièrement la boucle RL via des architectures de fondation préentraînées. SDPG choisit une troisième voie : rester dans le paradigme RL pur tout en réduisant radicalement le coût computationnel. La prochaine étape observable sera l'adoption ou le rejet de leurs benchmarks par la communauté comme référence standard de comparaison.

UEL'accessibilité réduite à un seul GPU grand public pourrait bénéficier aux équipes académiques européennes moins dotées en infrastructure de calcul, réduisant leur dépendance aux clusters HPC pour la recherche en RL visuel.

RecherchePaper
1 source
FlashSAC : un apprentissage par renforcement hors-politique rapide et stable pour le contrôle robotique haute dimension
3arXiv cs.RO 

FlashSAC : un apprentissage par renforcement hors-politique rapide et stable pour le contrôle robotique haute dimension

Des chercheurs ont publié FlashSAC, un algorithme d'apprentissage par renforcement (RL) hors-politique conçu pour le contrôle robotique en haute dimension. Basé sur Soft Actor-Critic (SAC), FlashSAC réduit drastiquement le nombre de mises à jour de gradient tout en compensant par des modèles plus grands et un débit de données plus élevé. Pour stabiliser l'entraînement à cette échelle, l'algorithme impose des bornes explicites sur les normes de poids, de features et de gradients, limitant ainsi l'accumulation d'erreurs du critique par bootstrapping. Testé sur plus de 60 tâches dans 10 simulateurs différents, il surpasse systématiquement PPO et les baselines hors-politique standards, aussi bien en performance finale qu'en efficacité d'entraînement. Le gain le plus marqué est observé sur des tâches à haute dimensionnalité comme la manipulation dextre. En locomotion humanoïde avec transfert sim-to-real, FlashSAC réduit le temps d'entraînement de plusieurs heures à quelques minutes. Ce résultat est significatif parce qu'il attaque directement le principal frein des méthodes hors-politique en robotique : leur instabilité sur des espaces d'états et d'actions complexes. Les méthodes sur-politique comme PPO dominent aujourd'hui les benchmarks robotiques précisément parce qu'elles sont stables, malgré leur inefficacité en données. FlashSAC propose un chemin pour inverser ce compromis sans sacrifier la convergence, ce qui est particulièrement pertinent pour la manipulation dextre et la locomotion humanoïde, où l'espace d'action peut dépasser plusieurs dizaines de degrés de liberté. La réduction du temps d'entraînement sim-to-real de quelques heures à quelques minutes change l'équation économique des cycles de développement pour les équipes robotique. L'algorithme s'inscrit dans une tendance plus large d'application des lois de scaling, jusqu'ici observées en apprentissage supervisé, aux algorithmes RL, une hypothèse activement explorée par des laboratoires comme Google DeepMind, Meta AI et des startups humanoïdes telles que Figure, Apptronik ou 1X Technologies. Ces acteurs cherchent tous à accélérer le sim-to-real pour leurs plateformes humanoïdes, où le coût d'entraînement en conditions réelles reste prohibitif. FlashSAC n'est pas encore associé à un déploiement industriel annoncé, mais la démonstration de locomotion humanoïde en simulation suggère une applicabilité directe aux robots à deux jambes actuellement en phase de pilote chez plusieurs intégrateurs. La prochaine étape naturelle serait une validation sur hardware réel à grande échelle.

RecherchePaper
1 source
Apprentissage en cours de déploiement : apprentissage par renforcement à l'échelle d'une flotte pour des politiques de robots généralistes
4arXiv cs.RO 

Apprentissage en cours de déploiement : apprentissage par renforcement à l'échelle d'une flotte pour des politiques de robots généralistes

Une équipe de chercheurs a déposé le 1er mai 2026 sur arXiv (référence 2605.00416) un cadre d'apprentissage par renforcement appelé Learning While Deploying (LWD), conçu pour améliorer en continu des politiques généralisées de type Vision-Language-Action (VLA) directement en conditions réelles. Le système a été validé sur une flotte de 16 robots à deux bras, engagés sur huit tâches de manipulation en environnement physique, dont le réassort sémantique de produits d'épicerie et des séquences longues de 3 à 5 minutes. Partant d'une politique VLA pré-entraînée hors ligne, LWD collecte les rollouts autonomes et les corrections humaines réalisés sur l'ensemble de la flotte, puis les intègre dans un cycle continu d'amélioration et de redéploiement. Techniquement, le framework combine le Distributional Implicit Value Learning (DIVL), pour une estimation de valeur robuste sur des données hétérogènes à récompense sparse, avec le Q-learning via Adjoint Matching (QAM), adapté aux générateurs d'actions de type flow-based. Au terme de l'accumulation d'expérience de flotte, la politique généraliste unique atteint un taux de succès moyen de 95 %, les gains les plus marqués étant observés sur les tâches longue durée. Ce résultat est significatif non parce qu'il affiche un chiffre élevé, mais parce qu'il démontre que l'écart entre données d'entraînement et déploiement réel peut être réduit par apprentissage continu in situ. Les politiques VLA, de plus en plus utilisées comme backbone généralisé en robotique manipulation, souffrent d'un problème bien identifié : les datasets de démonstration fixes ne capturent ni les variations de distribution rencontrées sur le terrain, ni les pannes rares, ni les corrections opérateur. LWD formalise un pipeline où ces signaux de terrain sont directement réintégrés dans la boucle d'entraînement, sans nécessiter une phase offline séparée. Pour un intégrateur ou un COO industriel, la promesse est concrète : une flotte déployée s'améliore d'elle-même à mesure qu'elle travaille, et les interventions humaines alimentent le modèle plutôt que d'être perdues. Cette publication s'inscrit dans une course active à la post-formation de politiques VLA pour la manipulation robotique. Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, et les équipes de Figure AI ou 1X Technologies investissent tous dans des politiques généralisées robustes au transfert réel. Le point de différenciation de LWD est le paradigme fleet-scale : là où la majorité des travaux publiés portent sur un ou deux robots en laboratoire, les auteurs valident leur approche sur 16 unités en parallèle. Aucun partenaire industriel ni calendrier de commercialisation n'est mentionné dans le preprint, et les vidéos de démonstration n'ont pas été évaluées de manière indépendante, ce qui invite à traiter ces résultats comme une preuve de concept académique solide plutôt que comme une annonce produit.

RechercheOpinion
1 source