ZAPS-DA : lissage de politique à phase zéro avec acteur découplé pour le contrôle continu en apprentissage par renforcement
ZAPS-DA (arXiv:2605.30612, juin 2026) est un cadre d'apprentissage par renforcement qui s'attaque à un problème concret de déploiement : les politiques de contrôle continu entraînées avec des algorithmes off-policy comme Soft Actor-Critic (SAC) produisent des commandes oscillantes à haute fréquence, le "jitter", qui rendent le transfert sur des actionneurs physiques hasardeux. L'approche couple l'acteur RL principal non modifié à un second acteur découplé, entraîné par imitation supervisée à partir de cibles filtrées zéro-phase (filtre Savitzky-Golay) stockées dans le replay buffer. L'acteur déployé est ce second acteur : une fonction feed-forward directe observation-action, sans filtre à l'inférence ni historique d'actions en entrée. Les auteurs nomment ce mécanisme "distillation causale d'un filtre non-causal". Validé sur deux simulateurs de conduite (MetaDrive et un environnement Webots de régulation de vitesse adaptative, protocoles n=150), ZAPS-DA affiche sur MetaDrive une réduction du jitter de direction de 14 à 21x et du jitter d'accélération de 3 à 5x (p < 10^-4, correction Bonferroni), sans dégradation de la complétion de tâche (p=0,28 réussite), pour un coût de 6,3 % en récompense. Sur Webots, l'amélioration est de type Pareto : parité de récompense (p=0,121), réduction du jitter de 8 à 45x, taux d'échec total ramené de 2,0 % à 0,7 %.
Le problème est structurant pour le déploiement robotique : un signal de commande oscillant use prématurément les actionneurs, complique le sim-to-real et génère des comportements imprévisibles. Les deux solutions classiques avaient des défauts durs : le filtrage post-hoc introduit un délai de phase qui peut déstabiliser une boucle fermée ; pénaliser le jitter directement dans la perte RL mélange deux objectifs et fait régresser la performance de tâche. ZAPS-DA sépare proprement les deux responsabilités. La perte MSE à magnitude calibrée supprime aussi le besoin de re-tuning selon l'optimiseur, ce qui rend le cadre directement portable.
Le papier s'inscrit dans les travaux sur le lissage de politiques RL (TD3 target policy smoothing, action repetition, action chunking d'ACT/Diffusion Policy), mais formalise pour la première fois la distillation d'un filtre non-causal dans un acteur causal. Les expériences restent limitées à deux simulateurs de conduite ; aucune validation sur plateforme physique ni code public ne sont annoncés, ce qui laisse ouverte la question du transfert vers la manipulation ou la locomotion. Les prochaines étapes naturelles seraient un test sur AMR, bras manipulateur ou véhicule RC, et une comparaison directe avec les méthodes de chunking temporel. ZAPS-DA demeure un preprint arXiv sans revue par les pairs confirmée.
Dans nos dossiers




