
LC-SAC : Soft Actor-Critic contraint par Lyapunov via la théorie de l'opérateur de Koopman pour le suivi et la stabilisation de trajectoires
Des chercheurs présentent LC-SAC (Lyapunov-Constrained Soft Actor-Critic), un algorithme d'apprentissage par renforcement publié en prépublication sur arXiv (2602.04132v4, quatrième révision). L'approche combine le Soft Actor-Critic standard avec des garanties formelles de stabilité issues de la théorie des opérateurs de Koopman. L'algorithme apprend une représentation linéarisée des dynamiques d'erreur via la Décomposition Dynamique en Modes Étendus (EDMD), puis résout l'Équation de Riccati Algébrique Discrète (DARE) pour obtenir une Fonction de Lyapunov de Contrôle (CLF) quadratique sous forme fermée. Cette CLF est intégrée comme pénalité lagrangienne dans la mise à jour de l'acteur, avec un objectif CVaR (Conditional Value-at-Risk) qui concentre la pression de contrainte sur les événements d'instabilité rares mais sévères. Trois améliorations EDMD rendent la CLF bien posée sur des modèles de haute dimension : normalisation du rayon spectral de la matrice A élevée, coût d'état LQR physiquement cohérent, et ancrage forçant V(0)=0. La méthode est validée en simulation sur cartpole et quadrirotor 3D.
L'apport principal répond à un obstacle persistant : le RL appliqué aux systèmes physiques critiques peut induire des oscillations ou une divergence d'état non bornée faute de garanties de stabilité. En intégrant une CLF sans modélisation complète du système, LC-SAC vise des contrôleurs déployables sur robots réels sous contraintes de sécurité. L'étude d'ablation est particulièrement instructive : remplacer la contrainte lagrangienne dure par du façonnage de récompense (variante Lyap-RS-SAC) déstabilise l'apprentissage et effondre les performances sur les tâches quadrirotor, tranchant un débat récurrent sur la suffisance des pénalités implicites en RL contraint.
Le domaine du RL sûr (safe RL) s'intensifie depuis 2022, porté par la demande de contrôleurs robotiques sortant des environnements simulés. Les approches concurrentes incluent les Barrières de Contrôle de Certification (CBF), les MDPs contraints (CMDP) et le contrôle LQR classique, chacun imposant soit des hypothèses de modèle fortes, soit un coût computationnel élevé. L'opérateur de Koopman, popularisé en robotique depuis environ 2020 pour la commande de systèmes non linéaires, permet ici une linéarisation systématique sans simplification physique excessive. La limite principale reste l'absence de validation matérielle : aucun déploiement sur plateforme physique n'est rapporté, laissant l'écart sim-to-real non mesuré. Les suites logiques seraient des expériences sur bras manipulateur ou drone réel.
Dans nos dossiers




