Filtres de Koopman robustes pour un apprentissage par renforcement acteur-critique sûr
Une équipe a déposé sur arXiv (2605.26452) Robust Koopman-CBF SAC, un framework de RL sûr pour la robotique qui s'affranchit du modèle dynamique pré-établi. La méthode apprend un prédicteur de Koopman à dimension finie depuis des trajectoires d'expérience, construit des Control Barrier Functions (CBF) dans l'espace "levé" où la dynamique non linéaire devient affine, puis les applique via une couche de programme quadratique (QP) qui corrige minimalement les actions de la politique Soft Actor-Critic (SAC). Une marge résiduelle projetée, estimée sur des rollouts de validation distincts de l'entraînement, compense les erreurs d'approximation inhérentes au modèle Koopman fini. Sur le benchmark CartPole (stabilisation et suivi de trajectoire), le système atteint zéro violation de contrainte tout en égalant ou dépassant les performances d'un SAC non contraint. Sur les tâches de locomotion haute dimension de Safety Gymnasium, les violations diminuent dans certains scénarios, mais les barrières de vitesse du premier ordre et les modèles EDMD linéaires révèlent des limites structurelles non résolues.
L'enjeu est concret pour les intégrateurs: déployer des robots autonomes en environnement industriel exige que les contraintes dures (zones interdites, limites articulaires, forces maximales) ne soient jamais violées, y compris pendant la phase d'entraînement et pas seulement en déploiement. Les approches existantes imposent soit un modèle dynamique précis, difficile à obtenir pour des robots complexes, soit des certificats de sécurité conçus à la main par des experts contrôle. Ici, la dynamique est inférée depuis les données, et la linéarité de l'espace Koopman rend les CBF algébriquement tractables sans expertise manuelle. Le zéro violation sur CartPole est reproductible (code disponible sur GitHub), pas une démonstration sélectionnée. Les limitations exposées sur Safety Gymnasium délimitent honnêtement le périmètre de validité: systèmes à dynamique quasi-linéaire et contraintes de vitesse simples, ce qui est plus informatif que beaucoup de publications dans ce domaine.
L'opérateur de Koopman a été réintroduit en robotique et en contrôle vers 2017-2020 notamment via les travaux de Brunton, Kaiser et Kutz sur l'EDMD (Extended Dynamic Mode Decomposition). Les CBF ont été formalisées par Aaron Ames et ses collaborateurs à Caltech puis au Georgia Tech, avec une influence croissante dans le contrôle certifié depuis 2017. Dans le RL sûr, les méthodes de référence comme CPO (Constrained Policy Optimization) et TRPO-Lagrangien peinent à garantir des contraintes dures pendant l'entraînement. Ce travail se positionne explicitement comme pont entre ces deux communautés. Les extensions annoncées incluent des CBF d'ordre supérieur pour mieux traiter les contraintes de vitesse, et des modèles Koopman non linéaires ou multi-pas pour les locomotions haute dimension.
Dans nos dossiers




