Aller au contenu principal
LC-SAC : Soft Actor-Critic contraint par Lyapunov via la théorie de l'opérateur de Koopman pour le suivi et la stabilisation de trajectoires
RecherchearXiv cs.RO5h

LC-SAC : Soft Actor-Critic contraint par Lyapunov via la théorie de l'opérateur de Koopman pour le suivi et la stabilisation de trajectoires

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs présentent LC-SAC (Lyapunov-Constrained Soft Actor-Critic), un algorithme d'apprentissage par renforcement publié en prépublication sur arXiv (2602.04132v4, quatrième révision). L'approche combine le Soft Actor-Critic standard avec des garanties formelles de stabilité issues de la théorie des opérateurs de Koopman. L'algorithme apprend une représentation linéarisée des dynamiques d'erreur via la Décomposition Dynamique en Modes Étendus (EDMD), puis résout l'Équation de Riccati Algébrique Discrète (DARE) pour obtenir une Fonction de Lyapunov de Contrôle (CLF) quadratique sous forme fermée. Cette CLF est intégrée comme pénalité lagrangienne dans la mise à jour de l'acteur, avec un objectif CVaR (Conditional Value-at-Risk) qui concentre la pression de contrainte sur les événements d'instabilité rares mais sévères. Trois améliorations EDMD rendent la CLF bien posée sur des modèles de haute dimension : normalisation du rayon spectral de la matrice A élevée, coût d'état LQR physiquement cohérent, et ancrage forçant V(0)=0. La méthode est validée en simulation sur cartpole et quadrirotor 3D.

L'apport principal répond à un obstacle persistant : le RL appliqué aux systèmes physiques critiques peut induire des oscillations ou une divergence d'état non bornée faute de garanties de stabilité. En intégrant une CLF sans modélisation complète du système, LC-SAC vise des contrôleurs déployables sur robots réels sous contraintes de sécurité. L'étude d'ablation est particulièrement instructive : remplacer la contrainte lagrangienne dure par du façonnage de récompense (variante Lyap-RS-SAC) déstabilise l'apprentissage et effondre les performances sur les tâches quadrirotor, tranchant un débat récurrent sur la suffisance des pénalités implicites en RL contraint.

Le domaine du RL sûr (safe RL) s'intensifie depuis 2022, porté par la demande de contrôleurs robotiques sortant des environnements simulés. Les approches concurrentes incluent les Barrières de Contrôle de Certification (CBF), les MDPs contraints (CMDP) et le contrôle LQR classique, chacun imposant soit des hypothèses de modèle fortes, soit un coût computationnel élevé. L'opérateur de Koopman, popularisé en robotique depuis environ 2020 pour la commande de systèmes non linéaires, permet ici une linéarisation systématique sans simplification physique excessive. La limite principale reste l'absence de validation matérielle : aucun déploiement sur plateforme physique n'est rapporté, laissant l'écart sim-to-real non mesuré. Les suites logiques seraient des expériences sur bras manipulateur ou drone réel.

Dans nos dossiers

À lire aussi

Optimisation globale de trajectoire par échantillonnage pour la manipulation à contact riche via KernelSOS
1arXiv cs.RO 

Optimisation globale de trajectoire par échantillonnage pour la manipulation à contact riche via KernelSOS

Un groupe de chercheurs a publié le 27 avril 2026 sur arXiv (arXiv:2604.27175) une méthode d'optimisation de trajectoires baptisée Global-MPPI, dédiée aux tâches de manipulation dites "contact-rich", des scénarios où le robot entre en contact répété avec son environnement, comme pousser, assembler ou manipuler des objets en main. Le cadre combine deux niveaux : une exploration globale via optimisation kernel sum-of-squares (KernelSOS), suivie d'un raffinement local par la méthode MPPI (Model-Predictive Path Integral). Pour gérer la non-régularité des paysages d'optimisation liée aux dynamiques de contact hybrides, les auteurs introduisent un lissage progressif par log-sum-exp, qui fait évoluer le problème d'un objectif régularisé vers l'objectif non-lisse original. Les tests portent sur deux benchmarks haute dimension à horizon long : la tâche PushT et la manipulation dextère in-hand. Les résultats affichent une convergence plus rapide et des coûts finaux inférieurs aux méthodes de référence, mais uniquement en simulation. Le verrou résolu est structurel : sans mécanisme d'exploration globale, les méthodes par échantillonnage comme MPPI convergent facilement vers de mauvais minima locaux. Pour la manipulation contact-rich, composant critique des bras industriels, des mains robotiques et des humanoïdes, ce phénomène génère des trajectoires sous-optimales dans des environnements géométriquement complexes. L'approche KernelSOS apporte une garantie formelle de couverture de l'espace des solutions là où les variantes purement stochastiques de MPPI restent dépendantes de l'initialisation. La combinaison avec le lissage adaptatif traite directement les discontinuités de contact, qui rendent les méthodes de gradient classiques inapplicables. Le transfert sim-to-real n'est pas évalué dans ce travail, ce qui constitue la principale limite à ce stade. MPPI a été développé à Georgia Tech par Grady Williams et Evangelos Theodorou (2016-2018) et s'est imposé en MPC stochastique temps réel via des implémentations GPU massivement parallèles. L'optimisation sum-of-squares (SOS) est issue des travaux de Parrilo (MIT) et Lasserre (LAAS-CNRS, Toulouse). Global-MPPI constitue le premier cadre à combiner explicitement ces deux familles dans un pipeline de planification de manipulation. Sur le plan concurrentiel, l'approche se positionne face à la Cross-Entropy Method (CEM), aux planificateurs par diffusion comme Pi-0 de Physical Intelligence ou Diffusion Policy, ainsi qu'aux optimiseurs de trajectoires différentiables (Drake, trajopt). Ce preprint n'a pas encore été soumis à une conférence identifiée et aucun code public ni déploiement hardware n'est annoncé à ce stade.

UELes fondements SOS de cette méthode sont issus des travaux de Lasserre au LAAS-CNRS (Toulouse), mais le preprint n'implique aucune institution française ou européenne identifiée et reste sans impact opérationnel direct sur la France/UE à ce stade.

RecherchePaper
1 source
Champs vectoriels pour le suivi de trajectoire sur les groupes de Lie, appliqués au contrôle robotique
2arXiv cs.RO 

Champs vectoriels pour le suivi de trajectoire sur les groupes de Lie, appliqués au contrôle robotique

Des chercheurs ont publié en février 2026 (arXiv 2602.21450) un cadre général de champs vectoriels pour le suivi de chemin sur les groupes de Lie, ciblant les systèmes robotiques capables de contrôler indépendamment leur position et leur orientation dans l'espace 3D. Les applications visées incluent les véhicules aériens omnidirectionnels, les robots sous-marins et les effecteurs de bras manipulateurs. Le problème est formalisé sur le groupe matriciel SE(3), qui encode l'ensemble des déplacements rigides dans l'espace à six degrés de liberté (trois en translation, trois en rotation). Le cadre proposé garantit la convergence vers une courbe paramétrique depuis presque toutes les conditions initiales, tout en assurant un mouvement continu le long du chemin. La commande en entrée est exprimée via le body twist, une représentation compacte de la vitesse locale combinant composantes linéaires et angulaires, ce qui s'aligne directement avec les interfaces de contrôle industrielles standard. Des expériences sur un manipulateur réel suivant des poses complexes valident l'approche, et une implémentation open-source accompagne la publication. La distinction entre trajectory tracking et path following est centrale : le tracking impose une contrainte temporelle stricte, alors que le path following ne contraint que la convergence spatiale vers le chemin. Pour un intégrateur ou un décideur industriel, cela se traduit par une robustesse accrue aux perturbations et une simplification de la programmation des tâches répétitives. L'usage du body twist comme représentation minimale réduit la charge computationnelle, avantage direct pour les boucles de contrôle temps-réel sur systèmes embarqués. La garantie de convergence topologique depuis "presque toutes" les conditions initiales distingue ce travail des approches locales classiques, qui exigent une initialisation proche de la trajectoire cible. Le contrôle de pose sur SE(3) est un champ actif depuis plusieurs décennies, avec des approches classiques souffrant de singularités liées aux représentations paramétriques comme les angles d'Euler ou les quaternions. Ce travail s'inscrit dans un mouvement plus large d'adoption de la géométrie différentielle en robotique, porté par plusieurs équipes académiques en Europe et en Amérique du Nord. Les méthodes d'apprentissage end-to-end comme les VLA (Vision-Language-Action) ne fournissent pas de garanties formelles équivalentes, ce qui maintient la pertinence de ces approches analytiques dans les contextes réglementés tels que le médical, le spatial ou le nucléaire. La disponibilité du code open-source abaisse la barrière d'adoption pour les équipes souhaitant intégrer ce framework sur leurs plateformes robotiques existantes.

UELes équipes R&D européennes en robotique peuvent adopter directement le framework open-source pour améliorer le contrôle de manipulateurs dans les secteurs réglementés (médical, spatial, nucléaire) où les garanties formelles de convergence sont exigées.

RecherchePaper
1 source
IMPACT : Lagrangien augmenté à ensemble actif implicite pour l'optimisation rapide de trajectoires à contact implicite
3arXiv cs.RO 

IMPACT : Lagrangien augmenté à ensemble actif implicite pour l'optimisation rapide de trajectoires à contact implicite

Des chercheurs ont déposé mi-mai 2026 sur arXiv (arXiv:2605.09127) un préprint décrivant IMPACT, un nouvel algorithme d'optimisation de trajectoires en contact implicite (CITO). La méthode repose sur une formulation augmented-Lagrangian pour résoudre les programmes mathématiques à contraintes de complémentarité (MPCC) qui gouvernent la planification de mouvements impliquant des contacts physiques, sans qu'il soit nécessaire de spécifier à l'avance la séquence des modes de contact. L'implémentation en C++ a été évaluée sur deux benchmarks open-source de référence, CITO et CI-MPC (model predictive control implicite en contact) : sur le premier, IMPACT affiche des accélérations comprises entre 2,9x et 70x par rapport aux solveurs existants les plus compétitifs, avec une moyenne géométrique de 13,8x. Sur les tâches de manipulation dextère en simulation (CI-MPC), la qualité du contrôle progresse également. Une validation sur robot physique a été conduite sur une tâche de poussée d'un objet en T, tâche simple mais représentative du problème de contact. La CITO est une approche unifiée pour planifier et contrôler des robots dans des environnements à contacts multiples, qu'il s'agisse de manipulation d'objets complexes ou de locomotion. Son atout principal est de ne pas imposer de séquence de modes de contact en entrée, éliminant une étape d'ingénierie manuelle coûteuse et peu robuste aux situations imprévues. Le verrou historique était le mauvais conditionnement numérique des MPCC sous-jacents, qui rendait les solveurs génériques instables et prohibitivement lents pour des applications embarquées. Un gain de 13,8x en moyenne géométrique sur des benchmarks standardisés est un signal fort : IMPACT rapproche le CI-MPC d'une viabilité en boucle fermée rapide. Pour les intégrateurs et les équipes de robotique dextère, c'est une avancée concrète vers des manipulateurs capables de gérer des contacts variés sans reprogrammation manuelle à chaque changement de tâche. La CITO mobilise des équipes académiques depuis une décennie, notamment au MIT, à Carnegie Mellon et à ETH Zurich. Les solveurs polyvalents comme IPOPT ou SNOPT montraient des limites sévères sur les MPCC liés au contact ; des travaux récents comme CALIPSO avaient amorcé des améliorations, mais sans garanties de stationnarité systématiques ni gains de vitesse aussi prononcés. IMPACT introduit une identification implicite des branches de modes de contact à la volée pendant les itérations d'optimisation, ce qui constitue sa différence algorithmique principale. Le code est soumis aux benchmarks publics, ce qui permettra à la communauté de reproduire et d'auditer les chiffres annoncés. La suite logique serait l'intégration dans des contrôleurs embarqués sur robots manipulateurs industriels ou humanoïdes, où la planification en contact temps réel reste un problème largement ouvert.

RecherchePaper
1 source
Pliage dynamique de tissu par robot grâce au contrôle prédictif basé sur l'opérateur de Koopman
4arXiv cs.RO 

Pliage dynamique de tissu par robot grâce au contrôle prédictif basé sur l'opérateur de Koopman

Une équipe de chercheurs a soumis sur arXiv en mai 2026 (arXiv:2605.18373) une approche de contrôle prédictif par modèle (MPC) pour le pliage dynamique de tissu par bras robotique. Le système repose sur la régression par noyau de l'opérateur de Koopman, une technique d'identification de systèmes non linéaires, pour construire un modèle linéaire de substitution du comportement du tissu. Ce modèle surrogate est entraîné à partir de données issues d'un simulateur physique haute-fidélité, puis intégré dans l'algorithme MPC à la place du modèle non linéaire coûteux, permettant de générer des trajectoires de pliage rapide. Les expériences couvrent des environnements simulés et un robot réel, démontrant la capacité à atteindre des configurations de pliage non vues à l'entraînement sans dégradation mesurée de la précision. L'enjeu est structurant pour la manipulation d'objets déformables : le pliage dynamique de tissu, qui exploite l'inertie du textile via des mouvements rapides, bute depuis des années sur un compromis persistant entre vitesse et précision, les systèmes existants nécessitant plusieurs tentatives ou se limitant à des pièces rigides et petites. Le transfert sim-to-real est également un obstacle majeur avec les modèles physiques non linéaires du tissu, dont l'inférence haute-fidélité est prohibitive en temps réel. En linéarisant la dynamique du tissu via l'opérateur de Koopman, les auteurs allègent drastiquement la charge computationnelle du MPC, ouvrant la voie à un contrôle quasi-temps-réel pour des applications textiles industrielles (blanchisseries, e-commerce, confection). Il convient toutefois de signaler que les expériences en conditions réelles restent limitées en portée à ce stade de preprint, sans validation sur une grande diversité de matières ou de formats de vêtements. L'opérateur de Koopman connaît depuis 2020-2021 un intérêt croissant en robotique comme alternative aux modèles neuronaux pour la linéarisation de systèmes non linéaires, notamment dans la locomotion et la manipulation. Dans le domaine du cloth manipulation, des travaux récents de Columbia, MIT ou de l'équipe derrière UniGarmentManip ont exploré les politiques par apprentissage par renforcement ou par diffusion, mais sans combiner la structure MPC avec l'identification Koopman. Aucune entreprise ni spin-off n'est associée à cette publication. Les suites logiques incluent une validation sur une plus grande variété de tissus (matières, tailles, rigidités variables) et l'intégration dans un pipeline complet combinant perception de l'état du tissu et planification de préhension, deux briques que le preprint ne couvre pas encore.

RecherchePaper
1 source