RecherchearXiv cs.RO 3 juin 2026

LC-SAC : Soft Actor-Critic contraint par Lyapunov via la théorie de l'opérateur de Koopman pour le suivi et la stabilisation de trajectoires

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs présentent LC-SAC (Lyapunov-Constrained Soft Actor-Critic), un algorithme d'apprentissage par renforcement publié en prépublication sur arXiv (2602.04132v4, quatrième révision). L'approche combine le Soft Actor-Critic standard avec des garanties formelles de stabilité issues de la théorie des opérateurs de Koopman. L'algorithme apprend une représentation linéarisée des dynamiques d'erreur via la Décomposition Dynamique en Modes Étendus (EDMD), puis résout l'Équation de Riccati Algébrique Discrète (DARE) pour obtenir une Fonction de Lyapunov de Contrôle (CLF) quadratique sous forme fermée. Cette CLF est intégrée comme pénalité lagrangienne dans la mise à jour de l'acteur, avec un objectif CVaR (Conditional Value-at-Risk) qui concentre la pression de contrainte sur les événements d'instabilité rares mais sévères. Trois améliorations EDMD rendent la CLF bien posée sur des modèles de haute dimension : normalisation du rayon spectral de la matrice A élevée, coût d'état LQR physiquement cohérent, et ancrage forçant V(0)=0. La méthode est validée en simulation sur cartpole et quadrirotor 3D.

L'apport principal répond à un obstacle persistant : le RL appliqué aux systèmes physiques critiques peut induire des oscillations ou une divergence d'état non bornée faute de garanties de stabilité. En intégrant une CLF sans modélisation complète du système, LC-SAC vise des contrôleurs déployables sur robots réels sous contraintes de sécurité. L'étude d'ablation est particulièrement instructive : remplacer la contrainte lagrangienne dure par du façonnage de récompense (variante Lyap-RS-SAC) déstabilise l'apprentissage et effondre les performances sur les tâches quadrirotor, tranchant un débat récurrent sur la suffisance des pénalités implicites en RL contraint.

Le domaine du RL sûr (safe RL) s'intensifie depuis 2022, porté par la demande de contrôleurs robotiques sortant des environnements simulés. Les approches concurrentes incluent les Barrières de Contrôle de Certification (CBF), les MDPs contraints (CMDP) et le contrôle LQR classique, chacun imposant soit des hypothèses de modèle fortes, soit un coût computationnel élevé. L'opérateur de Koopman, popularisé en robotique depuis environ 2020 pour la commande de systèmes non linéaires, permet ici une linéarisation systématique sans simplification physique excessive. La limite principale reste l'absence de validation matérielle : aucun déploiement sur plateforme physique n'est rapporté, laissant l'écart sim-to-real non mesuré. Les suites logiques seraient des expériences sur bras manipulateur ou drone réel.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Contrôle PI basé sur Lyapunov pour le suivi robuste de trajectoire d'un robot à quatre roues indépendantes : conception et validation expérimentale

Des chercheurs ont publié sur arXiv (référence 2602.15424v2) une loi de commande de type PI synthétisée par méthode de Lyapunov pour le suivi robuste de trajectoire d'un robot mobile à quatre roues indépendamment motorisées et directrices (4WID-4WIS, pour four-wheel independently driven and steered). Le modèle mathématique du robot est structurellement vérifié, ce qui permet une conception systématique avec des garanties formelles de stabilité, adaptées à l'implémentation temps réel. La loi de commande combine une structure PI classique avec une compensation anticipatrice fondée sur le modèle (feedforward model-based). Elle a été validée expérimentalement sur une plateforme 4WID-4WIS physique dans des conditions d'opération horizontales et verticales, et comparée à un régulateur PI standard ainsi qu'à un contrôleur en mode glissant (SMC, sliding-mode controller). L'apport principal de ces travaux est la combinaison de garanties formelles de stabilité et d'une architecture légère, déployable sur des microcontrôleurs embarqués standard. L'analyse de stabilité pratique augmentée fournit des bornes explicites sur les dynamiques d'erreur de vitesse et d'erreur intégrale, ce qui permet à un intégrateur de dimensionner les marges opérationnelles sans simulation extensive. La loi de commande proposée surpasse le PI classique et l'approche par mode glissant en robustesse face aux dynamiques résiduelles dépendantes de la configuration et aux effets non modélisés. Pour un industriel ou un intégrateur de robots mobiles autonomes (AMR), cela signifie un contrôleur implémentable sur matériel embarqué standard, avec des garanties prouvables et sans la complexité d'ajustement propre au mode glissant. Les robots 4WID-4WIS offrent une maniabilité omnidirectionnelle que les architectures différentielles ou Ackermann n'atteignent pas, mais leur dynamique couplée complique la synthèse de régulateurs performants et stables. Ces travaux s'inscrivent dans un courant visant à rendre rigoureusement prouvables des lois de commande déjà utilisées empiriquement en industrie. Côté positionnement concurrentiel, les contrôleurs en mode glissant garantissent une robustesse comparable mais souffrent du chattering et d'un réglage plus délicat; les approches MPC (Model Predictive Control) offrent une optimalité supérieure au prix d'une charge de calcul souvent incompatible avec les plateformes embarquées légères. Aucun partenaire industriel ni déploiement commercial n'est annoncé dans cette publication purement académique, dont la suite logique serait une validation sur des cycles opérationnels réels en environnement logistique ou de service.

RecherchePaper

1 source

2arXiv cs.RO

Optimisation de trajectoire sans collision pour la fabrication additive multi-axes par projection de gradient contraint

Une équipe de recherche vient de publier sur arXiv (2606.29766) un cadre de calcul pour optimiser les trajectoires de bras robotisés redondants utilisés en fabrication additive multi-axes (MAAM). Le système a été validé sur une plateforme à 8 degrés de liberté (DOF), exécutant des chemins d'outils longs, sans structure de support et conformes à la géométrie des pièces. Les résultats annoncés sont précis : erreur moyenne de position de la buse inférieure à 10 micromètres, réduction du jerk articulaire maximal jusqu'à 77,6 %, élimination de toutes les violations de collision et d'orientation détectées lors des tests. Par rapport à la méthode de référence SQP (programmation quadratique séquentielle), le gain de vitesse de convergence atteint 10,2x. Des impressions physiques de géométries complexes ont été réalisées, avec moins d'artefacts de dépôt visibles. L'intérêt technique réside dans la combinaison de deux contraintes difficiles à réconcilier dans la MAAM : maintenir la position exacte de la buse (contrainte d'égalité stricte au niveau de chaque waypoint) tout en évitant les collisions avec une pièce dont la géométrie évolue au fil du dépôt. Les auteurs formulent la cinématique relative buse-pièce via un Jacobien relatif, et modélisent les collisions avec une SDF (signed distance function) différentiable, ce qui permet de propager les gradients d'optimisation même lorsque la géométrie de fabrication change. La projection itérative sur la variété de self-motion du robot permet de respecter les contraintes de position sans compromettre l'évitement de collision. Pour un intégrateur ou un décideur industriel, c'est une avancée concrète : la MAAM redondante devient planifiable de manière robuste sur des trajectoires longues, ce qui ouvre la voie à des pièces aérospatiales ou médicales sans support imprimées directement sur robot 6+ axes. La fabrication additive multi-axes robotisée reste un domaine de niche, dominé par des travaux académiques issus de groupes en Europe, Asie et Amérique du Nord, sans acteur commercial dominant à ce jour. Les approches classiques d'optimisation (SQP, méthodes à points intérieurs) souffrent de temps de calcul prohibitifs sur des chemins longs, ce qui a freiné l'industrialisation. Ce travail s'inscrit dans une tendance plus large qui combine planification de mouvement différentiable et représentations géométriques implicites, une direction que partagent aussi des groupes travaillant sur la soudure robotisée et l'impression béton. L'article est un preprint non encore évalué par les pairs, et les conditions exactes des essais physiques (matériau, géométries testées, répétabilité sur série) mériteraient d'être détaillées avant toute adoption industrielle.

UERésultats potentiellement exploitables par les laboratoires européens actifs en fabrication additive multi-axes robotisée, sans impact identifié sur des acteurs industriels français à ce stade.

RecherchePaper

1 source

3arXiv cs.RO

Transfert de trajectoires humain-robot centré sur la main à partir de vidéos via localisation de contacts en monde ouvert

Des chercheurs ont publié sur arXiv (arXiv:2606.10743, juin 2026) HOWTransfer, un cadre algorithmique centré sur la main pour transférer des démonstrations humaines filmées en trajectoires exécutables par un bras robotique. Le système fonctionne en trois étapes : reconstruction 3D temporellement cohérente du mouvement du poignet humain, localisation automatique des intervalles de contact main-objet à partir de cues visuels d'interaction, puis génération d'hypothèses de saisie en pince parallèle (parallel-jaw grasp) propagées le long de la trajectoire du poignet. Une phase finale d'édition raffine l'alignement de contact et produit plusieurs variantes exécutables depuis une seule vidéo de démonstration. Sur un ensemble de tâches de manipulation variées, le système atteint 86 % de taux de succès et est préféré aux trajectoires téléopérées dans une étude comparative en aveugle. Ce résultat mérite attention parce qu'il attaque directement le goulot d'étranglement principal du learning from demonstration (LfD) : collecter suffisamment de données de qualité. La téléopération reste coûteuse, lente et non scalable en industrie ; si un système peut extraire des trajectoires robotes directement depuis des vidéos de travailleurs humains filmés sur une chaîne d'assemblage ou en entrepôt, le coût d'entrée pour déployer de la manipulation apprise s'effondre. Fait notable : HOWTransfer ne s'appuie pas sur des descripteurs d'objets prédéfinis ni sur un tracking d'état explicite, ce qui le rend potentiellement généraliste sur des objets non vus. Le 86 % de succès annoncé est encourageant, mais les conditions expérimentales exactes (diversité des objets, profondeur de la caméra, nombre de tâches, robot cible) ne sont pas précisées dans le résumé, ce qui justifie une lecture du papier complet avant toute intégration industrielle. Le transfert de démonstration humaine vers robot via vidéo est un domaine en pleine effervescence depuis 2022-2023, porté par des travaux comme DROID, RoboAgent ou les approches VLA (Vision-Language-Action) de Google DeepMind et Physical Intelligence (Pi-0). HOWTransfer se distingue en adoptant une approche sans modèle de langage ni segmentation objet, ce qui le rend plus léger mais aussi plus fragile sur les scènes encombrées. Aucune affiliation industrielle ni partenariat de déploiement n'est mentionné : il s'agit pour l'instant d'un preprint académique, pas d'un produit. Les prochaines étapes naturelles seraient une validation sur des robots commerciaux (Franka, UR, ou humanoïdes comme Figure 03 ou Unitree G1) et une évaluation sur des benchmarks standardisés comme RLBench ou LIBERO pour situer la performance par rapport à l'état de l'art.

RecherchePaper

1 source

4arXiv cs.RO

Contrôle de Koopman différentiable et adaptatif, guidé par la physique, pour un vol stable sous perturbations inconnues

Des chercheurs ont publié sur arXiv (arXiv:2506.08319) un cadre de commande hybride baptisé DEKC (Differentiable data-Enabled Koopman Control), conçu pour permettre à des systèmes robotiques de voler ou de se déplacer de manière précise dans des environnements non structurés, malgré des perturbations extérieures non modélisées. L'approche combine un modèle physique nominal du système avec un réseau de neurones profond chargé de paramétrer la "lifting function" de l'opérateur de Koopman, un outil mathématique qui projette des dynamiques non linéaires dans un espace linéaire global, simplifiant ainsi la conception du contrôleur. Point central de la contribution : les perturbations (forces aérodynamiques, charges suspendues) sont modélisées non pas comme du bruit aléatoire, mais comme un système dynamique à part entière dont l'évolution temporelle est apprise et anticipée. Un mécanisme de mise à jour par gradient rétropropagé en ligne permet une adaptation en temps réel aux incertitudes variables. Les validations expérimentales couvrent des simulations sur un robot spatial amarré (tethered space robot) et des essais réels sur quadrirotor soumis à des perturbations aérodynamiques et à des charges utiles suspendues lors de trajectoires agiles. L'intérêt industriel tient à la dualité que DEKC résout : les méthodes d'apprentissage pur offrent une bonne capacité d'approximation mais exigent un entraînement hors ligne massif et ne fournissent aucune garantie théorique de stabilité, tandis que les contrôleurs robustes classiques restent purement réactifs, corrigeant les erreurs au lieu de les anticiper. DEKC adopte une posture proactive en intégrant la trajectoire future estimée des perturbations directement dans la loi de commande, ce qui réduit les erreurs de suivi sur des manoeuvres rapides. La validation sur quadrirotor physique constitue un argument concret de passage du simulateur au réel, un défi fréquemment sous-estimé dans les publications de contrôle. L'opérateur de Koopman est un formalisme de contrôle établi depuis plusieurs décennies, mais son application combinée à des réseaux différentiables et à une prédiction explicite des perturbations représente une direction de recherche active depuis 2020 environ. Les approches concurrentes incluent les contrôleurs adaptatifs à base de Gaussian Process (GP-MPC), les réseaux neuronaux résiduels couplés à un MPC classique, et les méthodes d-Learning entièrement sans modèle. DEKC se distingue en conservant la structure physique tout en apprenant uniquement la dynamique résiduelle, ce qui réduit la charge de données. L'article reste un preprint non encore évalué par les pairs ; aucune timeline de déploiement industriel ni partenariat avec un intégrateur n'est mentionné.

RecherchePaper

1 source