Aller au contenu principal
COP-Q : apprentissage par renforcement axé sur la sécurité pour la commande de robots via projection de Cholesky ordonnée
RecherchearXiv cs.RO59min

COP-Q : apprentissage par renforcement axé sur la sécurité pour la commande de robots via projection de Cholesky ordonnée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 5 juin 2026 sur arXiv (2606.04749) une méthode d'apprentissage par renforcement sûr baptisée COP-Q, pour Cholesky-Ordered Projection Q-learning. L'algorithme s'attaque à un problème central du contrôle robotique : maximiser la performance d'un agent tout en respectant des contraintes de sécurité strictes. Dans les approches off-policy existantes, les valeurs Q de récompense et de sécurité sont estimées par des ensembles de critiques séparés, chaque objectif gérant son incertitude de façon indépendante. COP-Q rompt avec ce traitement cloisonné en intégrant la covariance inter-objectifs dans une estimation vectorielle des Q-valeurs, puis utilise la décomposition de Cholesky pour encoder la priorité des objectifs sous forme séquentielle : la sécurité prime, la récompense s'adapte en conséquence. La méthode a été validée sur des benchmarks de locomotion dans Brax et de navigation sûre dans Safety-Gymnasium, en conditions de contraintes dures et souples.

Ce que prouve ce travail, c'est que l'hypothèse d'indépendance entre objectifs de sécurité et de récompense est une source réelle de sous-performance. En modélisant explicitement leur corrélation, COP-Q réduit le conservatisme excessif sur la récompense sans dégrader les garanties de sécurité, ce qui se traduit par une meilleure efficacité d'échantillonnage face aux baselines représentatifs du domaine. Pour un intégrateur ou un équipementier qui cherche à déployer des robots en environnement contraint (entrepôt, ligne d'assemblage, espace partagé avec des opérateurs), cela signifie concrètement des politiques plus performantes à entraînement équivalent, sans sacrifier les garde-fous. L'overhead computationnel est décrit comme minimal, et la méthode est annoncée compatible avec la majorité des frameworks deep Q-learning existants.

Le problème du safe RL pour la robotique mobilise une communauté dense depuis plusieurs années, avec des approches comme CPO (Constrained Policy Optimization), PCPO ou SAC-Lagrangian comme points de référence. COP-Q se positionne dans la lignée des méthodes off-policy avec ensembles de critiques, un espace où la gestion de l'incertitude par intervalles de confiance est devenue standard. La décomposition de Cholesky, plus connue en algèbre linéaire numérique, est ici réinterprétée comme un mécanisme de priorisation structurelle des objectifs, une idée potentiellement transférable à d'autres problèmes multi-objectifs en RL. Les prochaines étapes naturelles seraient une validation sur hardware réel et une confrontation aux benchmarks industriels comme ceux proposés par le Robosuite ou le CVPR 2025 Safe Manipulation Track.

Dans nos dossiers

À lire aussi

Apprentissage par renforcement sur graphe adapté à la morphologie pour la locomotion de robots tenségrité
1arXiv cs.RO 

Apprentissage par renforcement sur graphe adapté à la morphologie pour la locomotion de robots tenségrité

Des chercheurs ont publié sur arXiv (référence 2510.26067, version 2, octobre 2025) un framework d'apprentissage par renforcement intégrant un réseau de neurones à graphes (GNN) dans l'algorithme Soft Actor-Critic (SAC) pour contrôler la locomotion de robots tenségrité. Le système représente la topologie physique du robot sous forme de graphe, où chaque nœud correspond à un composant structurel (tige rigide ou câble élastique) et chaque arête encode les couplages mécaniques. Validé sur un robot tenségrité à 3 barres, le framework maîtrise trois primitives de déplacement : suivi de trajectoire en ligne droite et virage bidirectionnel. Aucun réglage supplémentaire n'a été nécessaire pour le passage simulation-vers-matériel, et les politiques apprises s'exécutent directement sur le robot physique avec une locomotion stable. Le résultat le plus significatif pour les intégrateurs et concepteurs de robots est le transfert sim-to-real sans fine-tuning : c'est précisément le point d'échec habituel des méthodes RL appliquées aux structures à dynamique fortement couplée. Les robots tenségrité combinent tiges rigides et câbles élastiques en tension permanente, ce qui rend leur dynamique sous-actionnée et difficile à modéliser fidèlement, un écart classique entre simulation et réalité. Le fait que le GNN encode explicitement les contraintes topologiques du robot explique en partie cette robustesse : la politique apprend la physique structurelle, pas seulement une carte entrée-sortie. Les résultats montrent également une meilleure efficacité d'échantillonnage et une tolérance accrue aux variations de bruit et de raideur des câbles, deux paramètres qui fluctuent inévitablement sur matériel réel. Les robots tenségrité ont émergé comme plateforme de recherche sérieuse notamment via les travaux de la NASA (robot SUPERball) et des universités comme UC Berkeley, en raison de leur légèreté et de leur résilience aux chocs, des atouts pour l'exploration spatiale ou la recherche et le sauvetage. Jusqu'ici, leur contrôle reposait essentiellement sur des politiques MLP standard ou des méthodes de contrôle classique, peu adaptées à la complexité des couplages internes. Ce travail s'inscrit dans une tendance plus large d'architectures GNN pour robots morphologiquement complexes, en compétition avec des approches comme les transformers de morphologie ou le contrôle basé modèle avec apprentissage des paramètres. Les prochaines étapes naturelles incluent l'extension à des structures plus complexes (6 barres, tenségrités sphériques) et des environnements non structurés, domaines où aucun déploiement industriel n'est encore annoncé à ce stade.

RecherchePaper
1 source
Apprentissage par renforcement contraint par la sécurité avec vérification d'atteignabilité post-entraînement pour la navigation robotique
2arXiv cs.RO 

Apprentissage par renforcement contraint par la sécurité avec vérification d'atteignabilité post-entraînement pour la navigation robotique

Des chercheurs ont publié sur arXiv (2605.14174) un framework combinant apprentissage par renforcement contraint par le CVaR (Conditional Value-at-Risk) et vérification formelle post-entraînement pour la navigation sûre de robots mobiles en environnement encombré. La politique est entraînée sur un algorithme TD3 off-policy (Twin Delayed Deep Deterministic Policy Gradient) sous contraintes CVaR sur les coûts cumulés, ce qui la rend sensible aux événements rares à haute conséquence plutôt qu'aux seules performances moyennes. Après l'entraînement, des ensembles d'actions atteignables sont calculés sous incertitude d'observation bornée via une analyse par modèles de Taylor, produisant un taux de sécurité formel et quantifiable. Sur dix scénarios de navigation et six baselines concurrents, la méthode atteint 98,3 % de succès et le meilleur taux de vérification formelle parmi toutes les approches évaluées. La validation a été conduite sur un robot physique Clearpath Jackal, confirmant le transfert sim-to-real. Le résultat le plus significatif est une divergence démontrée entre classements par coût moyen et classements par vérification d'atteignabilité : un système jugé performant selon les métriques empiriques classiques peut dissimuler des comportements dangereux dans les queues de distribution. C'est un point critique pour les intégrateurs et les décideurs industriels qui qualifient leurs politiques de navigation sur des benchmarks de coût moyen. Les politiques entraînées avec contraintes CVaR maintiennent des marges de sécurité plus larges face aux obstacles, ce qui les rend structurellement plus compatibles avec la vérification formelle, prérequis pour une certification dans des secteurs réglementés comme la logistique, l'industrie ou la santé. Le CVaR, outil de la finance quantitative pour quantifier le risque de queue, s'impose progressivement dans les systèmes cyber-physiques. Ce travail reste une preprint arXiv, pas encore soumise à peer review. L'espace concurrent rassemble les approches par barrières de contrôle (CBF-QP), le RL lagrangien et les méthodes de Lyapunov. La vérification formelle de réseaux de neurones, portée par des outils comme alpha,beta-CROWN, est un axe en développement rapide. Des plateformes AMR comme celles de Clearpath (utilisée ici en validation) ou, côté français, des acteurs logistiques comme Exotec pourraient directement bénéficier de ce type de pipeline de validation. Les suites naturelles seraient une évaluation en environnements dynamiques avec obstacles mobiles et une soumission à une conférence majeure comme ICRA ou IROS.

UELes acteurs logistiques et industriels européens, dont Exotec en France, pourraient directement intégrer ce type de pipeline de validation formelle pour certifier leurs politiques de navigation AMR dans des secteurs réglementés (logistique, santé, industrie).

RecherchePaper
1 source
Apprentissage par renforcement neuromorphique pour la locomotion de robots quadrupèdes sur terrain accidenté
3arXiv cs.RO 

Apprentissage par renforcement neuromorphique pour la locomotion de robots quadrupèdes sur terrain accidenté

Une équipe de chercheurs a publié mi-mai 2026 sur arXiv (réf. 2605.09595) un framework d'apprentissage par renforcement basé sur l'équilibrium propagation (EP) pour contrôler la locomotion d'un quadrupède Unitree A1 à 12 degrés de liberté sur terrain accidenté. Plutôt que la rétropropagation classique, ils substituent les gradients globaux par des règles d'apprentissage locales pilotées par les états neuronaux, compatibles avec les substrats neuromorphiques et de calcul en mémoire. Le contrôleur combine un générateur de motif central (CPG) bio-inspiré avec une politique d'ajustement postural résiduel, entraîné via une variante PPO (Proximal Policy Optimization) adaptée à l'EP avec un mécanisme de clipping bilatéral du ratio pour stabiliser les mises à jour lors de la relaxation. Les résultats montrent des performances comparables à une baseline PPO classique en taux de succès, suivi de vitesse, consommation des actionneurs et stabilité corporelle, tout en réduisant la mémoire GPU de 4,3× par rapport à la rétropropagation à travers le temps (BPTT). L'ensemble des expériences reste en simulation, aucun déploiement terrain n'est documenté dans la publication. L'enjeu structurel est clair : les politiques de locomotion RL actuelles sont entraînées hors-ligne en simulation massivement parallèle, puis figées au déploiement. Elles ne s'adaptent pas à l'usure des actionneurs, aux variations de charge utile, ou au drift mécanique sur robot réel, limites critiques pour une industrialisation. En remplaçant la rétropropagation par un apprentissage local compatible avec des puces neuromorphiques (type Intel Loihi), cette approche ouvre la voie à une adaptation continue on-robot à faible consommation, sans dépendance à un GPU externe. Le gain de 4,3× en mémoire est déjà tangible pour les équipes embarquées, même si la validation reste entièrement simulée. Ces travaux s'inscrivent dans l'intense activité autour de la locomotion quadrupède par RL, dominée par l'ETH Zurich sur ANYmal et les robots Unitree. L'équilibrium propagation, formalisé par Scellier et Bengio en 2017, reste peu exploré pour le contrôle continu haute dimension, c'est l'une des premières démonstrations sur un robot à 12 DOF. Les approches concurrentes pour l'adaptation en ligne incluent RMA (Rapid Motor Adaptation, UC Berkeley) et les politiques méta-adaptatives de type MAML. L'étape suivante critique serait de valider sur hardware réel avec une puce neuromorphique embarquée et de mesurer la consommation effective en watts, deux points absents de la publication actuelle.

RecherchePaper
1 source
Approximation de la sécurité sans oracle de sécurité via la commande prédictive par modèle
4arXiv cs.RO 

Approximation de la sécurité sans oracle de sécurité via la commande prédictive par modèle

Des chercheurs ont publié sur arXiv (référence 2510.20955v2) un algorithme permettant de vérifier la sécurité des décisions d'un robot mobile sans disposer d'un oracle de sécurité formel. Les approches classiques exigent soit des contraintes explicitement modélisées, soit des données annotées manuellement comme sûres ou dangereuses, deux méthodes coûteuses en ingénierie et sources d'erreurs. L'algorithme proposé contourne ce besoin via un simulateur : avant d'exécuter une action, le système la projette dans le simulateur vers un état futur, puis utilise l'algorithme Model-Predictive Path Integral (MPPI) pour vérifier l'existence d'un chemin de retour vers un état antérieur de la trajectoire. Sous une hypothèse d'invariance positive sur l'espace des états dangereux, si ce chemin de retour existe, l'état courant est mathématiquement garanti hors de la zone à risque. Les expériences montrent que la méthode approche les performances d'un oracle réel, en limitant notamment les faux négatifs, c'est-à-dire les cas où un état dangereux serait classifié à tort comme sûr. L'enjeu pratique est réel pour le déploiement des AMR (Autonomous Mobile Robots) en environnements industriels non structurés. La dépendance aux annotations manuelles de sécurité constitue un goulot d'étranglement majeur : chaque changement de site ou de configuration peut invalider les contraintes précédemment formulées. En exploitant les contraintes implicites déjà encodées dans les simulateurs physiques modernes, cette approche rend les systèmes de contrôle sûr plus généralisables, sans réécriture à chaque nouveau déploiement. Éliminer les faux négatifs est critique : c'est le scénario où un robot exécute une action jugée sûre à tort, avec des conséquences potentiellement irréversibles en conditions réelles. MPPI est un algorithme de planification par échantillonnage stochastique, initialement développé à Georgia Tech dans les travaux de Grady Williams et Evangelos Theodorou, et depuis repris dans de nombreux travaux sur la navigation autonome et les véhicules sans conducteur. Son utilisation ici comme outil de vérification de réversibilité plutôt que de planification directe constitue l'originalité méthodologique centrale de la contribution. Le travail s'inscrit dans un courant de recherche actif sur la sécurité sans supervision dense, aux côtés des Control Barrier Functions (CBF) appris par données et du safe reinforcement learning. L'article reste une contribution académique avec résultats en simulation uniquement, sans partenaire industriel ni déploiement annoncé. La prochaine étape naturelle serait une validation sur hardware réel dans des environnements aux contraintes implicites complexes et une comparaison quantitative avec des méthodes CBF classiques sur des benchmarks standardisés.

RecherchePaper
1 source