Aller au contenu principal
Apprentissage de Koopman récursif régularisé par covariance pour systèmes non linéaires à dynamique incertaine et variable
RecherchearXiv cs.RO1h

Apprentissage de Koopman récursif régularisé par covariance pour systèmes non linéaires à dynamique incertaine et variable

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 16 juin 2026 sur arXiv (arXiv:2606.15317) un framework d'identification de modèle en ligne baptisé CR-RKL (Covariance-Regulated Recursive Koopman Learning), conçu pour maintenir des performances de contrôle stables sur des robots soumis à des dynamiques changeantes et imprévisibles. La méthode repose sur la théorie de l'opérateur de Koopman, qui transforme un système non linéaire en représentation linéaire via des fonctions de relèvement ("lifting"), permettant d'utiliser des outils d'estimation linéaire classiques. Deux mécanismes complémentaires sont introduits : un filtre de zone morte sur l'erreur de prédiction ("error dead-zone gating"), et une normalisation à trace constante de la matrice de covariance ("constant-trace normalization"). Chacun suffit indépendamment à éviter les deux pathologies numériques connues de l'estimation récursive de Koopman : l'explosion de covariance sous faible excitation avec oubli exponentiel, et le gel des paramètres sans oubli. Le framework a été validé sur deux plateformes : un robot différentiel non-holonome soumis à glissement de roues et friction de type Stribeck, et un micro-véhicule aérien à battement d'ailes inspiré du papillon, pesant 26 grammes. Dans les deux cas, CR-RKL est embarqué dans une boucle de commande prédictive (MPC) et maintient un suivi de trajectoire fiable.

L'enjeu industriel de ce travail dépasse la robotique académique : les modèles hors-ligne appris en simulation ou en conditions contrôlées se dégradent dès que les conditions réelles s'écartent de la distribution d'entraînement, problème classique du sim-to-real gap. CR-RKL propose une adaptation en temps réel sans retraining complet, ce qui est directement pertinent pour les intégrateurs de robots mobiles en environnement industriel variable (sols glissants, charge variable, usure mécanique). La capacité à préserver la structure géométrique de l'incertitude via la normalisation à trace constante est un argument fort pour les applications de contrôle certifiable, où la qualité de l'estimation de covariance conditionne la robustesse des garanties MPC.

La théorie de Koopman connaît depuis 2018-2020 un regain d'intérêt en robotique comme alternative aux réseaux neuronaux dynamiques (LSTM, Neural ODE), notamment parce qu'elle conserve une structure linéaire exploitable analytiquement. Les approches récursives existantes (RLS-Koopman, EDMD adaptatif) souffrent précisément des instabilités numériques que CR-RKL cible. Sur le segment des micro-aéronefs à battement d'ailes (FWMAV), des groupes comme le Harvard Microrobotics Lab ou l'EPFL travaillent sur des dynamiques similaires, rendant ce benchmark particulièrement significatif. La publication est un preprint ; aucun pilote industriel ni partenariat commercial n'est annoncé à ce stade.

Dans nos dossiers

À lire aussi

Apprentissage de la prise-et-dépose dynamique pour un manipulateur à pattes
1arXiv cs.RO 

Apprentissage de la prise-et-dépose dynamique pour un manipulateur à pattes

Des chercheurs ont publié le 21 mai 2026 sur arXiv (réf. 2605.15713) un framework d'apprentissage par renforcement hiérarchique permettant à un robot quadrupède équipé d'un bras à 6 degrés de liberté (6-DOF) d'effectuer des tâches de pick-and-place dynamiques avec des charges allant jusqu'à 2,3 kg en simulation et 1,3 kg en environnement réel. Le système intègre un module explicite d'estimation de masse qui adapte en temps réel le contrôle whole-body en fonction du poids de l'objet saisi. En simulation, le taux de succès atteint 86,05 %. Sur six scénarios réels combinant variations de taille, de masse et de hauteur de dépôt, le système affiche un taux de succès moyen de 73,3 % dans un espace de travail vertical allant du sol à des surfaces à 1,1 m de hauteur, avec un temps d'exécution moyen de 4,06 secondes par cycle. Ce résultat est notable pour deux raisons techniques. D'abord, le système exécute locomotion et manipulation en simultané, abandonnant l'approche séquentielle (se déplacer, s'arrêter, saisir) qui dominait les travaux antérieurs et limitait la cadence opérationnelle. Ensuite, le module d'estimation de masse compense dynamiquement les variations de charge, ce qui est un prérequis pour tout déploiement industriel réel où les objets ne sont pas homogènes. La chute de performance entre simulation et réel (de 86 % à 73 %) illustre que le sim-to-real gap n'est pas encore résolu, mais reste dans une plage acceptable pour des scénarios semi-contrôlés. Les charges manipulées restent modestes comparées aux bras industriels fixes, et les vidéos de démonstration sélectionnées ne couvrent pas de conditions adverses (surfaces glissantes, occlusions). Le robot quadrupède mobile doté d'un bras manipulateur est un segment en forte croissance, porté par des plateformes commerciales comme le Spot d'Boston Dynamics (avec son bras optionnel), l'ANYmal d'ANYbotics, ou le B2 d'Unitree couplé à des bras tiers. Ce travail de recherche, non affilié à un produit commercial annoncé, s'inscrit dans la lignée des travaux sur les manipulateurs mobiles à pattes publiés ces deux dernières années par ETH Zurich, CMU et des équipes chinoises. La prochaine étape attendue dans ce domaine est la généralisation à des objets non rigides ou à géométrie inconnue, ainsi qu'une intégration de la perception visuelle en boucle fermée pour réduire la dépendance aux modèles d'objet préenregistrés.

RecherchePaper
1 source
Filtres de Koopman robustes pour un apprentissage par renforcement acteur-critique sûr
2arXiv cs.RO 

Filtres de Koopman robustes pour un apprentissage par renforcement acteur-critique sûr

Une équipe a déposé sur arXiv (2605.26452) Robust Koopman-CBF SAC, un framework de RL sûr pour la robotique qui s'affranchit du modèle dynamique pré-établi. La méthode apprend un prédicteur de Koopman à dimension finie depuis des trajectoires d'expérience, construit des Control Barrier Functions (CBF) dans l'espace "levé" où la dynamique non linéaire devient affine, puis les applique via une couche de programme quadratique (QP) qui corrige minimalement les actions de la politique Soft Actor-Critic (SAC). Une marge résiduelle projetée, estimée sur des rollouts de validation distincts de l'entraînement, compense les erreurs d'approximation inhérentes au modèle Koopman fini. Sur le benchmark CartPole (stabilisation et suivi de trajectoire), le système atteint zéro violation de contrainte tout en égalant ou dépassant les performances d'un SAC non contraint. Sur les tâches de locomotion haute dimension de Safety Gymnasium, les violations diminuent dans certains scénarios, mais les barrières de vitesse du premier ordre et les modèles EDMD linéaires révèlent des limites structurelles non résolues. L'enjeu est concret pour les intégrateurs: déployer des robots autonomes en environnement industriel exige que les contraintes dures (zones interdites, limites articulaires, forces maximales) ne soient jamais violées, y compris pendant la phase d'entraînement et pas seulement en déploiement. Les approches existantes imposent soit un modèle dynamique précis, difficile à obtenir pour des robots complexes, soit des certificats de sécurité conçus à la main par des experts contrôle. Ici, la dynamique est inférée depuis les données, et la linéarité de l'espace Koopman rend les CBF algébriquement tractables sans expertise manuelle. Le zéro violation sur CartPole est reproductible (code disponible sur GitHub), pas une démonstration sélectionnée. Les limitations exposées sur Safety Gymnasium délimitent honnêtement le périmètre de validité: systèmes à dynamique quasi-linéaire et contraintes de vitesse simples, ce qui est plus informatif que beaucoup de publications dans ce domaine. L'opérateur de Koopman a été réintroduit en robotique et en contrôle vers 2017-2020 notamment via les travaux de Brunton, Kaiser et Kutz sur l'EDMD (Extended Dynamic Mode Decomposition). Les CBF ont été formalisées par Aaron Ames et ses collaborateurs à Caltech puis au Georgia Tech, avec une influence croissante dans le contrôle certifié depuis 2017. Dans le RL sûr, les méthodes de référence comme CPO (Constrained Policy Optimization) et TRPO-Lagrangien peinent à garantir des contraintes dures pendant l'entraînement. Ce travail se positionne explicitement comme pont entre ces deux communautés. Les extensions annoncées incluent des CBF d'ordre supérieur pour mieux traiter les contraintes de vitesse, et des modèles Koopman non linéaires ou multi-pas pour les locomotions haute dimension.

RecherchePaper
1 source
Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables
3arXiv cs.RO 

Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables

Des chercheurs ont déposé en mai 2026 sur arXiv (identifiant 2605.31321) un article présentant la Surface Constraint Policy (SCP), une méthode destinée à améliorer la fiabilité des robots dans des tâches de manipulation dextre impliquant des contraintes de surface complexes et de forme libre. L'approche encode la géométrie de surface à partir de démonstrations humaines via une fonction noyau gaussien pondérée en deux dimensions. Sur cette base, une politique de diffusion infère des intentions d'action à partir d'entrées multimodales (observations visuelles et retour d'état du robot), qui sont ensuite transformées en primitives de mouvement dynamique contraintes à la surface (DMPs, Dynamic Movement Primitives) via une méthode de mapping par similarité. Ce pipeline produit des trajectoires à la fois géométriquement admissibles et dynamiquement réalisables. Les auteurs font état de taux de succès et d'une stabilité de contact supérieurs aux méthodes comparées, sans que le résumé ne détaille les métriques précises ni les benchmarks utilisés. Ce travail pointe un angle mort persistant des approches actuelles d'apprentissage par imitation à base de diffusion : les politiques classiques génèrent des actions de manière stochastique, sans modéliser explicitement la géométrie de la surface de contact. En pratique, cela se traduit par des glissements, des décrochages ou des trajectoires physiquement inadmissibles, problèmes rédhibitoires pour des applications industrielles comme le polissage, l'assemblage surfacique ou le soudage. L'originalité de SCP tient à l'intégration des contraintes géométriques dès la génération d'action, couplée à des DMPs qui garantissent la faisabilité dynamique. Pour les intégrateurs et les équipes R&D, cette approche représente un pas concret vers la répétabilité requise en production, là où la stabilité du contact prime sur la généralisation toutes-tâches. Ce travail s'inscrit dans une vague de recherche intense autour des politiques de diffusion pour la manipulation robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et accélérée par des acteurs comme Physical Intelligence avec pi0, Google DeepMind avec RT-2, ou encore ACT de Stanford. Les primitives de mouvement dynamique mobilisées ici sont un outil classique de la robotique depuis les travaux de Schaal dans les années 2000, mais leur couplage avec un pipeline de diffusion moderne pour gérer des contraintes surfaciques constitue l'apport original de la méthode. Les limitations pointées par les auteurs sont partagées par la plupart des architectures VLA actuelles, ce qui signale un axe de recherche pertinent pour quiconque vise le déploiement industriel. Les prochaines étapes naturelles incluraient une validation sur des surfaces déformables ou en mouvement, ainsi qu'un test de passage à l'échelle avec une plus grande diversité de tâches et de morphologies robotiques.

RecherchePaper
1 source
4arXiv cs.RO 

Apprentissage de dynamiques neuronales ODE adaptées au contexte pour le contrôle robotique adaptatif

Des chercheurs ont proposé un modèle de dynamique contextuel fondé sur les équations différentielles ordinaires neuronales (Neural ODE) pour améliorer le contrôle de robots opérant dans des environnements incertains et variables. Le travail, déposé en juin 2026 sur arXiv (référence 2606.15469), cible les perturbations que les contrôleurs classiques peinent à absorber: variations des conditions de contact, effets aérodynamiques et perturbations externes imprévues. La méthode repose sur une procédure d'entraînement en deux phases: le modèle inspecte l'historique des états et des actions du robot pour inférer les facteurs environnementaux courants, sans capteurs dédiés supplémentaires. La compatibilité avec le MPC (Model Predictive Control) est intégrée dès la conception. Les validations portent sur trois plateformes distinctes: un drone quadrirotor en simulation, un robot sphérique Sphero BOLT et un bras manipulateur industriel Fanuc, ces deux derniers testés en conditions réelles. L'enjeu central est la dérive de modèle lors du déploiement: un robot calibré en laboratoire voit ses performances se dégrader dès que l'environnement change, que ce soit un sol différent, une charge variable ou des turbulences. Par rapport aux approches récurrentes classiques (LSTM, GRU), les Neural ODE présentent un avantage structurel: elles modélisent la dynamique en temps continu, ce qui améliore la cohérence physique et simplifie l'interface avec les solveurs MPC. L'inférence du contexte depuis le seul historique actions-états, sans instrumentation additionnelle, réduit la barrière d'intégration pour les industriels. Le test sur un Fanuc, bras omniprésent en production manufacturière, ancre les résultats dans une réalité opérationnelle tangible. Point de réserve: l'article est un preprint et l'abstract ne publie aucune métrique chiffrée de performance, ce qui rend l'évaluation indépendante difficile à ce stade. Les Neural ODE ont été introduites en 2018 par Chen et al. (NeurIPS) comme alternative aux réseaux récurrents pour modéliser des systèmes dynamiques continus. Leur application au contrôle robotique adaptatif répond à un obstacle persistant du secteur: le sim-to-real gap, qui fragilise la fiabilité des systèmes autonomes hors conditions contrôlées. Les approches concurrentes comprennent les processus gaussiens (GP) pour l'adaptation en ligne, les algorithmes méta-apprenants (MAML, PEARL) et l'identification de systèmes en temps réel. Ce travail se distingue par l'inférence contextuelle implicite, couplée nativement au MPC plutôt qu'ajoutée en couche. Le code source est ouvert sur GitHub et des démonstrations vidéo sont accessibles. La prochaine étape logique serait une validation sur des tâches de manipulation à charge variable ou un déploiement en environnement industriel non contrôlé.

RecherchePaper
1 source