RecherchearXiv cs.RO 16 juin 2026

Apprentissage de Koopman récursif régularisé par covariance pour systèmes non linéaires à dynamique incertaine et variable

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 16 juin 2026 sur arXiv (arXiv:2606.15317) un framework d'identification de modèle en ligne baptisé CR-RKL (Covariance-Regulated Recursive Koopman Learning), conçu pour maintenir des performances de contrôle stables sur des robots soumis à des dynamiques changeantes et imprévisibles. La méthode repose sur la théorie de l'opérateur de Koopman, qui transforme un système non linéaire en représentation linéaire via des fonctions de relèvement ("lifting"), permettant d'utiliser des outils d'estimation linéaire classiques. Deux mécanismes complémentaires sont introduits : un filtre de zone morte sur l'erreur de prédiction ("error dead-zone gating"), et une normalisation à trace constante de la matrice de covariance ("constant-trace normalization"). Chacun suffit indépendamment à éviter les deux pathologies numériques connues de l'estimation récursive de Koopman : l'explosion de covariance sous faible excitation avec oubli exponentiel, et le gel des paramètres sans oubli. Le framework a été validé sur deux plateformes : un robot différentiel non-holonome soumis à glissement de roues et friction de type Stribeck, et un micro-véhicule aérien à battement d'ailes inspiré du papillon, pesant 26 grammes. Dans les deux cas, CR-RKL est embarqué dans une boucle de commande prédictive (MPC) et maintient un suivi de trajectoire fiable.

L'enjeu industriel de ce travail dépasse la robotique académique : les modèles hors-ligne appris en simulation ou en conditions contrôlées se dégradent dès que les conditions réelles s'écartent de la distribution d'entraînement, problème classique du sim-to-real gap. CR-RKL propose une adaptation en temps réel sans retraining complet, ce qui est directement pertinent pour les intégrateurs de robots mobiles en environnement industriel variable (sols glissants, charge variable, usure mécanique). La capacité à préserver la structure géométrique de l'incertitude via la normalisation à trace constante est un argument fort pour les applications de contrôle certifiable, où la qualité de l'estimation de covariance conditionne la robustesse des garanties MPC.

La théorie de Koopman connaît depuis 2018-2020 un regain d'intérêt en robotique comme alternative aux réseaux neuronaux dynamiques (LSTM, Neural ODE), notamment parce qu'elle conserve une structure linéaire exploitable analytiquement. Les approches récursives existantes (RLS-Koopman, EDMD adaptatif) souffrent précisément des instabilités numériques que CR-RKL cible. Sur le segment des micro-aéronefs à battement d'ailes (FWMAV), des groupes comme le Harvard Microrobotics Lab ou l'EPFL travaillent sur des dynamiques similaires, rendant ce benchmark particulièrement significatif. La publication est un preprint ; aucun pilote industriel ni partenariat commercial n'est annoncé à ce stade.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Apprentissage par renforcement avec estimateur de dynamique interne pour la manipulation aérienne en environnement incertain

Des chercheurs ont publié sur arXiv (preprint 2606.16621) une architecture de contrôle hiérarchique pour manipulateurs aériens, visant à résoudre l'un des problèmes les plus épineux de la robotique de terrain : faire travailler un bras articulé monté sur drone sans que les mouvements du bras ne déstabilisent l'engin, même quand la charge utile varie de façon imprévue. Le système combine un apprentissage par renforcement (RL) en boucle externe avec un estimateur de dynamique en boucle interne. La couche RL traduit des cibles en 6 degrés de liberté (DOF) pour l'effecteur terminal en commandes coordonnées pour l'ensemble du corps de l'engin, sans nécessiter un modèle dynamique couplé précis. La boucle interne prend le relais pour compenser en temps réel les perturbations inertielles transitoires, notamment lors de changements brusques de payload ou de mouvements rapides du bras à 3-DOF. Les expériences matérielles ont été conduites sur un quadrotor instrumenté à cet effet, dans des conditions de charge variable. Comparée à deux baselines de référence (RL+PID et RL+INDI+PID), l'approche réduit l'erreur de suivi de l'effecteur terminal et améliore le taux de succès des tâches. Ce résultat est pertinent parce que le couplage dynamique bras-drone reste le principal frein à la manipulation aérienne fiable en conditions réelles : chaque mouvement du bras modifie le centre de masse et génère des couples parasites que les contrôleurs classiques peinent à absorber. En séparant la couche d'apprentissage (qui gère la coordination tâche-corps) de la couche d'estimation (qui absorbe les incertitudes à basse latence), les auteurs proposent une architecture modulaire qui ne dépend pas d'un modèle système précis, ce qui simplifie le passage du simulateur au matériel réel. Pour les intégrateurs industriels qui ciblent l'inspection de structures, la maintenance d'infrastructures ou la construction en hauteur, c'est un verrou technique concret qui se desserre. Le domaine de la manipulation aérienne est encore largement académique, avec des contributions dispersées entre laboratoires européens, américains et asiatiques, sans acteur dominant identifié à ce stade. Côté français, Alerion et quelques spin-offs de l'ISAE-SUPAERO ou de l'ENAC travaillent sur des drones à haute précision, mais sans manipulateur embarqué à ce niveau de sophistication. Ce travail reste un preprint non encore soumis à revue par les pairs, et les expériences rapportées portent sur un prototype unique dans un environnement contrôlé. Les métriques de succès ne sont pas détaillées quantitativement dans le résumé disponible, ce qui rend difficile toute comparaison directe avec l'état de l'art publié. La prochaine étape logique serait une validation sur des tâches réelles en extérieur avec des charges plus lourdes.

UELes laboratoires français actifs sur les drones de précision (Alerion, ISAE-SUPAERO, ENAC) pourraient s'appuyer sur cette architecture modulaire pour progresser vers la manipulation aérienne embarquée, mais aucun impact direct n'est établi à ce stade.

RecherchePaper

1 source

2arXiv cs.RO

Cadre de politique adaptatif au contexte pour une manipulation robotique robuste et réactive via apprentissage par imitation sensible à l'incertitude

Une nouvelle version (v2) de l'article arXiv:2410.24035 propose un cadre de politique adaptatif au contexte pour la manipulation robotique, combinant robustesse et réactivité. Les auteurs s'appuient sur l'apprentissage par démonstration (Learning from Demonstration, LfD), et plus précisément sur les approches basées sur des systèmes dynamiques (DS), pour apprendre une politique conditionnée à la fois par l'état du robot et par des paramètres de tâche de basse dimension représentant le contexte environnant. Cette politique est ensuite combinée à des politiques additionnelles sensibles à l'incertitude via une formulation de type mélange d'experts (Mixture of Experts, MoE). Le système est validé sur le jeu de données de référence LASA handwriting, utilisé classiquement pour évaluer l'apprentissage de trajectoires, ainsi que sur un robot réel à 7 degrés de liberté (7-DoF), dans trois scénarios concrets : la saisie conditionnée par la force appliquée, la manipulation d'aliments déformables, et la saisie centrée sur l'objet. L'enjeu technique visé est précis : les approches DS de l'état de l'art excellent généralement en robustesse mais restent rigides face aux variations de contexte, car elles ne modulent pas leur comportement selon des variables dépendantes de la tâche. En articulant fusion de politiques et quantification d'incertitude, ce cadre cherche à améliorer le comportement hors distribution (out-of-distribution) et la convergence des trajectoires générées, deux propriétés critiques pour tout déploiement en environnement réel non contrôlé. Pour les intégrateurs robotiques, l'intérêt pratique tient surtout à la manipulation d'objets déformables, un cas d'usage encore mal résolu dans l'industrie (agroalimentaire, logistique), et à la promesse d'une politique réutilisable sans réentraînement complet à chaque changement de tâche ou d'environnement. Sur le plan du contexte scientifique, le LfD via systèmes dynamiques est un axe de recherche établi depuis plusieurs années pour produire des politiques de contrôle réactives en robotique. Ce travail se positionne comme une extension de recherches antérieures sur la fusion de politiques et l'estimation d'incertitude, plutôt que comme une rupture méthodologique. L'abstract ne mentionne ni laboratoire ni entreprise associée, et il s'agit d'une publication académique (statut « replace », donc une révision d'un article déjà soumis) sans indication de déploiement industriel à ce stade.

RecherchePaper

1 source

3arXiv cs.RO

IA incarnée et prédictive : le contrôle par apprentissage sûr pour les systèmes robotiques ego-monde

Des chercheurs proposent SOWL-MPC, une méthode de contrôle prédictif sûr conçue pour un nouveau scénario baptisé "ego-world robotic framework": un robot ego doit naviguer aux côtés d'un autre robot ("world robot") dont la politique de contrôle est totalement inconnue. Plutôt que de supposer un comportement prévisible chez l'autre agent, comme le font la plupart des méthodes existantes, l'approche combine un mécanisme d'apprentissage en ligne basé sur des processus gaussiens variationnels épars (SVGP) avec un schéma de contrôle à horizon glissant. À partir de simples mesures d'état bruitées, le système infère une distribution postérieure sur la politique latente du robot tiers, mise à jour en continu via un conditionnement variationnel en ligne (OVC), puis propagée dans la dynamique non linéaire du système via un schéma approché de propagation des moments, avant d'alimenter un contrôleur prédictif (MPC) sensible à l'incertitude. La méthode a été testée lors de campagnes Monte Carlo en simulation sous ROS 2, puis validée sur du matériel robotique réel dans une arène intérieure. Il s'agit d'un article de recherche déposé sur arXiv (2607.22225v1), pas d'un produit commercialisé. L'enjeu dépasse l'exercice académique: dans les entrepôts, les usines ou les espaces partagés où circulent plusieurs robots mobiles (AMR) ou humanoïdes issus de flottes ou de fabricants différents, un robot ne connaît généralement pas la politique de contrôle exacte des autres agents évoluant autour de lui. Les méthodes de navigation sûre reposent le plus souvent sur des hypothèses simplificatrices, modèles cinématiques fixes, comportements connus à l'avance, qui s'effondrent dès que l'environnement devient hétérogène. Une approche capable d'apprendre en ligne le comportement d'un agent inconnu tout en garantissant des marges de sécurité formelles répond directement à ce point de friction, potentiellement utile pour l'intégration de flottes multi-fournisseurs. Le travail s'inscrit dans la lignée des recherches combinant processus gaussiens et contrôle prédictif pour la navigation sûre, un axe actif depuis plusieurs années en robotique mobile et en interaction homme-robot. La validation reste toutefois limitée à une arène intérieure contrôlée: le passage à des environnements réels plus complexes, avec davantage d'agents ou des dynamiques plus rapides, constitue la prochaine étape logique avant tout usage industriel.

RecherchePaper

1 source

4arXiv cs.RO

Contrôle de Koopman différentiable et adaptatif, guidé par la physique, pour un vol stable sous perturbations inconnues

Des chercheurs ont publié sur arXiv (arXiv:2506.08319) un cadre de commande hybride baptisé DEKC (Differentiable data-Enabled Koopman Control), conçu pour permettre à des systèmes robotiques de voler ou de se déplacer de manière précise dans des environnements non structurés, malgré des perturbations extérieures non modélisées. L'approche combine un modèle physique nominal du système avec un réseau de neurones profond chargé de paramétrer la "lifting function" de l'opérateur de Koopman, un outil mathématique qui projette des dynamiques non linéaires dans un espace linéaire global, simplifiant ainsi la conception du contrôleur. Point central de la contribution : les perturbations (forces aérodynamiques, charges suspendues) sont modélisées non pas comme du bruit aléatoire, mais comme un système dynamique à part entière dont l'évolution temporelle est apprise et anticipée. Un mécanisme de mise à jour par gradient rétropropagé en ligne permet une adaptation en temps réel aux incertitudes variables. Les validations expérimentales couvrent des simulations sur un robot spatial amarré (tethered space robot) et des essais réels sur quadrirotor soumis à des perturbations aérodynamiques et à des charges utiles suspendues lors de trajectoires agiles. L'intérêt industriel tient à la dualité que DEKC résout : les méthodes d'apprentissage pur offrent une bonne capacité d'approximation mais exigent un entraînement hors ligne massif et ne fournissent aucune garantie théorique de stabilité, tandis que les contrôleurs robustes classiques restent purement réactifs, corrigeant les erreurs au lieu de les anticiper. DEKC adopte une posture proactive en intégrant la trajectoire future estimée des perturbations directement dans la loi de commande, ce qui réduit les erreurs de suivi sur des manoeuvres rapides. La validation sur quadrirotor physique constitue un argument concret de passage du simulateur au réel, un défi fréquemment sous-estimé dans les publications de contrôle. L'opérateur de Koopman est un formalisme de contrôle établi depuis plusieurs décennies, mais son application combinée à des réseaux différentiables et à une prédiction explicite des perturbations représente une direction de recherche active depuis 2020 environ. Les approches concurrentes incluent les contrôleurs adaptatifs à base de Gaussian Process (GP-MPC), les réseaux neuronaux résiduels couplés à un MPC classique, et les méthodes d-Learning entièrement sans modèle. DEKC se distingue en conservant la structure physique tout en apprenant uniquement la dynamique résiduelle, ce qui réduit la charge de données. L'article reste un preprint non encore évalué par les pairs ; aucune timeline de déploiement industriel ni partenariat avec un intégrateur n'est mentionné.

RecherchePaper

1 source