RecherchearXiv cs.RO6h

Contrôle de Koopman différentiable et adaptatif, guidé par la physique, pour un vol stable sous perturbations inconnues

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (arXiv:2506.08319) un cadre de commande hybride baptisé DEKC (Differentiable data-Enabled Koopman Control), conçu pour permettre à des systèmes robotiques de voler ou de se déplacer de manière précise dans des environnements non structurés, malgré des perturbations extérieures non modélisées. L'approche combine un modèle physique nominal du système avec un réseau de neurones profond chargé de paramétrer la "lifting function" de l'opérateur de Koopman, un outil mathématique qui projette des dynamiques non linéaires dans un espace linéaire global, simplifiant ainsi la conception du contrôleur. Point central de la contribution : les perturbations (forces aérodynamiques, charges suspendues) sont modélisées non pas comme du bruit aléatoire, mais comme un système dynamique à part entière dont l'évolution temporelle est apprise et anticipée. Un mécanisme de mise à jour par gradient rétropropagé en ligne permet une adaptation en temps réel aux incertitudes variables. Les validations expérimentales couvrent des simulations sur un robot spatial amarré (tethered space robot) et des essais réels sur quadrirotor soumis à des perturbations aérodynamiques et à des charges utiles suspendues lors de trajectoires agiles.

L'intérêt industriel tient à la dualité que DEKC résout : les méthodes d'apprentissage pur offrent une bonne capacité d'approximation mais exigent un entraînement hors ligne massif et ne fournissent aucune garantie théorique de stabilité, tandis que les contrôleurs robustes classiques restent purement réactifs, corrigeant les erreurs au lieu de les anticiper. DEKC adopte une posture proactive en intégrant la trajectoire future estimée des perturbations directement dans la loi de commande, ce qui réduit les erreurs de suivi sur des manoeuvres rapides. La validation sur quadrirotor physique constitue un argument concret de passage du simulateur au réel, un défi fréquemment sous-estimé dans les publications de contrôle.

L'opérateur de Koopman est un formalisme de contrôle établi depuis plusieurs décennies, mais son application combinée à des réseaux différentiables et à une prédiction explicite des perturbations représente une direction de recherche active depuis 2020 environ. Les approches concurrentes incluent les contrôleurs adaptatifs à base de Gaussian Process (GP-MPC), les réseaux neuronaux résiduels couplés à un MPC classique, et les méthodes d-Learning entièrement sans modèle. DEKC se distingue en conservant la structure physique tout en apprenant uniquement la dynamique résiduelle, ce qui réduit la charge de données. L'article reste un preprint non encore évalué par les pairs ; aucune timeline de déploiement industriel ni partenariat avec un intégrateur n'est mentionné.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

Des chercheurs ont mis en ligne en avril 2026 sur arXiv (référence 2604.16677) un framework nommé ReconVLA, conçu pour doter les modèles vision-langage-action (VLA) d'une capacité jusque-là absente : estimer leur propre degré de confiance avant d'agir. ReconVLA applique la prédiction conforme (conformal prediction) directement sur les tokens d'action produits par un VLA pré-entraîné, sans modification ni réentraînement du modèle. Cette couche génère des intervalles d'incertitude calibrés, corrélés à la qualité d'exécution et au taux de succès de la tâche. Le même mécanisme est étendu à l'espace d'état du robot pour détecter des configurations anormales avant qu'une défaillance ne survienne. L'évaluation couvre des tâches de manipulation variées en simulation et sur robot réel. L'absence de mesure de confiance calibrée est aujourd'hui l'un des principaux verrous à l'industrialisation des VLA. Un modèle comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut produire une action avec une assurance apparente même lorsque la scène perçue sort de sa distribution d'entraînement. ReconVLA contourne ce problème sans toucher au modèle sous-jacent : les intégrateurs peuvent envelopper n'importe quel VLA existant avec cette surcouche de sécurité. En pratique, le framework réduit les erreurs catastrophiques et fournit un signal exploitable par les superviseurs humains ou les systèmes de fail-safe industriels. Il convient de souligner que les résultats présentés restent à l'échelle laboratoire, sans validation sur des lignes de production réelles. La prédiction conforme est une méthode statistique bien établie dans la communauté du machine learning certifié, mais son application aux VLA robotiques reste émergente. Ces architectures ont connu une accélération notable depuis 2023 avec RT-2 (Google DeepMind), puis OpenVLA, Pi-0 et GR00T N2, chacune promettant un contrôle généraliste sans garantie formelle de comportement hors distribution. ReconVLA s'inscrit dans une tendance visant à rendre ces modèles auditables et déployables dans des contextes à risque industriel ou réglementé. Les prochaines étapes naturelles incluent l'intégration avec des pipelines temps réel et la validation sur des horizons de tâches plus longs, domaines où la calibration de l'incertitude devient critique pour les décideurs industriels.

UEImpact indirect : si validé à l'échelle industrielle, ce framework faciliterait le déploiement de VLA dans des environnements réglementés européens (AI Act, sécurité machines), sans nécessiter de réentraînement des modèles existants.

RechercheOpinion

1 source

2arXiv cs.RO

Apprentissage parcimonieux guidé par la physique et adaptation en ligne sélective pour la dynamique d'Euler-Lagrange

Un groupe de chercheurs publie sur arXiv (2606.09640v1, juin 2026) un framework d'apprentissage résiduel structuré pour corriger les modèles de dynamique robot basés sur le formalisme d'Euler-Lagrange. L'approche décompose l'écart entre le modèle nominal et la dynamique réelle en trois composantes : une correction d'inertie, le terme de Coriolis induit correspondant, et un résidu de force généralisée. La composante mécanique est apprise sous contraintes physiques explicites (symétrie, définie-positivité de la matrice d'inertie), tandis que la composante perturbatrice est représentée par un modèle d'interaction latent sparse dépendant de l'historique, adapté en ligne par régression linéaire bayésienne. Les validations couvrent trois types de plateformes : robots mobiles, systèmes aériens et bras manipulateurs, sur des scénarios de dynamique couplée et variable dans le temps. L'enjeu est structurel. La quasi-totalité des méthodes de correction par apprentissage résiduel introduisent un unique terme additif sans contraindre sa forme physique, ce qui dégrade les invariants mécaniques fondamentaux : symétrie de la matrice d'inertie, couplage cohérent entre termes inertiels et termes de vitesse. En pratique, un contrôleur modèle embarquant un tel résidu non contraint risque de produire des prédictions physiquement incohérentes aux limites de l'espace de travail ou sous charges variables. La séparation proposée contraint structurellement la partie mécanique et réserve l'adaptation bayésienne en ligne à la seule composante de perturbation, là où la plasticité est réellement nécessaire. Les auteurs rapportent une amélioration mesurable de la prédiction de dynamique et du suivi de trajectoire, mais les résultats restent au stade expérimental sur plateformes de laboratoire, sans données de déploiement industriel. Le contexte est celui d'une tension persistante dans la robotique à base de modèles : les formulations analytiques d'Euler-Lagrange sont précises en conditions nominales mais se dégradent sous variation de charge utile, friction non modélisée, effets aérodynamiques ou couplages imprévus. Ce travail s'inscrit dans un courant actif de physics-informed learning, aux côtés des Hamiltonian Neural Networks (Greydanus et al., 2019) et des approches par processus gaussiens à noyaux structurés. La différenciation réside dans l'adaptation online sélective via régression bayésienne, computationnellement plus légère que les GPs complets. Le preprint n'annonce ni partenariat industriel ni roadmap commerciale ; les extensions naturelles iraient vers les manipulateurs humanoïdes et la validation sous contraintes temps réel strictes.

RecherchePaper

1 source

3arXiv cs.RO

Gains PD adaptatifs pour un contrôle économe en énergie dans l'interaction physique humain-robot

Une équipe de chercheurs propose dans un article publié sur arXiv (2606.00459) un contrôleur proportionnel-dérivé (PD) adaptatif capable de limiter l'énergie mécanique d'un robot humanoïde lors d'interactions physiques avec des humains. Le système agit sur les deux composantes énergétiques du robot, énergie cinétique et énergie potentielle, sans nécessiter de capteurs de force externes ni d'estimation de couple articulaire. Les gains du contrôleur sont paramétrables : l'opérateur peut définir précisément le seuil d'énergie limite et la "sharpness", c'est-à-dire la brutalité de la transition entre comportement nominal et comportement contraint. Le contrôleur a été validé sur le robot humanoïde TALOS de PAL Robotics (1,75 m, 95 kg, 32 degrés de liberté), d'abord en simulation, puis sur le hardware réel, confirmant le comportement souple attendu et le respect des limites énergétiques définies. L'intérêt de cette approche réside dans son applicabilité large : la majorité des robots industriels et de service ne disposent pas de capteurs de force six axes ou de couple articulaire, conditions requises par les approches classiques de contrôle d'impédance ou de couple. Un contrôleur basé sur l'énergie, implémentable avec des encodeurs standards et un modèle cinématique, ouvre la voie à une couche de sécurité pHRI sur des plateformes à bas coût ou à architecture fermée. Les auteurs fournissent également une preuve formelle de stabilité avec une condition explicite, ce qui distingue cette contribution des schémas énergétiques antérieurs souvent sans garanties théoriques complètes, un point critique pour toute certification industrielle. PAL Robotics, entreprise barcelonaise spécialisée dans les robots de service et de recherche, fournit TALOS comme plateforme de référence pour de nombreux laboratoires européens, notamment dans le cadre de projets H2020 et Horizon Europe. Le contrôle compliant pour la pHRI est un champ en compétition directe avec les approches à apprentissage par renforcement (RL) et les contrôleurs de type whole-body control (WBC) développés par des équipes comme le DLR, ETH Zurich ou Boston Dynamics. Ce travail s'inscrit dans une tendance plus large visant à sécuriser les humanoïdes sans alourdir leur architecture sensorielle, une contrainte clé pour le déploiement en milieu industriel partagé. La prochaine étape logique serait une validation en scénario de collaboration réelle, avec des humains non prévenus, pour éprouver la robustesse du seuil énergétique face à des contacts imprévus.

UEPAL Robotics (Barcelone) fournit TALOS comme plateforme de référence pour de nombreux laboratoires européens financés par H2020/Horizon Europe ; cette couche de sécurité pHRI sans capteurs de force pourrait être directement intégrée dans les projets de collaboration humain-robot en cours au sein de l'écosystème de recherche européen.

RecherchePaper

1 source

4arXiv cs.RO

Cadre d'apprentissage par tranches pour l'identification en ligne des perturbations dans le contrôle d'attitude SO(3) d'un quadrotor

Des chercheurs ont publié sur arXiv (identifiant 2508.14422, version 4) un framework d'apprentissage géométrique appelé "Sliced Learning", conçu pour l'identification en ligne de perturbations dans le contrôle d'attitude des quadrotors selon le groupe de rotations SO(3). Le coeur du système est le module SANM (Sliced Adaptive-Neuro Mapping), qui décompose le problème d'identification de haute dimension en plusieurs sous-mappings de faible dimension, chacun traité par un réseau de neurones peu profond combiné à des lois adaptatives. Ces composants sont mis à jour en ligne via une adaptation basée sur les fonctions de Lyapunov, à une fréquence de 400 Hz, sur des microcontrôleurs à ressources limitées de type STM32. La convergence exponentielle du système est démontrée mathématiquement malgré des perturbations variables dans le temps et des incertitudes sur les moments d'inertie, et les résultats sont validés par des expériences en conditions réelles. L'intérêt principal de ce travail réside dans la capacité d'adaptation neuronale en temps réel à 400 Hz sur un MCU embarqué classique, un seuil rarement atteint dans la littérature sur le contrôle adaptatif des drones. Contrairement aux approches conventionnelles qui apprennent à partir des états du système, la stratégie "learning-from-error" exploite la représentation d'erreur en algèbre de Lie, ce qui préserve la structure géométrique intrinsèque de SO(3) et autorise une décomposition axiale du problème. Pour les intégrateurs de systèmes drones et les équipes de contrôle embarqué, cela représente un module d'identification de perturbations à la fois léger, interprétable et certifiable sur le plan de la stabilité, trois critères déterminants pour des applications industrielles ou de défense. Le contrôle d'attitude géométrique des quadrotors sur SO(3) est un domaine actif depuis les années 2010, avec des travaux fondateurs de Lee, Leok et McClamroch qui ont formalisé des contrôleurs évitant les singularités des angles d'Euler. L'identification de perturbations en ligne reste un verrou face aux vents, variations de charge et dérives d'inertie, et les approches neuronales existantes sont généralement trop lourdes pour tenir sur MCU embarqué, forçant le recours à des calculateurs plus puissants. Ce travail se positionne dans cet espace de contrainte, avec une validation hardware sur STM32, mais sans annoncer de déploiement commercial ni de partenariat industriel à ce stade, ce qui le situe clairement au niveau de la preuve de concept académique.

RecherchePaper

1 source