Aller au contenu principal
Elastic ODYN : optimisation différentiable pour le contrôle et l'apprentissage en robotique
RecherchearXiv cs.RO3h

Elastic ODYN : optimisation différentiable pour le contrôle et l'apprentissage en robotique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie sur arXiv en juin 2026 (arXiv:2606.16564) Elastic ODYN, un solveur de programmes quadratiques (QP) pour le contrôle robotique sous infaisabilité. Les contrôleurs de robots, humanoïdes comme quadrupèdes, formulent leurs commandes comme des QP soumis à des contraintes de forces de contact, de limites articulaires et d'objectifs de tâche. Lorsque ces contraintes se contredisent, par erreur de modèle ou contact dégénéré, les solveurs classiques échouent ou génèrent des gradients instables. Elastic ODYN adopte une relaxation élastique ℓ₂ dans un cadre primal-dual sans point intérieur : le problème reste bien posé en toute condition, le solveur converge vers la solution la plus proche du faisable et supporte le démarrage à chaud. Deux extensions complètent le noyau : Elastic OdynLayer, une couche QP différentiable à gradients stables, et Elastic OdynSQP, une méthode SQP gérant les sous-problèmes inconsistants en contrôle optimal. Les benchmarks couvrent des QP standards, la mécanique de contact singulière, l'identification paramétrique différentiable, et l'optimisation de trajectoires sur quadrupèdes et humanoïdes.

L'enjeu est direct pour les intégrateurs de contrôle temps réel et les équipes qui entraînent des politiques par apprentissage. L'infaisabilité n'est pas un cas marginal : un humanoïde sur surface irrégulière, un manipulateur recevant des consignes conflictuelles, ou un algorithme model-based en transition de contact y sont régulièrement confrontés. Jusqu'ici, les développeurs recouraient à des relaxations manuelles ad hoc ou acceptaient des crashs de simulation. La couche différentiable d'Elastic ODYN permet d'entraîner des politiques de contrôle de bout en bout sans que l'infaisabilité intermittente interrompe la descente de gradient, un avantage direct pour les architectures VLA (Vision-Language-Action) et les pipelines sim-to-real.

Les solveurs courants comme OSQP, ProxQP et ECOS intègrent déjà des mécanismes de relaxation, mais leurs formulations présentent des discontinuités de gradient incompatibles avec la différentiation automatique. Les couches QP différentiables existantes, cvxpylayers et qpth, supposent la faisabilité et dégénèrent hors de cette hypothèse. Elastic ODYN couvre donc un créneau à l'intersection des deux. Ce preprint arXiv n'a pas encore passé la révision par les pairs, aucun partenariat industriel ni calendrier de déploiement n'est mentionné, et les performances revendiquées restent à confirmer sur des benchmarks industriels indépendants.

Dans nos dossiers

À lire aussi

Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne
1arXiv cs.RO 

Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne

Des chercheurs ont publié sur arXiv (arXiv:2510.18518v2) un algorithme d'apprentissage par renforcement basé sur un modèle (MBRL) conçu pour contrôler des systèmes robotiques complexes directement dans le monde réel, sans passer par une phase de simulation intensive. L'approche construit un modèle de dynamique à partir des données d'interaction en temps réel, puis effectue des mises à jour de politique guidées par ce modèle appris. Les validations expérimentales ont été conduites sur deux plateformes distinctes : un bras d'excavatrice hydraulique et un bras robot souple. Dans les deux cas, l'algorithme atteint des performances comparables aux méthodes model-free en quelques heures d'entraînement, là où ces dernières réclament habituellement des millions d'interactions simulées. La robustesse de l'adaptation a également été évaluée sous conditions de charge utile (payload) aléatoire, avec des résultats stables malgré le changement de dynamique. L'enjeu principal est la réduction de ce que le secteur appelle le "sim-to-real gap" : l'écart entre les politiques apprises en simulation et leur comportement réel une fois déployées sur du matériel. Les pipelines dominants, adoptés aussi bien par des labos académiques que par des industriels comme Boston Dynamics ou Figure AI, reposent sur des millions de rollouts en simulation avant tout contact avec un robot physique, ce qui introduit un biais systématique difficile à corriger. Cet algorithme court-circuite cette étape en apprenant directement sur données réelles, avec une garantie formelle de progression : les auteurs démontrent des bornes de regret sous-linéaires (sublinear regret bounds) sous hypothèses d'optimisation stochastique en ligne, ce qui est rare dans la littérature MBRL appliquée à la robotique physique. Pour un intégrateur ou un industriel, cela se traduit par une réduction potentielle du temps de mise en service sur des tâches à dynamique variable (variation de charge, usure mécanique, changement de matériau). Ce travail s'inscrit dans un débat structurant du champ : model-based vs model-free RL pour la robotique physique. Les méthodes model-free comme PPO ou SAC dominent les benchmarks simulés mais peinent à s'adapter efficacement en production réelle. Des approches hybrides comme MBPO ou DreamerV3 ont tenté de combler cet écart, mais rarement validées sur des systèmes aussi hétérogènes qu'un bras hydraulique industriel et un manipulateur souple. La prochaine étape naturelle serait une validation sur des plateformes humanoïdes ou des AMR (autonomous mobile robots) à haute dimension, où les enjeux de sample efficiency sont directement liés aux coûts d'exploitation et à la durée de vie des actionneurs.

RecherchePaper
1 source
Dynamique différentiable de corps rigides en batch sur GPU avec PyTorch pour l'apprentissage robotique
2arXiv cs.RO 

Dynamique différentiable de corps rigides en batch sur GPU avec PyTorch pour l'apprentissage robotique

Une équipe de chercheurs publie BARD (Batched Articulated Rigid-body Dynamics), une implémentation PyTorch des algorithmes de dynamique corps rigides de Featherstone, conçue pour l'évaluation GPU en batch et la différentiation automatique. Sur cinq modèles de robots allant de 7 à 23 degrés de liberté, BARD atteint un débit jusqu'à 64 fois supérieur à Pinocchio pour la cinématique directe et 63 fois supérieur pour les jacobiens, à une taille de batch de 4096 sur un NVIDIA H200. La bibliothèque repose sur trois choix d'architecture : un cache à évaluation paresseuse par niveaux qui évite les traversées redondantes de l'arbre cinématique, des transformées de joints sans multiplication matricielle grâce à des constantes de Rodrigues précalculées, et une propagation parallèle par niveaux qui ramène les opérations séquentielles à des étapes batchées proportionnelles à la profondeur de l'arbre. La précision numérique est validée par identification de système sur un manipulateur 7-DOF, avec une erreur moyenne de 1,24 % sur les masses des segments sous 5 % de bruit sur les couples. Intégré dans le pipeline d'entraînement Isaac Lab AMP pour un quadrupède à colonne vertébrale de 11 DOF avec 4096 environnements parallèles, BARD est 8,5 fois plus rapide que Pinocchio et 2 fois plus rapide qu'ADAM pour le calcul de dynamique en boucle d'entraînement. Le code est disponible en open source sur GitHub. L'enjeu est structurel : à mesure que le contrôle robotique migre vers le reinforcement learning à grande échelle avec calcul de dynamique en boucle (in-loop), les librairies CPU comme Pinocchio deviennent un goulot d'étranglement dans les pipelines GPU. BARD élimine ce découplage CPU/GPU sans sacrifier la précision ni la différentiabilité, deux propriétés critiques pour l'optimisation par gradient. Pour les équipes qui entraînent des politiques de locomotion ou de manipulation sur des milliers d'environnements parallèles, ce gain de débit se traduit directement en temps de calcul réduit et en capacité à itérer plus vite sur l'architecture des récompenses et des politiques. Pinocchio reste la référence académique et industrielle pour la dynamique articulée depuis plus de dix ans, mais son architecture CPU-first n'a pas été pensée pour les pipelines d'apprentissage modernes sur GPU. ADAM, autre alternative GPU, est ici surpassé d'un facteur 2 en contexte in-loop. BARD se positionne donc entre les simulateurs physiques complets comme Isaac Sim ou MuJoCo MJX et les librairies de dynamique symbolique, en ciblant explicitement l'usage comme composant différentiable dans une boucle d'entraînement. L'article est une prépublication arXiv (2605.31481), non encore soumise à révision par les pairs, et les benchmarks présentés portent sur des scénarios contrôlés : des tests en conditions de déploiement réel, notamment sur des robots industriels ou des plateformes commerciales, restent à venir.

UEBARD surpasse directement Pinocchio, bibliothèque de dynamique articulée développée et maintenue par LAAS-CNRS et INRIA, ce qui constitue un signal fort pour les équipes de recherche robotique françaises qui l'utilisent comme référence dans leurs pipelines d'apprentissage par renforcement.

RecherchePaper
1 source
FlashSAC : un apprentissage par renforcement hors-politique rapide et stable pour le contrôle robotique haute dimension
3arXiv cs.RO 

FlashSAC : un apprentissage par renforcement hors-politique rapide et stable pour le contrôle robotique haute dimension

Des chercheurs ont publié FlashSAC, un algorithme d'apprentissage par renforcement (RL) hors-politique conçu pour le contrôle robotique en haute dimension. Basé sur Soft Actor-Critic (SAC), FlashSAC réduit drastiquement le nombre de mises à jour de gradient tout en compensant par des modèles plus grands et un débit de données plus élevé. Pour stabiliser l'entraînement à cette échelle, l'algorithme impose des bornes explicites sur les normes de poids, de features et de gradients, limitant ainsi l'accumulation d'erreurs du critique par bootstrapping. Testé sur plus de 60 tâches dans 10 simulateurs différents, il surpasse systématiquement PPO et les baselines hors-politique standards, aussi bien en performance finale qu'en efficacité d'entraînement. Le gain le plus marqué est observé sur des tâches à haute dimensionnalité comme la manipulation dextre. En locomotion humanoïde avec transfert sim-to-real, FlashSAC réduit le temps d'entraînement de plusieurs heures à quelques minutes. Ce résultat est significatif parce qu'il attaque directement le principal frein des méthodes hors-politique en robotique : leur instabilité sur des espaces d'états et d'actions complexes. Les méthodes sur-politique comme PPO dominent aujourd'hui les benchmarks robotiques précisément parce qu'elles sont stables, malgré leur inefficacité en données. FlashSAC propose un chemin pour inverser ce compromis sans sacrifier la convergence, ce qui est particulièrement pertinent pour la manipulation dextre et la locomotion humanoïde, où l'espace d'action peut dépasser plusieurs dizaines de degrés de liberté. La réduction du temps d'entraînement sim-to-real de quelques heures à quelques minutes change l'équation économique des cycles de développement pour les équipes robotique. L'algorithme s'inscrit dans une tendance plus large d'application des lois de scaling, jusqu'ici observées en apprentissage supervisé, aux algorithmes RL, une hypothèse activement explorée par des laboratoires comme Google DeepMind, Meta AI et des startups humanoïdes telles que Figure, Apptronik ou 1X Technologies. Ces acteurs cherchent tous à accélérer le sim-to-real pour leurs plateformes humanoïdes, où le coût d'entraînement en conditions réelles reste prohibitif. FlashSAC n'est pas encore associé à un déploiement industriel annoncé, mais la démonstration de locomotion humanoïde en simulation suggère une applicabilité directe aux robots à deux jambes actuellement en phase de pilote chez plusieurs intégrateurs. La prochaine étape naturelle serait une validation sur hardware réel à grande échelle.

RecherchePaper
1 source
Apprentissage de dynamiques neuronales ODE adaptées au contexte pour le contrôle robotique adaptatif
4arXiv cs.RO 

Apprentissage de dynamiques neuronales ODE adaptées au contexte pour le contrôle robotique adaptatif

Des chercheurs ont proposé un modèle de dynamique contextuel fondé sur les équations différentielles ordinaires neuronales (Neural ODE) pour améliorer le contrôle de robots opérant dans des environnements incertains et variables. Le travail, déposé en juin 2026 sur arXiv (référence 2606.15469), cible les perturbations que les contrôleurs classiques peinent à absorber: variations des conditions de contact, effets aérodynamiques et perturbations externes imprévues. La méthode repose sur une procédure d'entraînement en deux phases: le modèle inspecte l'historique des états et des actions du robot pour inférer les facteurs environnementaux courants, sans capteurs dédiés supplémentaires. La compatibilité avec le MPC (Model Predictive Control) est intégrée dès la conception. Les validations portent sur trois plateformes distinctes: un drone quadrirotor en simulation, un robot sphérique Sphero BOLT et un bras manipulateur industriel Fanuc, ces deux derniers testés en conditions réelles. L'enjeu central est la dérive de modèle lors du déploiement: un robot calibré en laboratoire voit ses performances se dégrader dès que l'environnement change, que ce soit un sol différent, une charge variable ou des turbulences. Par rapport aux approches récurrentes classiques (LSTM, GRU), les Neural ODE présentent un avantage structurel: elles modélisent la dynamique en temps continu, ce qui améliore la cohérence physique et simplifie l'interface avec les solveurs MPC. L'inférence du contexte depuis le seul historique actions-états, sans instrumentation additionnelle, réduit la barrière d'intégration pour les industriels. Le test sur un Fanuc, bras omniprésent en production manufacturière, ancre les résultats dans une réalité opérationnelle tangible. Point de réserve: l'article est un preprint et l'abstract ne publie aucune métrique chiffrée de performance, ce qui rend l'évaluation indépendante difficile à ce stade. Les Neural ODE ont été introduites en 2018 par Chen et al. (NeurIPS) comme alternative aux réseaux récurrents pour modéliser des systèmes dynamiques continus. Leur application au contrôle robotique adaptatif répond à un obstacle persistant du secteur: le sim-to-real gap, qui fragilise la fiabilité des systèmes autonomes hors conditions contrôlées. Les approches concurrentes comprennent les processus gaussiens (GP) pour l'adaptation en ligne, les algorithmes méta-apprenants (MAML, PEARL) et l'identification de systèmes en temps réel. Ce travail se distingue par l'inférence contextuelle implicite, couplée nativement au MPC plutôt qu'ajoutée en couche. Le code source est ouvert sur GitHub et des démonstrations vidéo sont accessibles. La prochaine étape logique serait une validation sur des tâches de manipulation à charge variable ou un déploiement en environnement industriel non contrôlé.

RecherchePaper
1 source