Aller au contenu principal
Gradients fonctionnels naturels pour l'optimisation de trajectoires fluides
RecherchearXiv cs.RO2h

Gradients fonctionnels naturels pour l'optimisation de trajectoires fluides

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a soumis sur arXiv (référence 2605.28202, mai 2026) un framework d'optimisation de trajectoire pour la manipulation robotique dans des environnements encombrés ou à passages étroits. La méthode introduit ce que les auteurs nomment des "gradients fonctionnels naturels" : plutôt que d'opérer dans un espace discret de waypoints, les mises à jour sont calculées directement dans l'espace fonctionnel, découplant la régularité de la trajectoire du pas de discrétisation temporelle. L'algorithme optimise un objectif lissé par noyau gaussien et emploie un estimateur Monte-Carlo du gradient naturel, ce qui le rend utilisable sans gradients analytiques, un avantage déterminant lorsque la détection de collision ou les simulations à contacts riches empêchent toute différentiation exacte. Les expériences portent sur des tâches de manipulation contrainte aux dégagements géométriques étroits.

Pour un intégrateur ou un ingénieur en manipulation, l'apport concret réside dans la capacité à produire des trajectoires faisables là où des planificateurs établis comme CHOMP, TrajOpt ou GPMP2 peinent à converger ou génèrent des mouvements saccadés. La compatibilité "boîte noire" avec n'importe quel simulateur de contacts ouvre également la voie à une intégration dans des pipelines sim-to-real existants sans modifier le moteur physique sous-jacent. Les résultats présentés montrent une amélioration mesurable de la faisabilité et du lissé par rapport à ces baselines, bien que le préprint ne soit pas encore soumis à comité de lecture et que les conditions précises d'évaluation restent à examiner de façon indépendante.

L'optimisation de trajectoire est un problème central depuis CHOMP (2009) et TrajOpt (2013) ; l'idée de gradient naturel, issue des travaux d'Amari en apprentissage statistique, n'avait pas encore été formalisée dans l'espace fonctionnel des trajectoires robotiques. Ce travail s'inscrit dans une dynamique active où les méthodes d'optimisation classique doivent maintenir leur pertinence face aux politiques diffusion et aux VLA (Vision-Language-Action models, modèles action guidés par le langage et la vision), qui représentent aujourd'hui une approche concurrente croissante pour la manipulation en espace contraint. Le code source et les vidéos de démonstration sont accessibles sur la page projet des auteurs ; une soumission à ICRA, IROS ou CoRL constituerait la prochaine étape naturelle de validation.

À lire aussi

PISTO : inférence proximale pour l'optimisation stochastique de trajectoires
1arXiv cs.RO 

PISTO : inférence proximale pour l'optimisation stochastique de trajectoires

Des chercheurs ont publié sur arXiv (arXiv:2605.07215) un algorithme de planification de trajectoires robotiques appelé PISTO (Proximal Inference for Stochastic Trajectory Optimization). Leur contribution centrale est de démontrer que STOMP, méthode stochastique classique, minimise implicitement une divergence KL par rapport à une distribution de trajectoires de Boltzmann, révélant une structure d'inférence variationnelle (VI) sous-jacente. PISTO exploite cette observation en ajoutant une régularisation KL entre propositions gaussiennes successives, ce qui stabilise les mises à jour et produit une interprétation de type trust-region. L'algorithme reste entièrement sans dérivées et s'appuie sur un échantillonnage Monte Carlo à pondération d'importance. Sur les benchmarks de planification de bras robotiques, PISTO atteint 89 % de taux de succès contre 63 % pour CHOMP et 68 % pour STOMP, tout en générant des trajectoires plus courtes et plus lisses, à deux fois la vitesse des méthodes stochastiques concurrentes. Des validations complémentaires sur des tâches de locomotion et manipulation contact-rich en simulation MuJoCo montrent des performances supérieures aux baselines CEM et MPPI en termes de récompense cumulée. Pour les intégrateurs et ingénieurs en planification de mouvement, l'absence totale de dérivées est une caractéristique décisive : elle permet de traiter des fonctions de coût non-différentiables ou discontinues, fréquentes dans les environnements industriels réels (détection de collisions, zones interdites, contraintes non paramétriques). Le gain de vitesse d'un facteur deux par rapport aux méthodes stochastiques existantes réduit directement les temps de cycle dans les applications de planification en ligne, point critique pour la robotique collaborative et les systèmes pick-and-place haute cadence. La validation sur MuJoCo avec contacts ouvre des perspectives vers la locomotion humanoïde et la manipulation dextre, bien que ces résultats restent pour l'instant entièrement simulés, sans validation sur matériel physique. PISTO s'inscrit dans la lignée de STOMP (développé chez Willow Garage et présenté à l'ICRA 2011) et de ses concurrents gradient-based tels que CHOMP, ainsi que des méthodes stochastiques modernes MPPI (popularisé par NVIDIA en 2017) et CEM. Soumis comme preprint arXiv sans révision par les pairs à ce stade, l'article n'annonce ni déploiement industriel ni partenariat commercial. Son impact pratique dépendra de la mise à disposition du code source et de validations expérimentales sur robot réel, étapes absentes de la publication actuelle.

RecherchePaper
1 source
IMPACT : Lagrangien augmenté à ensemble actif implicite pour l'optimisation rapide de trajectoires à contact implicite
2arXiv cs.RO 

IMPACT : Lagrangien augmenté à ensemble actif implicite pour l'optimisation rapide de trajectoires à contact implicite

Des chercheurs ont déposé mi-mai 2026 sur arXiv (arXiv:2605.09127) un préprint décrivant IMPACT, un nouvel algorithme d'optimisation de trajectoires en contact implicite (CITO). La méthode repose sur une formulation augmented-Lagrangian pour résoudre les programmes mathématiques à contraintes de complémentarité (MPCC) qui gouvernent la planification de mouvements impliquant des contacts physiques, sans qu'il soit nécessaire de spécifier à l'avance la séquence des modes de contact. L'implémentation en C++ a été évaluée sur deux benchmarks open-source de référence, CITO et CI-MPC (model predictive control implicite en contact) : sur le premier, IMPACT affiche des accélérations comprises entre 2,9x et 70x par rapport aux solveurs existants les plus compétitifs, avec une moyenne géométrique de 13,8x. Sur les tâches de manipulation dextère en simulation (CI-MPC), la qualité du contrôle progresse également. Une validation sur robot physique a été conduite sur une tâche de poussée d'un objet en T, tâche simple mais représentative du problème de contact. La CITO est une approche unifiée pour planifier et contrôler des robots dans des environnements à contacts multiples, qu'il s'agisse de manipulation d'objets complexes ou de locomotion. Son atout principal est de ne pas imposer de séquence de modes de contact en entrée, éliminant une étape d'ingénierie manuelle coûteuse et peu robuste aux situations imprévues. Le verrou historique était le mauvais conditionnement numérique des MPCC sous-jacents, qui rendait les solveurs génériques instables et prohibitivement lents pour des applications embarquées. Un gain de 13,8x en moyenne géométrique sur des benchmarks standardisés est un signal fort : IMPACT rapproche le CI-MPC d'une viabilité en boucle fermée rapide. Pour les intégrateurs et les équipes de robotique dextère, c'est une avancée concrète vers des manipulateurs capables de gérer des contacts variés sans reprogrammation manuelle à chaque changement de tâche. La CITO mobilise des équipes académiques depuis une décennie, notamment au MIT, à Carnegie Mellon et à ETH Zurich. Les solveurs polyvalents comme IPOPT ou SNOPT montraient des limites sévères sur les MPCC liés au contact ; des travaux récents comme CALIPSO avaient amorcé des améliorations, mais sans garanties de stationnarité systématiques ni gains de vitesse aussi prononcés. IMPACT introduit une identification implicite des branches de modes de contact à la volée pendant les itérations d'optimisation, ce qui constitue sa différence algorithmique principale. Le code est soumis aux benchmarks publics, ce qui permettra à la communauté de reproduire et d'auditer les chiffres annoncés. La suite logique serait l'intégration dans des contrôleurs embarqués sur robots manipulateurs industriels ou humanoïdes, où la planification en contact temps réel reste un problème largement ouvert.

RecherchePaper
1 source
cuNRTO : optimisation de trajectoires robustes non linéaires accélérée par GPU
3arXiv cs.RO 

cuNRTO : optimisation de trajectoires robustes non linéaires accélérée par GPU

Des chercheurs ont mis en ligne sur arXiv (réf. 2603.02642v2) cuNRTO (CUDA Nonlinear Robust Trajectory Optimization), un framework GPU pour l'optimisation de trajectoire robuste sous incertitude bornée. Ces problèmes mènent typiquement à des contraintes de programmation conique du second ordre (SOCP), dont la résolution est très coûteuse sur CPU. Les auteurs proposent deux architectures : NRTO-DR, basée sur le splitting de Douglas-Rachford pour paralléliser les projections SOCP et les résolutions directes creuses, et NRTO-FullADMM, une variante inédite exploitant l'ADMM (Alternating Direction Method of Multipliers) pour améliorer la scalabilité en tirant parti de la structure du problème. L'implémentation repose sur des kernels CUDA personnalisés pour les projections SOC et des chaînes cuBLAS GEMM pour les mises à jour des gains de retour d'état. Testées en simulation sur un modèle unicycle, un quadrirotor et le bras manipulateur Franka Emika, les deux architectures atteignent des accélérations allant jusqu'à 139,6x par rapport aux solveurs CPU de référence. L'enjeu est concret pour les équipes robotique et les intégrateurs : l'optimisation de trajectoire robuste en temps réel reste aujourd'hui hors de portée des architectures CPU pour la plupart des applications embarquées, les solveurs classiques étant cantonnés à une planification hors ligne ou à très basse fréquence. Un gain de 139,6x ouvre la voie à une réplanification en boucle fermée sur des manipulateurs industriels et des drones opérant sous incertitudes réelles (charges variables, perturbations mécaniques). Nuance importante : l'ensemble des benchmarks est produit en simulation. Le gap sim-to-real sur GPU embarqués, où la latence mémoire et la bande passante sont significativement plus contraintes que sur un serveur de calcul, reste entièrement à valider avant tout déploiement opérationnel. Ce travail s'inscrit dans la continuité des efforts d'accélération GPU pour le contrôle optimal, dont cuRobo (NVIDIA) et les variantes GPU de l'MPPI sont les exemples les plus connus. L'optimisation robuste avec contraintes SOCP reste un angle peu couvert par ces frameworks, les formulations quadratiques classiques étant structurellement plus simples à paralléliser. Le papier est un preprint arXiv en version v2, pas encore évalué par une conférence de référence comme ICRA, IROS ou RSS. Le code sera rendu public via cunrto.github.io, ce qui permettra des comparaisons indépendantes. La prochaine étape logique serait une validation hardware sur GPU embarqués de type NVIDIA Jetson Orin, représentatifs du déploiement cible en robotique autonome.

RecherchePaper
1 source
Optimisation globale de trajectoire par échantillonnage pour la manipulation à contact riche via KernelSOS
4arXiv cs.RO 

Optimisation globale de trajectoire par échantillonnage pour la manipulation à contact riche via KernelSOS

Un groupe de chercheurs a publié le 27 avril 2026 sur arXiv (arXiv:2604.27175) une méthode d'optimisation de trajectoires baptisée Global-MPPI, dédiée aux tâches de manipulation dites "contact-rich", des scénarios où le robot entre en contact répété avec son environnement, comme pousser, assembler ou manipuler des objets en main. Le cadre combine deux niveaux : une exploration globale via optimisation kernel sum-of-squares (KernelSOS), suivie d'un raffinement local par la méthode MPPI (Model-Predictive Path Integral). Pour gérer la non-régularité des paysages d'optimisation liée aux dynamiques de contact hybrides, les auteurs introduisent un lissage progressif par log-sum-exp, qui fait évoluer le problème d'un objectif régularisé vers l'objectif non-lisse original. Les tests portent sur deux benchmarks haute dimension à horizon long : la tâche PushT et la manipulation dextère in-hand. Les résultats affichent une convergence plus rapide et des coûts finaux inférieurs aux méthodes de référence, mais uniquement en simulation. Le verrou résolu est structurel : sans mécanisme d'exploration globale, les méthodes par échantillonnage comme MPPI convergent facilement vers de mauvais minima locaux. Pour la manipulation contact-rich, composant critique des bras industriels, des mains robotiques et des humanoïdes, ce phénomène génère des trajectoires sous-optimales dans des environnements géométriquement complexes. L'approche KernelSOS apporte une garantie formelle de couverture de l'espace des solutions là où les variantes purement stochastiques de MPPI restent dépendantes de l'initialisation. La combinaison avec le lissage adaptatif traite directement les discontinuités de contact, qui rendent les méthodes de gradient classiques inapplicables. Le transfert sim-to-real n'est pas évalué dans ce travail, ce qui constitue la principale limite à ce stade. MPPI a été développé à Georgia Tech par Grady Williams et Evangelos Theodorou (2016-2018) et s'est imposé en MPC stochastique temps réel via des implémentations GPU massivement parallèles. L'optimisation sum-of-squares (SOS) est issue des travaux de Parrilo (MIT) et Lasserre (LAAS-CNRS, Toulouse). Global-MPPI constitue le premier cadre à combiner explicitement ces deux familles dans un pipeline de planification de manipulation. Sur le plan concurrentiel, l'approche se positionne face à la Cross-Entropy Method (CEM), aux planificateurs par diffusion comme Pi-0 de Physical Intelligence ou Diffusion Policy, ainsi qu'aux optimiseurs de trajectoires différentiables (Drake, trajopt). Ce preprint n'a pas encore été soumis à une conférence identifiée et aucun code public ni déploiement hardware n'est annoncé à ce stade.

UELes fondements SOS de cette méthode sont issus des travaux de Lasserre au LAAS-CNRS (Toulouse), mais le preprint n'implique aucune institution française ou européenne identifiée et reste sans impact opérationnel direct sur la France/UE à ce stade.

RecherchePaper
1 source