Aller au contenu principal
PISTO : inférence proximale pour l'optimisation stochastique de trajectoires
RecherchearXiv cs.RO6sem

PISTO : inférence proximale pour l'optimisation stochastique de trajectoires

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (arXiv:2605.07215) un algorithme de planification de trajectoires robotiques appelé PISTO (Proximal Inference for Stochastic Trajectory Optimization). Leur contribution centrale est de démontrer que STOMP, méthode stochastique classique, minimise implicitement une divergence KL par rapport à une distribution de trajectoires de Boltzmann, révélant une structure d'inférence variationnelle (VI) sous-jacente. PISTO exploite cette observation en ajoutant une régularisation KL entre propositions gaussiennes successives, ce qui stabilise les mises à jour et produit une interprétation de type trust-region. L'algorithme reste entièrement sans dérivées et s'appuie sur un échantillonnage Monte Carlo à pondération d'importance. Sur les benchmarks de planification de bras robotiques, PISTO atteint 89 % de taux de succès contre 63 % pour CHOMP et 68 % pour STOMP, tout en générant des trajectoires plus courtes et plus lisses, à deux fois la vitesse des méthodes stochastiques concurrentes. Des validations complémentaires sur des tâches de locomotion et manipulation contact-rich en simulation MuJoCo montrent des performances supérieures aux baselines CEM et MPPI en termes de récompense cumulée.

Pour les intégrateurs et ingénieurs en planification de mouvement, l'absence totale de dérivées est une caractéristique décisive : elle permet de traiter des fonctions de coût non-différentiables ou discontinues, fréquentes dans les environnements industriels réels (détection de collisions, zones interdites, contraintes non paramétriques). Le gain de vitesse d'un facteur deux par rapport aux méthodes stochastiques existantes réduit directement les temps de cycle dans les applications de planification en ligne, point critique pour la robotique collaborative et les systèmes pick-and-place haute cadence. La validation sur MuJoCo avec contacts ouvre des perspectives vers la locomotion humanoïde et la manipulation dextre, bien que ces résultats restent pour l'instant entièrement simulés, sans validation sur matériel physique.

PISTO s'inscrit dans la lignée de STOMP (développé chez Willow Garage et présenté à l'ICRA 2011) et de ses concurrents gradient-based tels que CHOMP, ainsi que des méthodes stochastiques modernes MPPI (popularisé par NVIDIA en 2017) et CEM. Soumis comme preprint arXiv sans révision par les pairs à ce stade, l'article n'annonce ni déploiement industriel ni partenariat commercial. Son impact pratique dépendra de la mise à disposition du code source et de validations expérimentales sur robot réel, étapes absentes de la publication actuelle.

Dans nos dossiers

À lire aussi

Gradients fonctionnels naturels pour l'optimisation de trajectoires fluides
1arXiv cs.RO 

Gradients fonctionnels naturels pour l'optimisation de trajectoires fluides

Une équipe de chercheurs a soumis sur arXiv (référence 2605.28202, mai 2026) un framework d'optimisation de trajectoire pour la manipulation robotique dans des environnements encombrés ou à passages étroits. La méthode introduit ce que les auteurs nomment des "gradients fonctionnels naturels" : plutôt que d'opérer dans un espace discret de waypoints, les mises à jour sont calculées directement dans l'espace fonctionnel, découplant la régularité de la trajectoire du pas de discrétisation temporelle. L'algorithme optimise un objectif lissé par noyau gaussien et emploie un estimateur Monte-Carlo du gradient naturel, ce qui le rend utilisable sans gradients analytiques, un avantage déterminant lorsque la détection de collision ou les simulations à contacts riches empêchent toute différentiation exacte. Les expériences portent sur des tâches de manipulation contrainte aux dégagements géométriques étroits. Pour un intégrateur ou un ingénieur en manipulation, l'apport concret réside dans la capacité à produire des trajectoires faisables là où des planificateurs établis comme CHOMP, TrajOpt ou GPMP2 peinent à converger ou génèrent des mouvements saccadés. La compatibilité "boîte noire" avec n'importe quel simulateur de contacts ouvre également la voie à une intégration dans des pipelines sim-to-real existants sans modifier le moteur physique sous-jacent. Les résultats présentés montrent une amélioration mesurable de la faisabilité et du lissé par rapport à ces baselines, bien que le préprint ne soit pas encore soumis à comité de lecture et que les conditions précises d'évaluation restent à examiner de façon indépendante. L'optimisation de trajectoire est un problème central depuis CHOMP (2009) et TrajOpt (2013) ; l'idée de gradient naturel, issue des travaux d'Amari en apprentissage statistique, n'avait pas encore été formalisée dans l'espace fonctionnel des trajectoires robotiques. Ce travail s'inscrit dans une dynamique active où les méthodes d'optimisation classique doivent maintenir leur pertinence face aux politiques diffusion et aux VLA (Vision-Language-Action models, modèles action guidés par le langage et la vision), qui représentent aujourd'hui une approche concurrente croissante pour la manipulation en espace contraint. Le code source et les vidéos de démonstration sont accessibles sur la page projet des auteurs ; une soumission à ICRA, IROS ou CoRL constituerait la prochaine étape naturelle de validation.

RecherchePaper
1 source
ATRS : découpage adaptatif de trajectoires via une politique neuronale partagée pour l'optimisation parallèle
2arXiv cs.RO 

ATRS : découpage adaptatif de trajectoires via une politique neuronale partagée pour l'optimisation parallèle

Des chercheurs présentent ATRS (Adaptive Trajectory Re-splitting via a Shared Neural Policy), un framework de planification de trajectoire qui intègre un réseau de deep reinforcement learning dans une boucle d'optimisation parallèle par ADMM (Alternating Direction Method of Multipliers). Publié sur arXiv (réf. 2604.22715), le système réduit le nombre d'itérations de convergence de 26 % au maximum et le temps de calcul de 19,1 %. En conditions physiques réelles, ATRS assure une replanification onboard en moins de 35 ms par cycle, sans dégradation sim-to-real constatée entre simulations et expériences sur robot. La planification de trajectoire à long horizon reste un verrou majeur pour les robots autonomes dans les environnements contraints. Les frameworks ADMM existants découpent le problème en sous-problèmes de structure fixe : quand quelques segments stagnent, ils bloquent la convergence globale. ATRS résout ce problème en décidant dynamiquement où et quand redécouper ces segments, via une politique neuronale partagée formulée comme un processus de décision markovien multi-agents. L'architecture parameter-sharing confère au système une invariance de taille, lui permettant de gérer des trajectoires de longueur arbitraire sans réentraînement. La généralisation zero-shot est particulièrement notable : le réseau s'appuie uniquement sur les états internes du solveur numérique, et non sur les géométries de l'environnement, ce qui simplifie considérablement le déploiement en production industrielle. L'ADMM appliqué à la planification robotique est une approche bien établie, portée par des travaux comme TrajOpt et ses variantes parallèles. ATRS s'inscrit dans une tendance plus large d'hybridation entre optimisation classique et deep learning, explorée par plusieurs équipes en navigation autonome et en manipulation. Son mécanisme "Confidence-Based Election" est l'élément différenciant : seul le segment le plus bloqué est redécoupé à chaque étape, ce qui préserve la stabilité du solveur sans surcharger le pipeline. L'article ne mentionne ni affiliation industrielle ni calendrier de transfert technologique : il s'agit d'une contribution académique à ce stade. Cependant, les 35 ms de replanification en temps réel et l'absence de sim-to-real gap en font un candidat crédible pour intégration dans des stacks de navigation autonome ou de manipulation en environnement industriel contraint.

RecherchePaper
1 source
LieIPM : méthode de point intérieur sur groupes de Lie pour l'optimisation directe de trajectoires de corps rigides
3arXiv cs.RO 

LieIPM : méthode de point intérieur sur groupes de Lie pour l'optimisation directe de trajectoires de corps rigides

Une équipe de chercheurs a publié en juin 2026 sur arXiv (référence 2606.10579) une nouvelle méthode d'optimisation de trajectoires appelée LieIPM, pour Lie Group Interior Point Method. L'approche traite le problème de la planification de mouvement de corps rigides, c'est-à-dire tout système mécanique dont l'état est décrit par une rotation et une translation dans l'espace, en opérant directement sur les groupes de Lie matriciels plutôt que dans un espace euclidien. Concrètement, les auteurs construisent un cadre de second ordre exploitant la structure géométrique de SO(3) et SE(3), permettant des mises à jour de type Newton tout en préservant la topologie des rotations. Ils y intègrent une méthode de point intérieur avec recherche linéaire (line-search), des intégrateurs variationnels sur groupe de Lie, et des dérivées intrinsèques en forme fermée qui exploitent les symétries de groupe. Les résultats numériques présentés indiquent une robustesse supérieure et une convergence plus rapide par rapport aux solveurs généralistes et aux méthodes de contrôle optimal exploitant déjà la structure. L'enjeu technique central est le suivant : les optimiseurs de trajectoires existants, comme IPOPT ou SNOPT, travaillent en espace euclidien et ignorent la structure de variété des rotations, ce qui produit des singularités (l'équivalent du gimbal lock en paramétrisation d'Euler) et des problèmes mal conditionnés. En traitant la contrainte de manifold par construction plutôt que par pénalisation ou projection a posteriori, LieIPM évite ces pathologies. Pour un intégrateur ou un ingénieur robotique travaillant sur la manipulation, la locomotion bipède, ou la planification pour bras industriels avec contraintes d'orientation strictes, cela signifie potentiellement des pipelines de planification plus fiables sans recourir à des paramétrages ad hoc comme les quaternions avec re-normalisation forcée. Sur le plan académique, LieIPM s'inscrit dans une longue tradition reliant mécanique géométrique et optimisation, initiée notamment par les travaux de Murray, Li et Sastry dans les années 1990. Il se positionne face à des méthodes récentes comme Crocoddyl (LAAS-CNRS/Inria, qui utilise déjà le DDP sur SE(3)) ou ALTRO, en ajoutant la couche point intérieur pour les contraintes générales sur variété. Il s'agit à ce stade d'une contribution de recherche avec validation numérique uniquement, sans déploiement annoncé sur robot physique ni transfert industriel documenté.

UECrocoddyl (LAAS-CNRS/Inria) est cité comme méthode comparable ; si LieIPM est intégré dans des outils open-source, les équipes françaises en planification de mouvement (locomotion bipède, manipulation) en bénéficieraient directement.

RecherchePaper
1 source
SLAM comme problème de contrôle stochastique à information partielle : solutions optimales et approximations rigoureuses
4arXiv cs.RO 

SLAM comme problème de contrôle stochastique à information partielle : solutions optimales et approximations rigoureuses

Des chercheurs présentent sur arXiv (réf. 2604.21693, avril 2026) un cadre théorique qui reformule le SLAM actif comme un problème de contrôle stochastique optimal sous information partielle. Le SLAM (Simultaneous Localization and Mapping) désigne la capacité d'un robot à construire une carte de son environnement tout en s'y localisant simultanément, un problème fondamental en robotique mobile. Dans sa version "active", le robot doit en plus décider quels mouvements effectuer pour maximiser la qualité de sa carte et la précision de sa pose. Les auteurs formalisent ce problème sous la forme d'un processus de décision markovien partiellement observable (POMDP) non standard, intégrant de façon rigoureuse les modèles de mouvement, de perception et de représentation de la carte. Ils introduisent une nouvelle fonction de coût d'exploration qui encode explicitement la géométrie de l'état du robot au moment d'évaluer les actions de collecte d'information. À partir de cette formulation, ils dérivent des solutions approchées quasi-optimales avec garanties formelles. Une étude numérique extensive valide l'approche en utilisant des algorithmes d'apprentissage par renforcement standards pour apprendre ces politiques. L'intérêt principal de ce travail réside dans la rigueur théorique qu'il apporte à un domaine dominé par des heuristiques empiriques. La plupart des approches d'exploration autonome actuelles, qu'elles reposent sur les frontières d'exploration (frontier-based), la maximisation d'information mutuelle, ou des métriques ad hoc, manquent de garanties formelles sur la qualité des solutions produites. En reformulant le problème dans le cadre du contrôle stochastique optimal et des POMDPs, les auteurs fournissent des conditions de régularité et des bornes d'approximation qui permettent de certifier la quasi-optimalité des politiques apprises. Pour les équipes R&D travaillant sur des AMR (robots mobiles autonomes), des drones cartographiques ou des robots d'inspection industrielle, cette approche ouvre la voie à des algorithmes d'exploration dont le comportement est formellement auditable, ce qui est non trivial dans les contextes de certification. Le SLAM est un problème étudié depuis les années 1990, avec des approches classiques basées sur les filtres de Kalman étendus (EKF-SLAM) ou les filtres particulaires (FastSLAM), puis des méthodes graphiques comme ORB-SLAM3 ou RTAB-Map qui dominent aujourd'hui les implémentations industrielles. Les approches neuronales, comme les NeRF et Gaussian Splatting adaptés au SLAM temps réel, émergent en parallèle. Ce papier, encore préprint non évalué par les pairs, ne remplace pas ces implémentations mais propose un cadre décisionnel qui les surplombe. Les laboratoires actifs sur ces questions incluent MIT CSAIL, ETH Zurich (Autonomous Systems Lab) et l'équipe de Joan Solà. Les prochaines étapes naturelles seraient une validation expérimentale sur robot réel et une extension vers les environnements dynamiques, deux points non traités dans cette version arXiv.

RecherchePaper
1 source