Remarques sur le clonage stochastique et le filtrage à …

Traversée prudente de graphes à coûts d'arêtes stochastiques et corrélés pour une mobilité planétaire globale sûre

41

1arXiv cs.RO

Traversée prudente de graphes à coûts d'arêtes stochastiques et corrélés pour une mobilité planétaire globale sûre

Des chercheurs en robotique planétaire ont publié sur arXiv (réf. 2505.13674v2) un nouvel algorithme de planification de trajectoire pour l'exploration de surface martienne longue distance. Le travail formalise ce problème sous la forme d'une variante du Problème du Voyageur Canadien (Canadian Traveller Problem, CTP) intégrant explicitement l'aversion au risque. L'objectif est de produire une politique de traversée minimisant le CVaR (Conditional Value-at-Risk), une mesure de risque héritée de la finance quantitative et reconnue pour son interprétabilité intuitive. L'algorithme proposé trouve des politiques CVaR-optimales exactes en s'appuyant sur des techniques de recherche AND-OR établies, initialement conçues pour la minimisation d'espérance, étendues ici au domaine de l'aversion au risque. La validation s'effectue sur des simulations de traversées longue distance construites à partir de vraies cartes orbitales de la surface martienne, avec des probabilités de franchissement issues de cartes de terrain réelles. Ce travail répond à un goulet d'étranglement opérationnel concret dans les missions planétaires actuelles : les opérateurs humains doivent identifier manuellement les segments à traversabilité incertaine et adapter les plans en temps réel selon les difficultés rencontrées. En formalisant ce processus décisionnel adaptatif, les auteurs ouvrent la voie à une planification stratégique plus autonome, réduisant la charge sur les équipes sol tout en maintenant un contrôle explicite du niveau de risque. L'aspect le plus notable est la prise en compte des corrélations de traversabilité entre zones de terrain similaire : lorsqu'une région ressemble à une autre déjà évaluée, l'incertitude n'est pas traitée comme indépendante. Les résultats montrent empiriquement que des détours exploratoires ("information-seeking detours") permettent de réduire significativement le risque dans ces configurations corrélées, ce qui n'est pas possible avec les approches classiques insensibles au risque. Le contexte immédiat est celui des rovers martiens comme Curiosity (actif depuis 2012) et Perseverance (2021), dont la planification de trajectoire reste aujourd'hui très humano-dépendante et limitée en portée quotidienne. Le CTP est un problème classique de la littérature en planification sous incertitude, mais son adaptation risk-averse pour la mobilité planétaire globale n'avait pas encore été traitée de façon formelle. Ce travail reste pour l'instant une contribution académique sans implémentation annoncée sur matériel réel ni collaboration institutionnelle (NASA, ESA) mentionnée explicitement. Les prochaines étapes naturelles seraient une intégration dans les outils de planification de mission existants et une validation sur des données de terrain analogues terrestres, étape habituelle avant tout déploiement sur véhicule spatial.

RecherchePaper

1 source

PISTO : inférence proximale pour l'optimisation stochastique de trajectoires

47

2arXiv cs.RO

PISTO : inférence proximale pour l'optimisation stochastique de trajectoires

Des chercheurs ont publié sur arXiv (arXiv:2605.07215) un algorithme de planification de trajectoires robotiques appelé PISTO (Proximal Inference for Stochastic Trajectory Optimization). Leur contribution centrale est de démontrer que STOMP, méthode stochastique classique, minimise implicitement une divergence KL par rapport à une distribution de trajectoires de Boltzmann, révélant une structure d'inférence variationnelle (VI) sous-jacente. PISTO exploite cette observation en ajoutant une régularisation KL entre propositions gaussiennes successives, ce qui stabilise les mises à jour et produit une interprétation de type trust-region. L'algorithme reste entièrement sans dérivées et s'appuie sur un échantillonnage Monte Carlo à pondération d'importance. Sur les benchmarks de planification de bras robotiques, PISTO atteint 89 % de taux de succès contre 63 % pour CHOMP et 68 % pour STOMP, tout en générant des trajectoires plus courtes et plus lisses, à deux fois la vitesse des méthodes stochastiques concurrentes. Des validations complémentaires sur des tâches de locomotion et manipulation contact-rich en simulation MuJoCo montrent des performances supérieures aux baselines CEM et MPPI en termes de récompense cumulée. Pour les intégrateurs et ingénieurs en planification de mouvement, l'absence totale de dérivées est une caractéristique décisive : elle permet de traiter des fonctions de coût non-différentiables ou discontinues, fréquentes dans les environnements industriels réels (détection de collisions, zones interdites, contraintes non paramétriques). Le gain de vitesse d'un facteur deux par rapport aux méthodes stochastiques existantes réduit directement les temps de cycle dans les applications de planification en ligne, point critique pour la robotique collaborative et les systèmes pick-and-place haute cadence. La validation sur MuJoCo avec contacts ouvre des perspectives vers la locomotion humanoïde et la manipulation dextre, bien que ces résultats restent pour l'instant entièrement simulés, sans validation sur matériel physique. PISTO s'inscrit dans la lignée de STOMP (développé chez Willow Garage et présenté à l'ICRA 2011) et de ses concurrents gradient-based tels que CHOMP, ainsi que des méthodes stochastiques modernes MPPI (popularisé par NVIDIA en 2017) et CEM. Soumis comme preprint arXiv sans révision par les pairs à ce stade, l'article n'annonce ni déploiement industriel ni partenariat commercial. Son impact pratique dépendra de la mise à disposition du code source et de validations expérimentales sur robot réel, étapes absentes de la publication actuelle.

RecherchePaper

1 source

Planification de trajectoire par retour d'état pour systèmes non linéaires stochastiques avec spécifications en logique temporelle de signal

40

3arXiv cs.RO

Planification de trajectoire par retour d'état pour systèmes non linéaires stochastiques avec spécifications en logique temporelle de signal

Une équipe de chercheurs a déposé en mai 2026 sur arXiv (réf. 2605.02361) un cadre de planification de mouvement par retour d'état pour systèmes non linéaires stochastiques en temps continu, soumis à des spécifications formelles en Signal Temporal Logic (STL). La STL est un formalisme mathématique qui exprime des exigences comportementales temporelles précises - du type "éviter une zone pendant 3 secondes, puis atteindre la cible dans un rayon donné". L'objectif affiché est de garantir le respect de ces spécifications avec une probabilité de 99,99 % en boucle fermée. La méthode repose sur une stratégie dite d'"érosion de prédicats" : le problème stochastique, mathématiquement intractable, est transformé en optimisation déterministe avec des contraintes STL resserrées, dont l'amplitude est calibrée par un tube atteignable probabiliste (PRT, Probabilistic Reachable Tube) borné via la théorie de la contraction. Le pipeline complet a été validé en simulation sur plusieurs architectures robotiques, puis expérimentalement sur un robot quadrupède réel - dont la marque n'est pas précisée dans la prépublication, limite courante des dépôts arXiv. Les auteurs rapportent des résultats supérieurs aux approches de référence en termes de conservatisme réduit et de taux de satisfaction des spécifications. Ce travail s'attaque à un verrou bien identifié en robotique formelle : la plupart des méthodes STL existantes supposent soit un système déterministe, soit un modèle linéaire, rendant les garanties probabilistes sur systèmes non linéaires bruités difficiles à obtenir sans explosion combinatoire. En reformulant le problème stochastique en optimisation déterministe compatible avec des solveurs numériques standards, l'approche ouvre une voie d'intégration industrielle sans exiger de matériel de calcul spécialisé. La validation sur quadrupède physique est un signal positif dans un domaine où le sim-to-real gap reste la principale objection aux méthodes formelles. Pour les intégrateurs et décideurs, une garantie probabiliste quantifiée et potentiellement auditable représente un argument concret dans des contextes de certification robotique - à condition que les résultats expérimentaux détaillés confirment la tenue des 99,99 % sur des scénarios variés, ce que le seul résumé ne permet pas de vérifier. Ces travaux s'inscrivent dans un courant actif combinant planification temporelle et contrôle robuste, aux côtés des Control Barrier Functions (CBF) et des approches MPC-STL (Model Predictive Control avec spécifications temporelles). La théorie de la contraction mobilisée ici, développée notamment par Jean-Jacques Slotine au MIT et remise en avant ces dernières années dans la vérification formelle robotique, constitue l'un des apports méthodologiques distincts de l'article. Aucun acteur européen n'est impliqué dans ces travaux. Les extensions naturelles incluent des spécifications STL imbriquées ou multi-agents, des environnements dynamiques, et une comparaison étendue avec des architectures d'apprentissage par renforcement - domaine concurrent qui adresse des problèmes similaires avec des garanties formelles généralement plus faibles.

RecherchePaper

1 source

SLAM comme problème de contrôle stochastique à information partielle : solutions optimales et approximations rigoureuses

35

4arXiv cs.RO

SLAM comme problème de contrôle stochastique à information partielle : solutions optimales et approximations rigoureuses

Des chercheurs présentent sur arXiv (réf. 2604.21693, avril 2026) un cadre théorique qui reformule le SLAM actif comme un problème de contrôle stochastique optimal sous information partielle. Le SLAM (Simultaneous Localization and Mapping) désigne la capacité d'un robot à construire une carte de son environnement tout en s'y localisant simultanément, un problème fondamental en robotique mobile. Dans sa version "active", le robot doit en plus décider quels mouvements effectuer pour maximiser la qualité de sa carte et la précision de sa pose. Les auteurs formalisent ce problème sous la forme d'un processus de décision markovien partiellement observable (POMDP) non standard, intégrant de façon rigoureuse les modèles de mouvement, de perception et de représentation de la carte. Ils introduisent une nouvelle fonction de coût d'exploration qui encode explicitement la géométrie de l'état du robot au moment d'évaluer les actions de collecte d'information. À partir de cette formulation, ils dérivent des solutions approchées quasi-optimales avec garanties formelles. Une étude numérique extensive valide l'approche en utilisant des algorithmes d'apprentissage par renforcement standards pour apprendre ces politiques. L'intérêt principal de ce travail réside dans la rigueur théorique qu'il apporte à un domaine dominé par des heuristiques empiriques. La plupart des approches d'exploration autonome actuelles, qu'elles reposent sur les frontières d'exploration (frontier-based), la maximisation d'information mutuelle, ou des métriques ad hoc, manquent de garanties formelles sur la qualité des solutions produites. En reformulant le problème dans le cadre du contrôle stochastique optimal et des POMDPs, les auteurs fournissent des conditions de régularité et des bornes d'approximation qui permettent de certifier la quasi-optimalité des politiques apprises. Pour les équipes R&D travaillant sur des AMR (robots mobiles autonomes), des drones cartographiques ou des robots d'inspection industrielle, cette approche ouvre la voie à des algorithmes d'exploration dont le comportement est formellement auditable, ce qui est non trivial dans les contextes de certification. Le SLAM est un problème étudié depuis les années 1990, avec des approches classiques basées sur les filtres de Kalman étendus (EKF-SLAM) ou les filtres particulaires (FastSLAM), puis des méthodes graphiques comme ORB-SLAM3 ou RTAB-Map qui dominent aujourd'hui les implémentations industrielles. Les approches neuronales, comme les NeRF et Gaussian Splatting adaptés au SLAM temps réel, émergent en parallèle. Ce papier, encore préprint non évalué par les pairs, ne remplace pas ces implémentations mais propose un cadre décisionnel qui les surplombe. Les laboratoires actifs sur ces questions incluent MIT CSAIL, ETH Zurich (Autonomous Systems Lab) et l'équipe de Joan Solà. Les prochaines étapes naturelles seraient une validation expérimentale sur robot réel et une extension vers les environnements dynamiques, deux points non traités dans cette version arXiv.

RecherchePaper

1 source

Remarques sur le clonage stochastique et le filtrage à états différés

À lire aussi

Traversée prudente de graphes à coûts d'arêtes stochastiques et corrélés pour une mobilité planétaire globale sûre

PISTO : inférence proximale pour l'optimisation stochastique de trajectoires

Planification de trajectoire par retour d'état pour systèmes non linéaires stochastiques avec spécifications en logique temporelle de signal

SLAM comme problème de contrôle stochastique à information partielle : solutions optimales et approximations rigoureuses