Aller au contenu principal
Traversée prudente de graphes à coûts d'arêtes stochastiques et corrélés pour une mobilité planétaire globale sûre
RecherchearXiv cs.RO4j

Traversée prudente de graphes à coûts d'arêtes stochastiques et corrélés pour une mobilité planétaire globale sûre

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs en robotique planétaire ont publié sur arXiv (réf. 2505.13674v2) un nouvel algorithme de planification de trajectoire pour l'exploration de surface martienne longue distance. Le travail formalise ce problème sous la forme d'une variante du Problème du Voyageur Canadien (Canadian Traveller Problem, CTP) intégrant explicitement l'aversion au risque. L'objectif est de produire une politique de traversée minimisant le CVaR (Conditional Value-at-Risk), une mesure de risque héritée de la finance quantitative et reconnue pour son interprétabilité intuitive. L'algorithme proposé trouve des politiques CVaR-optimales exactes en s'appuyant sur des techniques de recherche AND-OR établies, initialement conçues pour la minimisation d'espérance, étendues ici au domaine de l'aversion au risque. La validation s'effectue sur des simulations de traversées longue distance construites à partir de vraies cartes orbitales de la surface martienne, avec des probabilités de franchissement issues de cartes de terrain réelles.

Ce travail répond à un goulet d'étranglement opérationnel concret dans les missions planétaires actuelles : les opérateurs humains doivent identifier manuellement les segments à traversabilité incertaine et adapter les plans en temps réel selon les difficultés rencontrées. En formalisant ce processus décisionnel adaptatif, les auteurs ouvrent la voie à une planification stratégique plus autonome, réduisant la charge sur les équipes sol tout en maintenant un contrôle explicite du niveau de risque. L'aspect le plus notable est la prise en compte des corrélations de traversabilité entre zones de terrain similaire : lorsqu'une région ressemble à une autre déjà évaluée, l'incertitude n'est pas traitée comme indépendante. Les résultats montrent empiriquement que des détours exploratoires ("information-seeking detours") permettent de réduire significativement le risque dans ces configurations corrélées, ce qui n'est pas possible avec les approches classiques insensibles au risque.

Le contexte immédiat est celui des rovers martiens comme Curiosity (actif depuis 2012) et Perseverance (2021), dont la planification de trajectoire reste aujourd'hui très humano-dépendante et limitée en portée quotidienne. Le CTP est un problème classique de la littérature en planification sous incertitude, mais son adaptation risk-averse pour la mobilité planétaire globale n'avait pas encore été traitée de façon formelle. Ce travail reste pour l'instant une contribution académique sans implémentation annoncée sur matériel réel ni collaboration institutionnelle (NASA, ESA) mentionnée explicitement. Les prochaines étapes naturelles seraient une intégration dans les outils de planification de mission existants et une validation sur des données de terrain analogues terrestres, étape habituelle avant tout déploiement sur véhicule spatial.

Dans nos dossiers

À lire aussi

Planification de trajectoire par retour d'état pour systèmes non linéaires stochastiques avec spécifications en logique temporelle de signal
1arXiv cs.RO 

Planification de trajectoire par retour d'état pour systèmes non linéaires stochastiques avec spécifications en logique temporelle de signal

Une équipe de chercheurs a déposé en mai 2026 sur arXiv (réf. 2605.02361) un cadre de planification de mouvement par retour d'état pour systèmes non linéaires stochastiques en temps continu, soumis à des spécifications formelles en Signal Temporal Logic (STL). La STL est un formalisme mathématique qui exprime des exigences comportementales temporelles précises - du type "éviter une zone pendant 3 secondes, puis atteindre la cible dans un rayon donné". L'objectif affiché est de garantir le respect de ces spécifications avec une probabilité de 99,99 % en boucle fermée. La méthode repose sur une stratégie dite d'"érosion de prédicats" : le problème stochastique, mathématiquement intractable, est transformé en optimisation déterministe avec des contraintes STL resserrées, dont l'amplitude est calibrée par un tube atteignable probabiliste (PRT, Probabilistic Reachable Tube) borné via la théorie de la contraction. Le pipeline complet a été validé en simulation sur plusieurs architectures robotiques, puis expérimentalement sur un robot quadrupède réel - dont la marque n'est pas précisée dans la prépublication, limite courante des dépôts arXiv. Les auteurs rapportent des résultats supérieurs aux approches de référence en termes de conservatisme réduit et de taux de satisfaction des spécifications. Ce travail s'attaque à un verrou bien identifié en robotique formelle : la plupart des méthodes STL existantes supposent soit un système déterministe, soit un modèle linéaire, rendant les garanties probabilistes sur systèmes non linéaires bruités difficiles à obtenir sans explosion combinatoire. En reformulant le problème stochastique en optimisation déterministe compatible avec des solveurs numériques standards, l'approche ouvre une voie d'intégration industrielle sans exiger de matériel de calcul spécialisé. La validation sur quadrupède physique est un signal positif dans un domaine où le sim-to-real gap reste la principale objection aux méthodes formelles. Pour les intégrateurs et décideurs, une garantie probabiliste quantifiée et potentiellement auditable représente un argument concret dans des contextes de certification robotique - à condition que les résultats expérimentaux détaillés confirment la tenue des 99,99 % sur des scénarios variés, ce que le seul résumé ne permet pas de vérifier. Ces travaux s'inscrivent dans un courant actif combinant planification temporelle et contrôle robuste, aux côtés des Control Barrier Functions (CBF) et des approches MPC-STL (Model Predictive Control avec spécifications temporelles). La théorie de la contraction mobilisée ici, développée notamment par Jean-Jacques Slotine au MIT et remise en avant ces dernières années dans la vérification formelle robotique, constitue l'un des apports méthodologiques distincts de l'article. Aucun acteur européen n'est impliqué dans ces travaux. Les extensions naturelles incluent des spécifications STL imbriquées ou multi-agents, des environnements dynamiques, et une comparaison étendue avec des architectures d'apprentissage par renforcement - domaine concurrent qui adresse des problèmes similaires avec des garanties formelles généralement plus faibles.

RecherchePaper
1 source
NEXUS : apprentissage continu de contraintes symboliques pour une planification incarnée sûre et robuste
2arXiv cs.RO 

NEXUS : apprentissage continu de contraintes symboliques pour une planification incarnée sûre et robuste

NEXUS est un cadre modulaire présenté en mai 2026 sous forme de preprint arXiv (2605.09387), conçu pour l'apprentissage continu de contraintes symboliques dans les agents incarnés. Son objectif central : combler l'écart fondamental entre l'incertitude probabiliste des grands modèles de langage (LLM) et les exigences de déterminisme strict requises dans le monde physique. Le framework dissocie explicitement deux dimensions : la faisabilité physique, améliorée par des retours d'exécution en boucle fermée, et les spécifications de sécurité, ancrées dans des contraintes dures déterministes formant une défense pré-action. Évalué sur le benchmark SafeAgentBench, NEXUS affiche des taux de succès supérieurs aux approches existantes, refuse efficacement les instructions non sûres, résiste aux attaques adversariales, et améliore progressivement son efficacité de planification par accumulation de connaissances symboliques. La pertinence du cadre réside dans son traitement architectural d'un problème structurel : les LLM, malgré leurs performances en planification, restent des systèmes probabilistes susceptibles de produire des comportements dangereux en environnement physique contraint. NEXUS transforme les artefacts symboliques, jusqu'ici utilisés comme de simples interfaces statiques dans les travaux antérieurs, en vecteurs d'évolution de la connaissance. L'ancrage déterministe des risques est particulièrement utile pour les intégrateurs industriels : un agent peut apprendre à reconnaître et refuser des séquences d'actions dangereuses, y compris face à des instructions adversariales délibérément construites. Pour les décideurs envisageant le déploiement d'agents autonomes en entrepôts ou en production, la distinction entre défense réactive et défense pré-action constitue un avantage concret sur le plan de la certification et de la traçabilité. Ce travail s'inscrit dans la continuité de cadres comme SayCan (Google DeepMind) ou Code as Policies, qui ont posé les bases de la planification incarnée par LLM mais traitaient la sécurité comme une contrainte externe figée. NEXUS la rend évolutive via l'apprentissage continu, ce qui le distingue architecturalement. SafeAgentBench, utilisé pour la validation, s'impose progressivement comme référence pour évaluer la robustesse sécuritaire des agents incarnés. Il convient de noter qu'il s'agit à ce stade d'un preprint sans déploiement industriel annoncé ni validation terrain confirmée. La séparation faisabilité/sécurité que propose NEXUS pourrait néanmoins influencer les prochaines générations de middleware robotique, notamment dans les contextes où la traçabilité réglementaire des décisions autonomes est requise.

UELe cadre NEXUS, en rendant les décisions autonomes traçables et auditables via des contraintes symboliques déterministes, pourrait faciliter la mise en conformité avec l'AI Act pour les intégrateurs européens déployant des agents autonomes en environnement industriel.

RecherchePaper
1 source
Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style
3arXiv cs.RO 

Encodage de la prévisibilité et de la lisibilité pour une politique de diffusion conditionnée par le style

Des chercheurs ont publié sur arXiv (preprint 2503.16368, mis à jour en mai 2026) un framework baptisé Style-Conditioned Diffusion Policy (SCDP), conçu pour résoudre un compromis fondamental en collaboration humain-robot : la lisibilité des mouvements face à leur efficacité temporelle et énergétique. Le système s'appuie sur une politique de diffusion pré-entraînée qu'il enrichit via un pipeline post-entraînement léger, ajoutant un encodeur de scène et un prédicteur de conditionnement sans modifier les poids du modèle de base. À l'inférence, un module de détection d'ambiguïté détermine automatiquement si l'objectif du robot est déjà évident pour un observateur humain ; si oui, la trajectoire optimale est maintenue ; sinon, le système bascule vers des mouvements plus expressifs et intentionnels. Les évaluations portent sur des tâches de manipulation et de navigation. Ce travail adresse un point de friction concret dans le déploiement industriel des bras collaboratifs et des robots mobiles : un robot trop optimal génère des trajectoires difficiles à anticiper pour un opérateur humain, augmentant le risque d'accident et la charge cognitive. À l'inverse, rendre tous les mouvements expressifs coûte du temps de cycle et de l'énergie, ressources critiques en production. SCDP propose un arbitrage automatique et contextuel, ce qui le distingue des approches à style fixe. Le fait que le framework ne nécessite pas de réentraîner la politique de base est l'argument technique le plus fort : cela ouvre la voie à une adaptation post-déploiement sur des modèles existants, un avantage réel pour les intégrateurs qui ne peuvent pas se permettre des cycles de réentraînement complets. Les Diffusion Policies se sont imposées depuis 2023 comme architecture de référence pour l'imitation de comportements complexes, notamment via les travaux de Chi et al. (Columbia/MIT) et leur intégration dans des systèmes comme pi0 de Physical Intelligence. SCDP s'inscrit dans une vague de recherches visant à rendre ces politiques modulables sans réentraînement, une direction également explorée par des approches de guidance conditionnel et d'adaptateurs de type LoRA appliqués à la robotique. Côté lisibilité robot, les travaux sur la motion legibility remontent aux équipes de Dragan et Srinivasa (Carnegie Mellon, 2013), mais leur intégration dans des politiques génératives modernes reste peu exploitée. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint ; il s'agit d'une contribution académique dont la robustesse hors conditions contrôlées reste à démontrer.

RecherchePaper
1 source
Planification de trajectoire STL et analyse des risques pour la collaboration humain-robot avec un drone multi-rotors
4arXiv cs.RO 

Planification de trajectoire STL et analyse des risques pour la collaboration humain-robot avec un drone multi-rotors

Des chercheurs ont publié sur arXiv (référence 2509.10692, troisième révision en avril 2026) un framework de planification de mouvement et d'analyse de risque pour la collaboration humain-robot avec un véhicule aérien multirotor. Le coeur du système repose sur la Signal Temporal Logic (STL), un formalisme mathématique permettant d'encoder des objectifs de mission structurés : contraintes de sécurité, exigences temporelles, et préférences humaines incluant l'ergonomie et le confort de l'opérateur. Un planificateur par optimisation génère des trajectoires dynamiquement faisables en tenant compte des dynamiques non-linéaires du drone et de ses contraintes d'actuation. Pour résoudre le problème d'optimisation non-convexe et non-lisse qui en résulte, le framework adopte des approximations de robustesse différentiables combinées à des méthodes de gradient. Le système inclut également un mécanisme de replanification en ligne déclenché par événements, activé lorsque des perturbations menacent les marges de sécurité. La validation s'appuie exclusivement sur des simulations MATLAB et Gazebo, sur une tâche de remise d'objet inspirée de la maintenance de lignes électriques. Ce travail adresse un verrou réel dans le déploiement de drones en environnement industriel partagé : la cohabitation sûre avec des techniciens humains dont la posture est incertaine et dynamique. L'analyse de risque probabiliste quantifie la vraisemblance de violations de spécifications sous incertitude de pose humaine, ce qui représente une avancée par rapport aux approches conservatrices à marge fixe. La replanification événementielle permet une récupération en ligne sans interrompre la mission, un critère déterminant pour les applications en conditions réelles. Cela dit, l'absence de validation physique sur hardware réel constitue une limite importante : le gap sim-to-real pour les drones en proximité humaine reste un problème ouvert, et les résultats en simulation Gazebo ne peuvent pas être directement extrapolés à un déploiement terrain. Le contexte de ce travail s'inscrit dans un effort plus large de la communauté robotique aérienne pour rendre les drones industriels opérables à proximité immédiate des travailleurs, notamment dans les secteurs de l'énergie et de la maintenance d'infrastructures. Côté concurrence, des acteurs comme Skydio (USA) ou Flyability (Suisse) avancent sur des drones robustes en environnement contraint, mais sans formalisme STL ni modèle explicite d'interaction humain-robot. En Europe, des projets académiques financés par l'ANR et H2020 explorent des pistes similaires. La prochaine étape naturelle pour ce framework serait une validation sur banc physique avec un multirotor réel et des opérateurs humains instrumentés, condition sine qua non avant toute intégration industrielle.

UEDes projets ANR et H2020 explorent des approches similaires ; ce framework STL pourrait alimenter la recherche européenne sur les drones industriels en proximité humaine, notamment pour la maintenance d'infrastructures énergétiques.

RecherchePaper
1 source