Aller au contenu principal
Planification robotique sous contraintes de ressources face à une incertitude mixte
RecherchearXiv cs.RO7sem

Planification robotique sous contraintes de ressources face à une incertitude mixte

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs présentent le CMDPST (Consumption Markov Decision Process with Set-valued Transitions), un cadre formel inédit permettant à un robot de planifier ses actions en tenant compte simultanément de deux types d'incertitudes : le bruit probabiliste mesurable et les inconnues structurellement non-quantifiables, tout en garantissant que le système ne tombe jamais à court de ressources opérationnelles (batterie, capacité de charge, quota de déplacements). Publiée sur arXiv en mai 2026 (réf. 2605.05797), la contribution couple ce modèle à une spécification de tâche exprimée en LTLf (logique temporelle linéaire sur traces finies), un formalisme permettant d'encoder des objectifs complexes avec des contraintes temporelles précises. Les auteurs proposent deux algorithmes de synthèse de stratégie : une méthode directe par déroulage d'états et une version optimisée par élagage de l'espace d'états, plus efficace en temps de calcul. Les expériences sont conduites sur un réseau de transport en entrepôt simulé, sans validation sur hardware réel à ce stade.

La contribution adresse un angle mort récurrent dans la planification robotique industrielle : la plupart des approches existantes traitent soit l'incertitude probabiliste via les MDP classiques, soit les contraintes de ressources, rarement les deux ensemble. Dans les déploiements AMR (autonomous mobile robots) d'entrepôt, où une flotte doit honorer des missions tout en gérant niveaux de batterie et pannes imprévisibles, cette dualité est pourtant critique. Le cadre CMDPST offre aux intégrateurs une garantie formelle : la stratégie synthétisée ne laissera jamais un robot en panne sèche, même face à des perturbations non modélisées. C'est un argument solide pour des environnements industriels où l'interruption de service a un coût direct et mesurable.

Ce type de planification sous contraintes mixtes s'inscrit dans un corpus plus large incluant la vérification probabiliste de modèles (outils PRISM, Storm) et la planification formelle par MDP. Les acteurs de la logistique automatisée comme Exotec (France) ou Hai Robotics, dont les flottes AMR évoluent dans des environnements partiellement inconnus, sont directement concernés par ces avancées théoriques. Côté alternatives académiques, le reinforcement learning robuste et le model predictive control probabiliste existent, mais sans les garanties formelles d'épuisement de ressources que revendique cette approche. La prochaine étape attendue est une implémentation sur robot physique pour évaluer concrètement le gap sim-to-real.

Impact France/UE

Exotec (France) est explicitement citée comme acteur directement concerné par ces avancées théoriques, ses flottes AMR en entrepôt étant précisément le cas d'usage visé par les garanties formelles de non-épuisement des ressources du cadre CMDPST.

À lire aussi

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude
1arXiv cs.RO 

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude

Des chercheurs ont proposé PO-PDDL (arXiv:2606.15654, juin 2026), une formulation symbolique des processus de décision markoviens partiellement observables (POMDP) pour la planification robotique en conditions réelles. Le système étend PDDL, standard de facto en planification symbolique depuis les années 1990, en y intégrant explicitement l'observabilité partielle, la stochasticité des actions et la gestion des croyances (beliefs). Un pipeline d'apprentissage reconstruit automatiquement les trajectoires d'état symbolique latentes à partir de vidéos d'exécution de robot réel, détecte les incohérences entre états inférés et observations visuelles pour localiser les zones d'incertitude perceptive, puis apprend les modèles de transition et d'observation stochastiques correspondants. Les domaines générés sont réutilisables entre tâches et permettent une planification en ligne dans l'espace des croyances. Testée sur des tâches de manipulation longue durée (long-horizon) en environnement physique réel, la méthode surpasse les approches existantes d'apprentissage de modèles PDDL et POMDP, avec un coût de planification significativement réduit. L'apport concret pour les intégrateurs robotiques est de supprimer l'effort d'ingénierie lié à la construction manuelle des modèles POMDP, traditionnellement l'un des verrous de la planification symbolique déployable. Apprendre depuis des vidéos de robots réels plutôt que depuis des simulateurs contourne partiellement le gap sim-to-real qui fragilise nombre d'approches d'apprentissage. La syntaxe PDDL préservée ouvre une voie d'intégration avec des LLM pour la spécification de tâches, un axe actif en recherche (voir LLM+P, ProgPrompt). Le fait que les domaines soient réutilisables et que la planification opère en temps réel sous incertitude perceptive et d'exécution représente un pas vers des architectures neuro-symboliques exploitables hors laboratoire. La planification symbolique butte depuis longtemps sur la difficulté de paramétrer les POMDP pour des environnements physiques réels. Des travaux antérieurs comme FAMA ou LOCM ont progressé sur l'apprentissage de modèles PDDL déterministes, sans traiter simultanément stochasticité et observabilité partielle depuis des observations visuelles brutes. PO-PDDL se positionne aussi face aux politiques de bout en bout (VLA, politiques de diffusion) qui absorbent l'incertitude dans le réseau sans la modéliser explicitement. La lisibilité et débuggabilité du formalisme symbolique restent un argument différenciant pour le déploiement industriel. Il s'agit pour l'instant d'un preprint non évalué par les pairs ; les prochaines étapes naturelles incluent l'évaluation sur des manipulations plus complexes et l'intégration dans des stacks open-source comme ROS 2.

RecherchePaper
1 source
NEXUS : apprentissage continu de contraintes symboliques pour une planification incarnée sûre et robuste
2arXiv cs.RO 

NEXUS : apprentissage continu de contraintes symboliques pour une planification incarnée sûre et robuste

NEXUS est un cadre modulaire présenté en mai 2026 sous forme de preprint arXiv (2605.09387), conçu pour l'apprentissage continu de contraintes symboliques dans les agents incarnés. Son objectif central : combler l'écart fondamental entre l'incertitude probabiliste des grands modèles de langage (LLM) et les exigences de déterminisme strict requises dans le monde physique. Le framework dissocie explicitement deux dimensions : la faisabilité physique, améliorée par des retours d'exécution en boucle fermée, et les spécifications de sécurité, ancrées dans des contraintes dures déterministes formant une défense pré-action. Évalué sur le benchmark SafeAgentBench, NEXUS affiche des taux de succès supérieurs aux approches existantes, refuse efficacement les instructions non sûres, résiste aux attaques adversariales, et améliore progressivement son efficacité de planification par accumulation de connaissances symboliques. La pertinence du cadre réside dans son traitement architectural d'un problème structurel : les LLM, malgré leurs performances en planification, restent des systèmes probabilistes susceptibles de produire des comportements dangereux en environnement physique contraint. NEXUS transforme les artefacts symboliques, jusqu'ici utilisés comme de simples interfaces statiques dans les travaux antérieurs, en vecteurs d'évolution de la connaissance. L'ancrage déterministe des risques est particulièrement utile pour les intégrateurs industriels : un agent peut apprendre à reconnaître et refuser des séquences d'actions dangereuses, y compris face à des instructions adversariales délibérément construites. Pour les décideurs envisageant le déploiement d'agents autonomes en entrepôts ou en production, la distinction entre défense réactive et défense pré-action constitue un avantage concret sur le plan de la certification et de la traçabilité. Ce travail s'inscrit dans la continuité de cadres comme SayCan (Google DeepMind) ou Code as Policies, qui ont posé les bases de la planification incarnée par LLM mais traitaient la sécurité comme une contrainte externe figée. NEXUS la rend évolutive via l'apprentissage continu, ce qui le distingue architecturalement. SafeAgentBench, utilisé pour la validation, s'impose progressivement comme référence pour évaluer la robustesse sécuritaire des agents incarnés. Il convient de noter qu'il s'agit à ce stade d'un preprint sans déploiement industriel annoncé ni validation terrain confirmée. La séparation faisabilité/sécurité que propose NEXUS pourrait néanmoins influencer les prochaines générations de middleware robotique, notamment dans les contextes où la traçabilité réglementaire des décisions autonomes est requise.

UELe cadre NEXUS, en rendant les décisions autonomes traçables et auditables via des contraintes symboliques déterministes, pourrait faciliter la mise en conformité avec l'AI Act pour les intégrateurs européens déployant des agents autonomes en environnement industriel.

RecherchePaper
1 source
MPPI sous contraintes probabilistes, incertitudes d'état et d'objets dynamiques : calibration du risque de collision
3arXiv cs.RO 

MPPI sous contraintes probabilistes, incertitudes d'état et d'objets dynamiques : calibration du risque de collision

Une équipe de chercheurs publie sur arXiv en mai 2026 (preprint 2505.28330) une contribution en deux volets pour la navigation probabiliste en environnements dynamiques. D'abord, une méthodologie d'évaluation de la calibration des risques de collision en boucle fermée, fondée sur les proper scoring rules, des métriques statistiques qui mesurent si les probabilités de collision annoncées par le système correspondent à ce qui se produit réellement. Ensuite, l'architecture DUCCT-MPPI (Dual-Uncertainty Chance-Constrained Tube Model Predictive Path Integral), conçue pour fonctionner en temps réel: elle intègre simultanément l'incertitude de localisation via une approximation Unscented Transform (UT) à un tube, et l'incertitude de prédiction des obstacles dynamiques via agrégation Monte Carlo. Dans des simulations physiques en environnements très encombrés, DUCCT-MPPI affiche un taux de succès de navigation supérieur de 28 % aux baselines Monte Carlo MPPI classiques, tout en enregistrant les temps de trajet les plus courts et des forces sociales induites minimisées. L'enjeu central est la calibration: les planificateurs à contraintes probabilistes (chance-constrained planners) supposent implicitement que les incertitudes fournies par la localisation et la perception sont statistiquement fiables, ce qui n'est pas garanti en conditions réelles. Une confiance excessive provoque des violations de sécurité systématiques; une confiance insuffisante génère des comportements de gel ou de dilution des probabilités, paralysant le robot dans les situations complexes. En quantifiant formellement cette erreur de calibration en boucle fermée, les auteurs exposent un angle mort critique pour le déploiement d'AMR et de robots mobiles dans des entrepôts, usines ou espaces partagés avec des humains. Le Chance-Constrained MPPI est une évolution du framework MPPI introduit par Grady Williams et al. (Georgia Tech, 2017), qui génère des trajectoires par échantillonnage massif de perturbations de commande pondéré par un critère de coût. Les approches concurrentes dans l'espace incluent le tube MPC stochastique, les méthodes CVaR (Conditional Value-at-Risk) et les planificateurs bayésiens. Ce preprint reste à valider sur hardware réel: l'ensemble des expériences repose sur de la simulation physique, sans déploiement annoncé sur robot ou plateforme spécifique, une limite classique du sim-to-real gap que les auteurs n'adressent pas explicitement.

RecherchePaper
1 source
Planification de mouvement vérifiée dans l'espace des tâches sous contraintes articulaires
4arXiv cs.RO 

Planification de mouvement vérifiée dans l'espace des tâches sous contraintes articulaires

Une équipe de chercheurs présente dans un preprint arXiv (2605.22991, mai 2026) une méthode pour certifier formellement la planification de mouvement des bras manipulateurs face aux limites articulaires. Les planificateurs réactifs dans l'espace cartésien comme Bug2 opèrent avec des pas fixes sans tenir compte des butées angulaires ; lorsque la jacobienne est mal conditionnée, même un petit déplacement cartésien peut forcer un mouvement articulaire hors limites, provoquant une dérive de suivi et l'échec d'atteinte de l'objectif. La solution calcule, à chaque pas, le plus grand hyperrectangle cartésien certifiablement atteignable via une approximation polynomiale du second ordre de la cinématique inverse et la procédure S, qui forment un programme semi-défini positif (SDP) résolu par bisection en moins d'une milliseconde ; ce certificat est intégré à Bug2 pour adapter dynamiquement le pas au conditionnement cinématique local. Sur 94 scénarios adversariaux couvrant six configurations de limites articulaires, le planificateur SOS-vérifié atteint zéro violation articulaire et 100 % de taux de succès, contre 6 à 11 % de violations et jusqu'à 18 % d'échecs pour le Bug2 standard. Ce résultat comble une lacune bien connue : la planification dans l'espace de travail et la gestion des contraintes articulaires sont traitées séparément dans la plupart des architectures, ce qui génère des comportements indésirables près des singularités cinématiques. La résolution sous-milliseconde rend le module intégrable dans des boucles de contrôle temps réel, le positionnant comme couche de sécurité potentielle au-dessus des planificateurs existants sur des bras industriels comme le KUKA iiwa, l'Universal Robots UR10 ou le Franka Emika Panda. Bug2 est un algorithme réactif classique des années 1980-90, robuste mais agnostique aux propriétés cinématiques du robot, dont l'adaptation aux manipulateurs modernes multi-DDL a toujours souffert de ce manque de cohérence entre espaces cartésien et articulaire. L'usage de la procédure S et des programmes semi-définis pour certifier des atteignabilités locales s'inscrit dans une tendance plus large d'intégration de la vérification formelle (barrières de contrôle, Lyapunov, SOS) dans la planification de mouvement. Ce travail reste un preprint de recherche sans implémentation open-source ni déploiement industriel annoncé ; la validation sur robots physiques multi-DDL en conditions dynamiques réelles demeure l'étape manquante avant toute adoption industrielle.

UEKUKA (Allemagne) et Universal Robots (Danemark) sont cités comme cibles d'intégration directe, ce qui positionne les constructeurs de bras industriels européens comme premiers bénéficiaires potentiels si une implémentation open-source est publiée.

RecherchePaper
1 source