Aller au contenu principal
Planification POMDP en ligne vectorisée
RecherchearXiv cs.RO3h

Planification POMDP en ligne vectorisée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié VOPP (Vectorized Online POMDP Planner), un nouveau solveur de planification pour robots autonomes opérant sous observabilité partielle. L'article, paru sur arXiv (référence 2510.27191, cinquième version), propose une refonte architecturale des solveurs de POMDP (Partially Observable Markov Decision Process), le cadre formel qui permet à un robot de planifier ses actions quand ses capteurs sont bruités et son environnement incertain. L'innovation centrale : représenter toutes les structures de données de planification sous forme de tenseurs et exécuter chaque étape de calcul en mode entièrement vectorisé, éliminant les dépendances et goulots d'étranglement de synchronisation qui pénalisaient les approches parallèles antérieures. Les résultats expérimentaux affichent un gain d'efficacité d'au moins 20× par rapport au meilleur solveur parallèle existant pour des solutions quasi-optimales, et VOPP surpasse également les meilleurs solveurs séquentiels tout en utilisant un budget de planification 1 000× inférieur.

Ces résultats, s'ils se confirment sur des plateformes physiques, changeraient significativement la faisabilité de la planification POMDP embarquée en temps réel. Jusqu'ici, les POMDP restaient souvent cantonnés à la recherche académique ou à des applications à horizons de décision limités, précisément parce que les solveurs classiques, qui alternent optimisation numérique et estimation de valeur avec des synchronisations coûteuses, restaient incompatibles avec des contraintes temps-réel. L'approche tensorielle de VOPP exploite directement les GPU et accélérateurs vectoriels modernes, ouvrant la voie à une planification sous incertitude à grande échelle : navigation d'AMR en entrepôt, manipulation d'objets à préhension incertaine, coordination multi-robots dans des environnements dynamiques.

Le POMDP est un cadre établi depuis les années 1990, mais ses applications robotiques ont longtemps buté sur la malédiction de la dimensionnalité. Des travaux comme POMCP (2010) et DESPOT ont progressivement rendu les solveurs en ligne plus tractables. VOPP s'inscrit dans cette lignée en exploitant une reformulation récente qui résout analytiquement une partie du problème d'optimisation, réduisant les calculs numériques à de pures estimations d'espérances. Aucun partenariat industriel ni déploiement concret n'est mentionné dans la publication, il s'agit d'un résultat de recherche fondamentale. Les étapes logiques suivantes seraient une validation sur des benchmarks physiques et une intégration dans des frameworks comme ROS 2 ou Isaac Sim.

À lire aussi

SAGAS : assemblage par graphe sémantique pour la planification hors ligne en logique temporelle
1arXiv cs.RO 

SAGAS : assemblage par graphe sémantique pour la planification hors ligne en logique temporelle

Des chercheurs ont déposé sur arXiv (référence 2512.00775, version 2, 2025) un cadre baptisé SAGAS (Semantic-Aware Graph-Assisted Stitching) pour la planification robotique à long horizon à partir de données hors-ligne uniquement. Le problème ciblé : piloter un agent pour exécuter des tâches complexes décrites en logique temporelle linéaire (LTL), un formalisme mathématique exprimant des séquences de conditions du type "atteindre A, puis B, tout en évitant C", sans modèle de dynamique, sans démonstrations spécifiques à la tâche, et sans interaction en ligne avec l'environnement. SAGAS apprend deux composants offline à partir de fragments de trajectoires hétérogènes : un graphe latent d'atteignabilité réutilisable, et un exécuteur conditionné sur des objectifs figé après l'entraînement. Pour chaque nouvelle formule LTL au moment du test, le système augmente ce graphe avec des propositions sémantiques, puis applique une recherche en produit de Büchi pour synthétiser un plan de waypoints "prefix-suffix" à coût minimisé, exécuté par l'exécuteur figé. Les expériences portent sur les domaines de locomotion d'OGBench, une suite de benchmarks offline standard dans la communauté. La contribution centrale revendiquée est la généralisation zero-shot à des spécifications LTL non vues à l'entraînement, sans récompense tâche-spécifique ni réentraînement de politique. C'est une distinction structurelle face aux deux familles dominantes : la synthèse symbolique model-based exige un système de transitions étiqueté précis, difficile à construire sur du matériel réel, tandis que les méthodes d'apprentissage par renforcement supposent généralement une interaction en ligne ou des démonstrations dédiées. SAGAS déplace le raisonnement propre à chaque formule vers une augmentation de graphe et une recherche symbolique au temps d'inférence, découplant ainsi la capacité de généralisation du processus d'entraînement. À noter : les validations sont entièrement simulées sur OGBench ; le gap sim-to-real n'est pas adressé, ce qui limite la portée industrielle immédiate. La planification LTL en robotique mobilise un nombre croissant d'équipes, portée par le besoin de comportements vérifiables formellement sur des robots industriels et de service. Les approches concurrentes couvrent un spectre large : planification par diffusion (Diffuser, Decision Diffuser), politiques conditionnées par langage naturel via des VLA (vision-language-action models), et combinaisons de model checking avec du renforcement offline sur D4RL (IQL, CQL). SAGAS occupe la niche "offline + symbolique + zero-shot LTL", encore peu exploitée. Aucun déploiement matériel ni partenariat industriel n'est annoncé ; les suites logiques seraient une validation sur plateforme physique et une extension à des environnements à espace d'état plus riche.

RecherchePaper
1 source
Planification efficace en temps réel pour la robotique en essaim via un tube virtuel optimal
2arXiv cs.RO 

Planification efficace en temps réel pour la robotique en essaim via un tube virtuel optimal

Une équipe de chercheurs propose, dans un preprint arXiv (2505.01380v2, version 2 publiée en mai 2025), un cadre de planification de trajectoires homotopiques pour essaims de robots naviguant dans des environnements à obstacles inconnus. La méthode repose sur un concept de "tube virtuel optimal" : un corridor topologique calculé de manière centralisée, dans lequel chaque robot se déplace de façon distribuée. En exploitant la programmation multiparamétrique pour approximer les trajectoires optimales par des fonctions affines, la complexité de calcul obtenue est en O(nt), où nt désigne le nombre de paramètres de trajectoire. Ce résultat permet une replanification haute fréquence sur des processeurs embarqués à ressources limitées. Les auteurs valident leur approche par simulations et expériences physiques, sans préciser les dimensions des essaims testés ni les conditions réelles de déploiement. Le verrou adressé est structurant pour la robotique en essaim : les planificateurs réactifs offrent une fréquence de replanification élevée mais convergent vers des minima locaux, tandis que les planificateurs multi-étapes réduisent les interblocages au prix d'un coût de calcul incompatible avec les plateformes embarquées. En combinant planification centralisée homotopique et contrôle distribué, le framework se positionne comme une solution hybride crédible. Si les résultats se confirment sur des essaims de plusieurs dizaines d'agents en environnement réel, les applications sont directes : exploration de zones dangereuses, logistique autonome en entrepôt, coordination de flottes d'AMR en espaces encombrés. Les intégrateurs industriels y trouveraient un algorithme de coordination à faible empreinte calculatoire. La planification d'essaims en milieu inconnu est un domaine actif depuis une décennie, avec des contributions majeures d'ETH Zurich, MIT CSAIL et CMU. Les approches par tubes homotopiques existent depuis les années 2010 dans la planification mono-robot ; leur extension aux essaims pose des problèmes de passage à l'échelle que ce travail tente de résoudre par approximation affine. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné : le stade actuel est celui d'une preuve de concept académique. Les étapes naturelles seraient la validation sur des essaims physiques de 20 à 50 robots et la mise à disposition du code, absente de la publication.

RecherchePaper
1 source
COMPASS : planification de la manipulation en espace confiné par perception active
3arXiv cs.RO 

COMPASS : planification de la manipulation en espace confiné par perception active

Des chercheurs ont publié COMPASS (Confined-space Manipulation Planning with Active Sensing Strategy), un framework multi-étapes destiné à résoudre la manipulation robotique en environnements confinés et encombrés. La méthode repose sur trois composants enchaînés : un scan de proximité dit "near-field awareness" qui construit une carte locale de collision avant tout mouvement, une fonction d'utilité multi-objectifs qui sélectionne des points de vue à la fois informatifs et compatibles avec les poses de saisie ultérieures, et un optimiseur de manipulation contraint qui génère des configurations de préhension respectant les obstacles détectés. Les auteurs proposent également un benchmark structuré en quatre niveaux de difficulté croissante pour évaluer les méthodes d'exploration et de manipulation en espace restreint. En simulation, COMPASS affiche un gain de 24,25 points de pourcentage sur le taux de succès de manipulation par rapport aux méthodes d'exploration conçues pour d'autres types de robots ou n'optimisant que le gain d'information. Des expériences en conditions réelles confirment la faisabilité de l'approche. Ce résultat est significatif parce qu'il adresse directement l'un des angles morts du champ NBV (Next Best View) : les stratégies d'exploration existantes maximisent la couverture informationnelle sans tenir compte de la faisabilité de la manipulation qui suit. En couplant explicitement exploration et planification de saisie dans une même fonction d'utilité, COMPASS réduit l'écart entre "voir la scène" et "agir dessus". Pour un intégrateur industriel, cela signifie une réduction du nombre de cycles d'observation improductifs avant une prise, ce qui devient critique dans des applications comme la désassembly, le picking en bacs profonds, ou la maintenance en espaces contraints. La validation sim-to-real, même partielle, réduit le scepticisme habituel sur le transfert des méthodes d'exploration en laboratoire vers des contextes terrain. Le problème de la manipulation en espace confiné est étudié depuis plusieurs années dans la communauté planification-perception, mais reste ouvert faute de benchmarks standardisés et de méthodes intégrant les deux dimensions simultanément. COMPASS s'inscrit dans un mouvement plus large qui voit des frameworks comme Active Neural Mapping ou des planificateurs basés sur l'échantillonnage (RRT, STOMP) être revisités pour intégrer des contraintes de manipulation dès la phase d'exploration. Aucune entreprise n'est associée à cette publication académique (arXiv:2509.14787), et aucune timeline de commercialisation n'est mentionnée. Les prochaines étapes naturelles seraient d'étendre le benchmark à des objets déformables ou à des scènes dynamiques, et de tester la robustesse face à des capteurs de profondeur bruités, condition sine qua non pour un déploiement industriel.

RecherchePaper
1 source
Prise de décision hiérarchique intégrée pour la planification et le contrôle en cinématique inverse
4arXiv cs.RO 

Prise de décision hiérarchique intégrée pour la planification et le contrôle en cinématique inverse

Une équipe de chercheurs présente sur arXiv (2412.01324, v4) un solveur de programmation non linéaire hiérarchique et épars qui intègre simultanément prise de décision discrète et cinématique inverse (IK) corps entier. En un seul problème d'optimisation, le système résout des questions jusqu'ici traitées séparément : sélectionner le nombre minimal d'articulations à activer (contrôle IK épars), choisir parmi un large ensemble de positions candidates où poser un effecteur terminal, ou coordonner deux bras pour saisir un objet orienté aléatoirement. Le solveur s'appuie sur la norme ℓ₀, qui pénalise directement le nombre de variables non nulles, là où la littérature recourt habituellement à la norme ℓ₁, une approximation convexe plus facile à manipuler mais moins fidèle au problème réel. L'enjeu est la réduction du fossé entre planification et exécution dans les robots manipulateurs complexes. Les méthodes actuelles font appel à la programmation entière mixte non linéaire (MINLP), dont le coût de calcul est prohibitif en temps réel, ou à des heuristiques de faisabilité (cartes d'atteignabilité, workspace envelopes) qui simplifient le problème au détriment de la précision. Ce cadre traite le problème non linéaire directement, sans relaxation, en exploitant sa structure hiérarchique éparse. Pour un intégrateur travaillant sur des bras bi-manuels ou des plateformes humanoïdes, cela représente une piste concrète pour réduire la dépendance aux bibliothèques de mouvements pré-calculés et aux pipelines de sélection de prises hors ligne. Ce travail s'inscrit dans la lignée de la programmation quadratique hiérarchique (HQP), paradigme établi en commande de robots redondants depuis les travaux de Sentis et Khatib dans les années 2000. L'usage de la norme ℓ₀ dans des problèmes continus non convexes reste rare en robotique, ce qui constitue la principale originalité revendiquée. L'article ne présente toutefois pas de validation sur plateforme matérielle réelle, ni de benchmarks comparatifs en temps de calcul face à des solveurs de référence comme Drake (Toyota Research Institute) ou les pipelines MoveIt/TRAC-IK, une limite méthodologique à noter avant d'envisager un déploiement. Les suites naturelles seraient une intégration sur humanoïde et une comparaison avec les approches d'apprentissage par renforcement pour la sélection de prises.

RecherchePaper
1 source