Aller au contenu principal
VOiLA : planification en ligne vectorisée avec modèle de diffusion pour agents POMDP
RecherchearXiv cs.RO2h

VOiLA : planification en ligne vectorisée avec modèle de diffusion pour agents POMDP

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont soumis sur arXiv (réf. 2606.19729) VOiLA, un framework de planification robotique qui apprend des modèles POMDP génériques via diffusion conditionnelle pour planifier sous incertitude partielle, sans nécessiter de modèles physiques codés manuellement. Les diffusion samplers sont distillés en générateurs feedforward compacts intégrés au planificateur VOPP, exploitant la parallélisation GPU pour réduire le coût d'échantillonnage de près de mille fois. Sur trois benchmarks standards, VOiLA atteint des performances égales ou supérieures à Recurrent Soft Actor Critic (RSAC) avec moins de 10 % de ses données d'entraînement. Sur robot physique, les modèles appris exclusivement en simulation permettent de réussir 10 tâches sur 10 en conditions réelles.

Le résultat le plus saillant est ce taux de succès sim-to-real de 100 % : les modèles, entraînés sans aucune donnée réelle, fonctionnent en conditions physiques sans dégradation, validant directement la robustesse du transfert simulation-réalité. La frugalité en données est tout aussi notable : surpasser RSAC avec moins d'un dixième de ses données d'entraînement suggère que la structure imposée par les modèles de diffusion compense efficacement le manque de supervision. La généralisation à des configurations d'environnement inédites, documentée sur benchmarks, renforce la crédibilité de l'approche pour des déploiements industriels à conditions variables, là où les agents RL classiques montrent souvent leurs limites.

La planification POMDP est un cadre théorique solide pour les agents en environnement partiellement observable, mais son adoption pratique a longtemps été freinée par la difficulté de construire des modèles fidèles. Les approches model-based comme DreamerV3 ou RSSM apprennent ces modèles sans intégrer de planification en ligne explicite calculable en temps réel. VOiLA comble ce fossé en combinant l'expressivité de la diffusion et la rapidité de la distillation pour rendre le POMDP tractable sur GPU, face à des concurrents directs comme RSAC, les planificateurs Monte Carlo Tree Search et les frameworks VLA. Aucun acteur français ou européen n'est impliqué dans ce travail, bien que des laboratoires comme l'INRIA ou le LAAS-CNRS pourraient directement exploiter ces résultats ; aucun partenariat industriel ni timeline de déploiement n'est annoncé dans ce preprint.

Dans nos dossiers

À lire aussi

Planification POMDP en ligne vectorisée
1arXiv cs.RO 

Planification POMDP en ligne vectorisée

Des chercheurs ont publié VOPP (Vectorized Online POMDP Planner), un nouveau solveur de planification pour robots autonomes opérant sous observabilité partielle. L'article, paru sur arXiv (référence 2510.27191, cinquième version), propose une refonte architecturale des solveurs de POMDP (Partially Observable Markov Decision Process), le cadre formel qui permet à un robot de planifier ses actions quand ses capteurs sont bruités et son environnement incertain. L'innovation centrale : représenter toutes les structures de données de planification sous forme de tenseurs et exécuter chaque étape de calcul en mode entièrement vectorisé, éliminant les dépendances et goulots d'étranglement de synchronisation qui pénalisaient les approches parallèles antérieures. Les résultats expérimentaux affichent un gain d'efficacité d'au moins 20× par rapport au meilleur solveur parallèle existant pour des solutions quasi-optimales, et VOPP surpasse également les meilleurs solveurs séquentiels tout en utilisant un budget de planification 1 000× inférieur. Ces résultats, s'ils se confirment sur des plateformes physiques, changeraient significativement la faisabilité de la planification POMDP embarquée en temps réel. Jusqu'ici, les POMDP restaient souvent cantonnés à la recherche académique ou à des applications à horizons de décision limités, précisément parce que les solveurs classiques, qui alternent optimisation numérique et estimation de valeur avec des synchronisations coûteuses, restaient incompatibles avec des contraintes temps-réel. L'approche tensorielle de VOPP exploite directement les GPU et accélérateurs vectoriels modernes, ouvrant la voie à une planification sous incertitude à grande échelle : navigation d'AMR en entrepôt, manipulation d'objets à préhension incertaine, coordination multi-robots dans des environnements dynamiques. Le POMDP est un cadre établi depuis les années 1990, mais ses applications robotiques ont longtemps buté sur la malédiction de la dimensionnalité. Des travaux comme POMCP (2010) et DESPOT ont progressivement rendu les solveurs en ligne plus tractables. VOPP s'inscrit dans cette lignée en exploitant une reformulation récente qui résout analytiquement une partie du problème d'optimisation, réduisant les calculs numériques à de pures estimations d'espérances. Aucun partenariat industriel ni déploiement concret n'est mentionné dans la publication, il s'agit d'un résultat de recherche fondamentale. Les étapes logiques suivantes seraient une validation sur des benchmarks physiques et une intégration dans des frameworks comme ROS 2 ou Isaac Sim.

RecherchePaper
1 source
Diffusion à somme de coûts avec guidage dynamique pour la planification de mouvement
2arXiv cs.RO 

Diffusion à somme de coûts avec guidage dynamique pour la planification de mouvement

Une équipe de recherche publie en mai 2026 (arXiv:2605.24690) une nouvelle méthode de planification de trajectoires pour la manipulation robotique, basée sur les modèles de diffusion. L'approche, baptisée "Sum of Costs Diffusion with Dynamic Guidance", guide le processus de débruitage du modèle de diffusion par le gradient du coût total de collision, c'est-à-dire la somme des coûts de collision sur l'ensemble de la trajectoire candidate. Autre contribution clé : une heuristique dynamique pour sélectionner l'étape de départ à partir de laquelle ce guidage par gradient est activé. Sur le benchmark Mπnets, un jeu de données de référence pour la planification en environnements encombrés, la méthode obtient les meilleures performances parmi l'ensemble des approches comparées. La généralisation reste le verrou principal de la planification de mouvement en manipulation robotique. Les planificateurs classiques (familles RRT, OMPL) peinent à s'adapter à de nouveaux environnements sans replanification coûteuse, tandis que les approches deep learning souffrent d'une généralisation limitée hors distribution. Le guidage par gradient de coût de collision, appliqué dynamiquement au cours du débruitage, offre une alternative : le modèle ajuste la trajectoire en continu selon la géométrie réelle de la scène, sans retraining. La sélection dynamique du step de départ du guidage adresse un problème connu des modèles de diffusion guidés, le compromis entre force du guidage et diversité des échantillons. Les résultats sur la diversité des configurations de test de Mπnets soutiennent l'hypothèse que cette formulation est plus robuste que les stratégies de guidage par coût ponctuel utilisées dans les travaux antérieurs. Cela dit, l'article est une prépublication non encore révisée par les pairs, et les métriques gagneraient à être validées sur des benchmarks physiques réels. L'intérêt pour les modèles de diffusion en planification robotique s'est accéléré depuis 2023 avec des travaux comme Diffusion Policy (Chi et al.) ou SE(3)-DiffusionFields. Les approches concurrentes directement comparées incluent MPinets et CuRobo (NVIDIA), deux méthodes learning-based de référence sur Mπnets. La méthode proposée s'inscrit dans un courant qui cherche à marier la flexibilité générative des modèles de diffusion avec des contraintes de sécurité physique (évitement de collision) sans passer par un planificateur externe. La prochaine étape logique sera une validation sur hardware réel et des environnements dynamiques, conditions nécessaires pour que ce type d'approche intéresse les intégrateurs industriels.

RecherchePaper
1 source
Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)
3arXiv cs.RO 

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

Une équipe de chercheurs a publié sur arXiv (référence 2604.15938) une proposition architecturale baptisée VADF (Vision-Adaptive Diffusion Policy Framework), visant à corriger deux défauts structurels des politiques de diffusion appliquées à la manipulation robotique. Le premier défaut est le déséquilibre de classe dû à l'échantillonnage uniforme lors de l'entraînement : le modèle traite indistinctement les exemples faciles et difficiles, ce qui ralentit la convergence. Le second est le taux d'échec à l'inférence par dépassement de délai, un problème opérationnel concret dès qu'on sort du laboratoire. VADF intègre deux composants : l'ALN (Adaptive Loss Network), un MLP léger qui prédit en temps réel la difficulté de chaque pas d'entraînement et applique un suréchantillonnage des régions à forte perte via du hard negative mining ; et l'HVTS (Hierarchical Vision Task Segmenter), qui décompose une instruction de haut niveau en sous-tâches visuellement guidées, en assignant des schedules de bruit courts aux actions simples et des schedules longs aux actions complexes, réduisant ainsi la charge computationnelle à l'inférence. L'architecture est conçue model-agnostic, c'est-à-dire intégrable à n'importe quelle implémentation existante de politique de diffusion. L'intérêt pour un intégrateur ou un responsable R&D est avant tout pratique : les politiques de diffusion souffrent de coûts d'entraînement élevés et d'une fiabilité insuffisante en déploiement réel, ce qui freine leur adoption industrielle. Si les gains annoncés par VADF se confirment sur des benchmarks indépendants, la réduction des étapes de convergence représenterait un levier significatif sur les coûts GPU, et la diminution des timeouts à l'inférence améliorerait directement la cadence opérationnelle. Il faut toutefois noter que ce travail est un preprint non évalué par des pairs, sans chiffres de performance comparatifs publiés dans l'article lui-même. Les politiques de diffusion ont émergé comme méthode de choix pour l'imitation comportementale en robotique depuis les travaux de Chi et al. en 2023 (Diffusion Policy, Columbia), avant d'être intégrées dans des architectures plus larges comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La principale tension du domaine reste le sim-to-real gap et la robustesse à l'inférence en conditions réelles, terrain sur lequel VADF prétend apporter une contribution. Les prochaines étapes logiques seraient une validation sur des benchmarks standard (RLBench, LIBERO) et une comparaison directe avec ACT ou Diffusion Policy de référence.

RecherchePaper
1 source
Planification du mouvement multi-robots par modèle de diffusion guidé par apprentissage par renforcement multi-agents
4arXiv cs.RO 

Planification du mouvement multi-robots par modèle de diffusion guidé par apprentissage par renforcement multi-agents

Une équipe de chercheurs propose, dans un préprint arXiv (2606.00933) publié début juin 2026, un cadre de planification de trajectoires pour flottes de robots mobiles combinant modèles de diffusion génératifs et apprentissage par renforcement multi-agents (MARL). Concrètement, chaque robot génère indépendamment des trajectoires candidates via un modèle de diffusion entraîné sur des données mono-agent, puis une fonction de valeur centralisée, apprise par MARL, oriente le processus de débruitage par gradient pour réduire les conflits entre agents. Ce mécanisme dit d'"exponential tilting" pousse la distribution de débruitage vers les trajectoires associées au meilleur retour collectif attendu. Évalué en simulation sur un labyrinthe avec quatre robots mobiles, le système réduit le taux d'interférence inter-agents de 55,4 % à 41,8 %, sans nécessiter de ré-entraînement du modèle génératif ni de planification jointe centralisée. Ce résultat attaque directement le compromis historique entre planification centralisée (précise mais peu scalable à mesure que la flotte grossit) et planification décentralisée (scalable mais aveugle aux autres agents). Le fait que la coordination soit injectée via un signal de guidage externe sans modifier le planificateur diffusion de base ouvre la voie à des architectures modulaires : on entraîne une fois le modèle de trajectoire mono-agent, puis on greffe la coordination selon l'environnement de déploiement. Pour les intégrateurs de systèmes multi-robots en entrepôt ou en manufacture, cela suggère qu'un découplage entre planification locale et coordination globale est techniquement praticable, ce qui simplifierait la mise à l'échelle des flottes hétérogènes sans refonte complète du pipeline. Le domaine est depuis longtemps dominé par des méthodes à base de graphes comme CBS (Conflict-Based Search) ou des approches réactives décentralisées comme ORCA, avec des tentatives d'apprentissage profond restées limitées en conditions réelles. L'application des modèles de diffusion à la génération de trajectoires robotiques constitue un courant émergent, illustré notamment par Diffusion Policy (Chi et al., 2023) en manipulation, mais rarement couplé au MARL pour la coordination de flotte. Ce travail reste pour l'instant une preuve de concept en simulation sur quatre robots dans un environnement simple, et la généralisation à des scènes dynamiques, à des flottes plus larges ou à des robots hétérogènes demeure un défi non adressé. Les prochaines étapes naturelles incluent la validation sur hardware réel et la confrontation aux benchmarks de référence du MAPF (Multi-Agent Path Finding).

RecherchePaper
1 source