Planification POMDP en ligne vectorisée

VOiLA : planification en ligne vectorisée avec modèle de diffusion pour agents POMDP

42

1arXiv cs.RO

VOiLA : planification en ligne vectorisée avec modèle de diffusion pour agents POMDP

Des chercheurs ont soumis sur arXiv (réf. 2606.19729) VOiLA, un framework de planification robotique qui apprend des modèles POMDP génériques via diffusion conditionnelle pour planifier sous incertitude partielle, sans nécessiter de modèles physiques codés manuellement. Les diffusion samplers sont distillés en générateurs feedforward compacts intégrés au planificateur VOPP, exploitant la parallélisation GPU pour réduire le coût d'échantillonnage de près de mille fois. Sur trois benchmarks standards, VOiLA atteint des performances égales ou supérieures à Recurrent Soft Actor Critic (RSAC) avec moins de 10 % de ses données d'entraînement. Sur robot physique, les modèles appris exclusivement en simulation permettent de réussir 10 tâches sur 10 en conditions réelles. Le résultat le plus saillant est ce taux de succès sim-to-real de 100 % : les modèles, entraînés sans aucune donnée réelle, fonctionnent en conditions physiques sans dégradation, validant directement la robustesse du transfert simulation-réalité. La frugalité en données est tout aussi notable : surpasser RSAC avec moins d'un dixième de ses données d'entraînement suggère que la structure imposée par les modèles de diffusion compense efficacement le manque de supervision. La généralisation à des configurations d'environnement inédites, documentée sur benchmarks, renforce la crédibilité de l'approche pour des déploiements industriels à conditions variables, là où les agents RL classiques montrent souvent leurs limites. La planification POMDP est un cadre théorique solide pour les agents en environnement partiellement observable, mais son adoption pratique a longtemps été freinée par la difficulté de construire des modèles fidèles. Les approches model-based comme DreamerV3 ou RSSM apprennent ces modèles sans intégrer de planification en ligne explicite calculable en temps réel. VOiLA comble ce fossé en combinant l'expressivité de la diffusion et la rapidité de la distillation pour rendre le POMDP tractable sur GPU, face à des concurrents directs comme RSAC, les planificateurs Monte Carlo Tree Search et les frameworks VLA. Aucun acteur français ou européen n'est impliqué dans ce travail, bien que des laboratoires comme l'INRIA ou le LAAS-CNRS pourraient directement exploiter ces résultats ; aucun partenariat industriel ni timeline de déploiement n'est annoncé dans ce preprint.

RecherchePaper

1 source

OSDAG : planification en ligne pour une collaboration multi-robots efficace

44

2arXiv cs.RO

OSDAG : planification en ligne pour une collaboration multi-robots efficace

Des chercheurs ont publié le 18 juin 2026 sur arXiv (réf. 2606.15255) un framework appelé OSDAG, conçu pour coordonner des flottes de robots hétérogènes sur des tâches longues et complexes en combinant raisonnement par grand modèle de langage (LLM) et ordonnancement en ligne par graphe orienté acyclique (DAG). Le principe central : le LLM n'est invoqué qu'une seule fois, à la réception d'une instruction en langage naturel, pour décomposer la tâche en un graphe annoté de dépendances. Un ordonnanceur léger prend ensuite le relais en temps réel pour affecter à chaque robot disponible les sous-tâches dont les prérequis sont satisfaits. Les expériences portent sur cinq scénarios de référence, incluant des validations en simulation et sur des systèmes réels de manipulation à deux bras. Les résultats annoncés sont un gain de raisonnement de 5 à 15 fois par rapport aux approches conversationnelles, et une réduction du makespan (temps total d'exécution de la flotte) allant jusqu'à 38 % face aux baselines séquentielles, avec des taux de succès restant comparables. L'intérêt architectural est réel pour les intégrateurs de systèmes multi-robots : l'approche résout deux goulots d'étranglement identifiés dans les méthodes LLM existantes. Le premier est la latence cumulée des appels LLM répétés à chaque étape d'exécution, qui empire linéairement avec le nombre d'agents. Le second est l'ordonnancement pré-engagé hors ligne, qui force les robots à attendre leurs prédécesseurs même quand des tâches indépendantes sont disponibles. En encodant à la fois les contraintes de précédence et les contraintes de ressources dans le DAG, OSDAG expose tout le parallélisme exploitable sans sacrifier la correction du plan. Sur des lignes d'assemblage ou des entrepôts logistiques, cette distinction entre "planifier une fois" et "ordonnancer en continu" peut transformer la densité d'utilisation d'une flotte. OSDAG s'inscrit dans une vague de travaux cherchant à rendre les LLM opérationnels pour la robotique collaborative, aux côtés de frameworks comme SayPlan, RoCo ou les approches VLA (Vision-Language-Action). Ces méthodes souffrent généralement du dialogue-loop problem : chaque décision remonte au modèle, ce qui devient prohibitif à l'échelle. OSDAG adopte une architecture de séparation stricte planification/exécution, plus proche des moteurs de workflow industriels (type BPMN) que des agents conversationnels. Les auteurs valident sur des bras manipulateurs duaux, un environnement contrôlé, mais l'extension à des flottes AMR en entrepôt ou à des cellules de production réelles reste à démontrer. Le code et les ressources sont accessibles sur le site du projet (thanhnguyencanh.github.io/LLM_DAG4MultiRobot). Aucun partenariat industriel ni timeline de déploiement n'est mentionné : il s'agit d'une contribution de recherche, pas d'un produit.

UELes intégrateurs européens de flottes multi-robots (logistique, assemblage automatisé) pourraient bénéficier de ce framework open-source, mais aucun acteur ou déploiement européen n'est impliqué à ce stade.

RecherchePaper

1 source

Adaptation de la planification avec pensées vision-langage entrelacées

40

3arXiv cs.RO

Adaptation de la planification avec pensées vision-langage entrelacées

Une équipe de recherche présente APIVOT (Adaptive Planning with Interleaved Vision-Language Thoughts), un planificateur pour robots basé sur un modèle vision-langage (VLM), détaillé dans un article publié sur arXiv le 8 juillet 2026 (référence 2607.08024v1). Le système cible la planification à long horizon, c'est-à-dire des tâches robotiques composées de plusieurs étapes successives, comme des scénarios de cuisine impliquant la manipulation d'objets dans un espace contraint. Sa particularité est d'alterner de façon adaptative entre deux types de raisonnement: du texte pour décomposer les objectifs, sélectionner les objets pertinents et séquencer les actions, et des représentations visuelles générées pour imaginer les états futurs de la scène et vérifier en interne si un plan est géométriquement réalisable, notamment en cas d'espace libre limité ou de risque de collision entre objets. Sur des tâches de cuisine à long horizon, APIVOT surpasse à la fois des VLM généralistes et les frameworks de planification existants, avec l'écart de performance le plus marqué dans les environnements les plus contraints spatialement. Ce résultat s'inscrit dans un débat central pour l'industrie robotique: les modèles vision-langage-action (VLA) et les grands VLM généralistes savent-ils vraiment raisonner sur la géométrie d'une scène, ou se contentent-ils d'un raisonnement sémantique de surface qui échoue dès que l'espace se complique. En montrant qu'un module de vérification visuelle interne améliore concrètement le taux de succès et l'efficacité du raisonnement, APIVOT apporte un argument en faveur d'architectures hybrides plutôt que de VLM purement textuels pour la planification robotique, un enjeu direct pour les intégrateurs qui déploient des bras ou robots mobiles autonomes dans des environnements encombrés. L'article se positionne explicitement par rapport aux VLM généralistes et aux frameworks de planification antérieurs, utilisés comme lignes de base de comparaison, sans toutefois nommer de plateforme robotique commerciale précise ni d'acteur industriel. Il s'agit à ce stade d'une contribution de recherche évaluée en simulation ou en environnement contrôlé de cuisine, sans indication de déploiement produit ni de partenariat industriel annoncé; les auteurs présentent le "modality selection" adaptatif comme la piste principale à explorer pour les futurs systèmes de planification robotique.

RecherchePaper

1 source

SAGAS : assemblage par graphe sémantique pour la planification hors ligne en logique temporelle

35

4arXiv cs.RO

SAGAS : assemblage par graphe sémantique pour la planification hors ligne en logique temporelle

Des chercheurs ont déposé sur arXiv (référence 2512.00775, version 2, 2025) un cadre baptisé SAGAS (Semantic-Aware Graph-Assisted Stitching) pour la planification robotique à long horizon à partir de données hors-ligne uniquement. Le problème ciblé : piloter un agent pour exécuter des tâches complexes décrites en logique temporelle linéaire (LTL), un formalisme mathématique exprimant des séquences de conditions du type "atteindre A, puis B, tout en évitant C", sans modèle de dynamique, sans démonstrations spécifiques à la tâche, et sans interaction en ligne avec l'environnement. SAGAS apprend deux composants offline à partir de fragments de trajectoires hétérogènes : un graphe latent d'atteignabilité réutilisable, et un exécuteur conditionné sur des objectifs figé après l'entraînement. Pour chaque nouvelle formule LTL au moment du test, le système augmente ce graphe avec des propositions sémantiques, puis applique une recherche en produit de Büchi pour synthétiser un plan de waypoints "prefix-suffix" à coût minimisé, exécuté par l'exécuteur figé. Les expériences portent sur les domaines de locomotion d'OGBench, une suite de benchmarks offline standard dans la communauté. La contribution centrale revendiquée est la généralisation zero-shot à des spécifications LTL non vues à l'entraînement, sans récompense tâche-spécifique ni réentraînement de politique. C'est une distinction structurelle face aux deux familles dominantes : la synthèse symbolique model-based exige un système de transitions étiqueté précis, difficile à construire sur du matériel réel, tandis que les méthodes d'apprentissage par renforcement supposent généralement une interaction en ligne ou des démonstrations dédiées. SAGAS déplace le raisonnement propre à chaque formule vers une augmentation de graphe et une recherche symbolique au temps d'inférence, découplant ainsi la capacité de généralisation du processus d'entraînement. À noter : les validations sont entièrement simulées sur OGBench ; le gap sim-to-real n'est pas adressé, ce qui limite la portée industrielle immédiate. La planification LTL en robotique mobilise un nombre croissant d'équipes, portée par le besoin de comportements vérifiables formellement sur des robots industriels et de service. Les approches concurrentes couvrent un spectre large : planification par diffusion (Diffuser, Decision Diffuser), politiques conditionnées par langage naturel via des VLA (vision-language-action models), et combinaisons de model checking avec du renforcement offline sur D4RL (IQL, CQL). SAGAS occupe la niche "offline + symbolique + zero-shot LTL", encore peu exploitée. Aucun déploiement matériel ni partenariat industriel n'est annoncé ; les suites logiques seraient une validation sur plateforme physique et une extension à des environnements à espace d'état plus riche.

RecherchePaper

1 source

Planification POMDP en ligne vectorisée

À lire aussi

VOiLA : planification en ligne vectorisée avec modèle de diffusion pour agents POMDP

OSDAG : planification en ligne pour une collaboration multi-robots efficace

Adaptation de la planification avec pensées vision-langage entrelacées

SAGAS : assemblage par graphe sémantique pour la planification hors ligne en logique temporelle