RecherchearXiv cs.RO 16 juin 2026

DIFF-IPPO : planification de trajectoires informatives par diffusion avec cartes de croyance en vocabulaire ouvert

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2606.16780) DIFF-IPPO, une pipeline combinant un générateur de cartes de croyance à vocabulaire ouvert avec un planificateur basé sur la diffusion, pour orchestrer des trajectoires globales de drones en exploration autonome. Le système produit des trajectoires qui concentrent la couverture sensorielle sur les zones à haute probabilité d'intérêt, atteignant des scores de détection normalisés entre 81,49 % et 86,55 % selon les scénarios de dataset testés. La validation s'appuie sur un scénario simulé de recherche et sauvetage : une flotte de cinq drones, en mode de génération de trajectoires conditionnée par les cartes de croyance en batch, localise un bâtiment en feu parmi plusieurs candidats en 3,5 minutes en moyenne.

L'apport principal de DIFF-IPPO est d'appliquer les modèles de diffusion à la planification de trajectoires informatives (IPP) conditionnée sur des distributions non-gaussiennes et multimodales. La planification IPP classique repose typiquement sur des processus gaussiens, inadaptés aux cartes de croyance complexes produites par la perception sémantique à vocabulaire ouvert, du type de celles issues de modèles vision-langage comme CLIP. En permettant un conditionnement direct sur ces représentations riches, l'approche ouvre des perspectives pour les missions d'inspection industrielle, la surveillance environnementale continue, ou la recherche et sauvetage, en réduisant le temps de détection sans exiger une couverture exhaustive de la zone. Pour un intégrateur de systèmes multi-drones, c'est un signal intéressant : la génération de trajectoires globales en batch, plutôt que la planification myope, devient praticable avec des perceptions à vocabulaire libre.

L'IPP est un axe de recherche actif où robots et drones doivent planifier des trajectoires maximisant le gain d'information ou la probabilité de détection. Les méthodes traditionnelles peinent face aux distributions multimodales ; les planificateurs par diffusion, déjà adoptés en robotique mobile et manipulation (DiffusionPolicy, Diffuser), n'avaient pas encore été appliqués à l'IPP global sur cartes sémantiques. DIFF-IPPO comble ce manque, mais la validation reste entièrement en simulation, un gap sim-to-real non encore résolu. Les scénarios multi-agents à cinq drones demandent à être confirmés sur plateforme physique, et la robustesse face à des cartes de croyance bruitées ou incomplètes reste une question ouverte pour les prochaines étapes expérimentales.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

SPADE : planification de trajectoires guidée par croquis et augmentée par des experts en diffusion

Une équipe de chercheurs a publié sur arXiv (référence 2506.03512) un framework baptisé SPADE, pour Sketch-guided Path Planning Augmented with Diffusion Experts, destiné à améliorer la planification de trajectoires pour les robots mobiles autonomes (AMR). Le système repose sur deux contributions distinctes : un outil d'annotation repensé de zéro sur ROS 2, permettant une collecte de démonstrations expertes plus robuste, et une stratégie d'entraînement inédite qui intègre une augmentation par diffusion dans des modèles de clonage comportemental (behavioral cloning). Sur les métriques publiées, SPADE affiche une erreur de pose absolue (APE) inférieure de 39,1 % et une distance FID (Fréchet Inception Distance) réduite de 33,5 % par rapport aux méthodes de référence, avec 93,8 % de paramètres entraînables en moins. Ce résultat est notable parce qu'il attaque un compromis longtemps considéré comme structurel dans le domaine : les modèles de diffusion généralisent bien à des environnements non vus mais sont trop lents pour un déploiement embarqué en temps réel, tandis que les modèles de clonage comportemental légers s'exécutent rapidement mais peinent à sortir de leur distribution d'entraînement. SPADE prétend combiner les deux propriétés sans sacrifier l'une pour l'autre, ce qui, si confirmé sur des benchmarks tiers, représenterait un levier direct pour les intégrateurs d'AMR en logistique et en industrie manufacturière. La réduction drastique du nombre de paramètres ouvre également la voie à un déploiement sur du matériel embarqué contraint. Les approches actuelles de planification avec préférences humaines s'appuient typiquement soit sur du reward engineering manuel, soit sur des solutions matérielles lourdes. Le clonage comportemental via imitation learning a émergé récemment comme alternative, avec des travaux de référence que SPADE cite sans les nommer dans l'abstract. L'outil d'annotation basé sur ROS 2 adresse spécifiquement le problème de la qualité des démonstrations, souvent le maillon faible des pipelines d'imitation learning. Il s'agit pour l'instant d'un preprint sans évaluation indépendante publiée ; les ablations présentées dans l'article restent auto-évaluées par les auteurs, ce qui impose une lecture critique avant toute intégration dans un pipeline de production.

RecherchePaper

1 source

2arXiv cs.RO

Robots à travers différentes scènes : planification rapide et sûre de trajectoires par composition de diffusion

Une équipe de recherche présente un nouveau cadre de planification de trajectoire baptisé RSTP (diffusion composition), publié sur arXiv (2507.04384v4) avec une page projet dédiée. La méthode combine un champ d'énergie appris de façon conservative avec un processus de diffusion, ce qui permet d'intégrer plusieurs contraintes de sécurité et de cinématique sans réentraînement pour chaque nouvel environnement. Un filtre de sécurité léger est ajouté en aval pour garantir en temps réel le respect des contraintes de faisabilité cinématique. Les chercheurs ont aussi développé un pipeline de génération de données basé sur du contrôle prédictif (MPC), indépendant de la scène, pour produire à grande échelle des trajectoires d'entraînement dynamiquement réalisables. En simulation, le planificateur atteint un temps de calcul moyen de 0,21 seconde par trajectoire et un taux d'échec de seulement 0,57 %. Les tests réels ont été menés sur la plateforme robotique F1TENTH, où le système a maintenu une distance moyenne de sécurité de 0,26 mètre par rapport aux obstacles, même en présence d'incertitude des capteurs et dans des environnements dynamiques inédits. Cette avancée s'adresse directement à un problème central en robotique mobile et en navigation autonome: la difficulté de garantir simultanément vitesse de calcul, sécurité et généralisation face à des obstacles mouvants sans connaître à l'avance la scène. Les méthodes de diffusion, déjà populaires pour la génération de trajectoires en manipulation robotique et en conduite autonome, souffrent souvent d'un temps d'inférence trop long pour un usage temps réel, ou d'un manque de garanties de sécurité formelles. En démontrant un temps de planification compatible avec le temps réel tout en conservant un filtre de sécurité explicite, ce travail répond à une critique récurrente adressée aux approches génératives en robotique: leur difficulté à passer de la démonstration en simulation à un déploiement fiable sur robot physique. Le papier, une version révisée (v4) d'un article initialement soumis en juillet, s'inscrit dans la lignée des travaux combinant modèles de diffusion et planification sous contrainte, en concurrence avec des approches plus classiques de type MPC pur ou de champs de potentiel. La validation sur F1TENTH, plateforme standard de recherche en course autonome à petite échelle, ouvre la voie à des tests sur des robots de taille industrielle ou des véhicules autonomes complets, sans calendrier de déploiement commercial précisé à ce stade.

RecherchePaper

1 source

3arXiv cs.RO

LIPP : planification de trajectoire informative sensible à la charge, par échantillonnage physique

Une équipe de recherche en robotique présente LIPP (Load-aware Informative Path Planning), une nouvelle formulation de la planification de trajectoire informative pour les robots qui collectent des échantillons physiques plutôt que de simples mesures numériques comme des images ou des relevés de radiation. Le problème identifié est concret : dans les formulations classiques (C-IPP), le coût de déplacement d'un robot reste constant peu importe quand une mesure est prise, ce qui convient aux capteurs numériques mais ignore un phénomène physique réel pour les missions de prélèvement d'échantillons, où chaque échantillon collecté ajoute de la masse et alourdit le coût énergétique de tous les déplacements suivants. Les chercheurs modélisent LIPP comme un programme quadratique en nombres mixtes entiers (MIQP) qui optimise simultanément l'emplacement des visites, leur ordre, et le nombre d'échantillons prélevés à chaque site, sous une contrainte de budget énergétique. Ils démontrent aussi des bornes théoriques sur l'allongement de trajectoire de LIPP par rapport à C-IPP, et valident l'approche sur 2 000 scénarios de mission simulés. Pour les concepteurs de robots mobiles autonomes, notamment dans les missions d'exploration planétaire, de surveillance environnementale ou de prélèvement géologique, ce travail répond à une lacune pratique : ignorer le couplage entre gain d'information et coût de charge produit des plans efficaces en distance mais sous-optimaux en énergie, ce qui se traduit concrètement par moins d'échantillons collectés que ce que le budget énergétique permettrait. Les simulations montrent que l'avantage de LIPP sur les approches classiques augmente à mesure que la masse des échantillons croît, ce qui en fait un candidat pertinent pour les rovers ou drones dont la charge utile évolue significativement pendant la mission. LIPP se positionne comme une généralisation stricte du C-IPP, ce dernier étant retrouvé comme cas particulier lorsque la masse des échantillons est nulle, ce qui garantit une compatibilité avec les formulations existantes de planification de trajectoire informative. L'article, publié sur arXiv, s'inscrit dans un courant de recherche en robotique de terrain cherchant à mieux modéliser les contraintes physiques réelles des missions de collecte, un axe distinct des approches purement perceptuelles dominantes dans la littérature IPP.

RecherchePaper

1 source

4arXiv cs.RO

Optimisation des arbres de trajectoires dans l'espace des croyances : de la commande prédictive à la planification de tâches et de mouvements

Des chercheurs proposent, dans un preprint arXiv soumis début mai 2026 (arXiv:2605.01860), de planifier des trajectoires arborescentes (trajectory-trees) dans l'espace des croyances (belief space) plutôt que les trajectoires séquentielles classiques. Quand un robot évolue en environnement partiellement observable, la trajectoire optimale dépend d'observations futures encore inconnues: les trajectory-trees branchent à chaque point où l'état de croyance est susceptible de diverger en scénarios distincts. Le papier présente deux contributions: un contrôleur prédictif partiellement observable (PO-MPC) à branchement unique, optimisé par un algorithme parallélisé baptisé D-AuLa (Distributed Augmented Lagrangian) conçu pour satisfaire les contraintes temps-réel du MPC; et un planificateur tâche-et-mouvement (PO-LGP) combinant arbres de décision symboliques et trajectory-trees cinématiques, en étendant le cadre Logic-Geometric-Programming (LGP) aux problèmes partiellement observables. Les validations expérimentales portent sur la conduite autonome pour le MPC et des scénarios de manipulation robotique pour le TAMP. L'enjeu industriel est direct: les environnements réels sont rarement entièrement observables. Un bras triant des pièces dont l'orientation n'est connue qu'après préhension, ou un AGV naviguant en zone d'incertitude sensorielle, nécessitent précisément ce type de planification contingente. Les trajectoires séquentielles obligent le robot à choisir un plan unique à l'avance, ce qui se traduit par des comportements sous-optimaux ou des replanifications coûteuses. L'approche PO-MPC réduit les coûts de contrôle en anticipant les branches d'observation possibles; PO-LGP génère des politiques d'exploration utilisables comme macro-actions dans un plan global. D-AuLa répond à l'objection classique contre la planification en espace de croyance: sa complexité computationnelle prohibitive pour le temps-réel, en exploitant la décomposabilité du problème pour paralléliser l'optimisation. Le cadre LGP étendu par ces travaux a été développé par le groupe de Marc Toussaint (TU Berlin), et constitue l'une des approches TAMP les plus rigoureuses pour la manipulation multi-étapes. La planification en POMDP (Partially Observable Markov Decision Processes) est un domaine actif depuis les années 1990, mais son couplage avec le contrôle continu et la planification symbolique reste un défi ouvert. Des approches concurrentes basées sur l'apprentissage par renforcement (notamment les méthodes VLA et politiques diffusion) ou sur des planificateurs sampling-based adressent des problèmes voisins avec des compromis différents en matière de généralisation et de garanties formelles. Les auteurs reconnaissent eux-mêmes que la méthode est validée sur des belief states de taille restreinte et exclusivement en simulation; la prochaine étape naturelle est une validation hardware sur robots réels avec perception embarquée et latences de capteurs.

UELes travaux étendent le cadre LGP développé par le groupe de Marc Toussaint à TU Berlin, consolidant le leadership académique européen en planification tâche-et-mouvement rigoureuse pour la manipulation robotique multi-étapes.

RecherchePaper

1 source