Aller au contenu principal
DIFF-IPPO : planification de trajectoires informatives par diffusion avec cartes de croyance en vocabulaire ouvert
RecherchearXiv cs.RO4h

DIFF-IPPO : planification de trajectoires informatives par diffusion avec cartes de croyance en vocabulaire ouvert

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2606.16780) DIFF-IPPO, une pipeline combinant un générateur de cartes de croyance à vocabulaire ouvert avec un planificateur basé sur la diffusion, pour orchestrer des trajectoires globales de drones en exploration autonome. Le système produit des trajectoires qui concentrent la couverture sensorielle sur les zones à haute probabilité d'intérêt, atteignant des scores de détection normalisés entre 81,49 % et 86,55 % selon les scénarios de dataset testés. La validation s'appuie sur un scénario simulé de recherche et sauvetage : une flotte de cinq drones, en mode de génération de trajectoires conditionnée par les cartes de croyance en batch, localise un bâtiment en feu parmi plusieurs candidats en 3,5 minutes en moyenne.

L'apport principal de DIFF-IPPO est d'appliquer les modèles de diffusion à la planification de trajectoires informatives (IPP) conditionnée sur des distributions non-gaussiennes et multimodales. La planification IPP classique repose typiquement sur des processus gaussiens, inadaptés aux cartes de croyance complexes produites par la perception sémantique à vocabulaire ouvert, du type de celles issues de modèles vision-langage comme CLIP. En permettant un conditionnement direct sur ces représentations riches, l'approche ouvre des perspectives pour les missions d'inspection industrielle, la surveillance environnementale continue, ou la recherche et sauvetage, en réduisant le temps de détection sans exiger une couverture exhaustive de la zone. Pour un intégrateur de systèmes multi-drones, c'est un signal intéressant : la génération de trajectoires globales en batch, plutôt que la planification myope, devient praticable avec des perceptions à vocabulaire libre.

L'IPP est un axe de recherche actif où robots et drones doivent planifier des trajectoires maximisant le gain d'information ou la probabilité de détection. Les méthodes traditionnelles peinent face aux distributions multimodales ; les planificateurs par diffusion, déjà adoptés en robotique mobile et manipulation (DiffusionPolicy, Diffuser), n'avaient pas encore été appliqués à l'IPP global sur cartes sémantiques. DIFF-IPPO comble ce manque, mais la validation reste entièrement en simulation, un gap sim-to-real non encore résolu. Les scénarios multi-agents à cinq drones demandent à être confirmés sur plateforme physique, et la robustesse face à des cartes de croyance bruitées ou incomplètes reste une question ouverte pour les prochaines étapes expérimentales.

Dans nos dossiers

À lire aussi

SPADE : planification de trajectoires guidée par croquis et augmentée par des experts en diffusion
1arXiv cs.RO 

SPADE : planification de trajectoires guidée par croquis et augmentée par des experts en diffusion

Une équipe de chercheurs a publié sur arXiv (référence 2506.03512) un framework baptisé SPADE, pour Sketch-guided Path Planning Augmented with Diffusion Experts, destiné à améliorer la planification de trajectoires pour les robots mobiles autonomes (AMR). Le système repose sur deux contributions distinctes : un outil d'annotation repensé de zéro sur ROS 2, permettant une collecte de démonstrations expertes plus robuste, et une stratégie d'entraînement inédite qui intègre une augmentation par diffusion dans des modèles de clonage comportemental (behavioral cloning). Sur les métriques publiées, SPADE affiche une erreur de pose absolue (APE) inférieure de 39,1 % et une distance FID (Fréchet Inception Distance) réduite de 33,5 % par rapport aux méthodes de référence, avec 93,8 % de paramètres entraînables en moins. Ce résultat est notable parce qu'il attaque un compromis longtemps considéré comme structurel dans le domaine : les modèles de diffusion généralisent bien à des environnements non vus mais sont trop lents pour un déploiement embarqué en temps réel, tandis que les modèles de clonage comportemental légers s'exécutent rapidement mais peinent à sortir de leur distribution d'entraînement. SPADE prétend combiner les deux propriétés sans sacrifier l'une pour l'autre, ce qui, si confirmé sur des benchmarks tiers, représenterait un levier direct pour les intégrateurs d'AMR en logistique et en industrie manufacturière. La réduction drastique du nombre de paramètres ouvre également la voie à un déploiement sur du matériel embarqué contraint. Les approches actuelles de planification avec préférences humaines s'appuient typiquement soit sur du reward engineering manuel, soit sur des solutions matérielles lourdes. Le clonage comportemental via imitation learning a émergé récemment comme alternative, avec des travaux de référence que SPADE cite sans les nommer dans l'abstract. L'outil d'annotation basé sur ROS 2 adresse spécifiquement le problème de la qualité des démonstrations, souvent le maillon faible des pipelines d'imitation learning. Il s'agit pour l'instant d'un preprint sans évaluation indépendante publiée ; les ablations présentées dans l'article restent auto-évaluées par les auteurs, ce qui impose une lecture critique avant toute intégration dans un pipeline de production.

RecherchePaper
1 source
Optimisation des arbres de trajectoires dans l'espace des croyances : de la commande prédictive à la planification de tâches et de mouvements
2arXiv cs.RO 

Optimisation des arbres de trajectoires dans l'espace des croyances : de la commande prédictive à la planification de tâches et de mouvements

Des chercheurs proposent, dans un preprint arXiv soumis début mai 2026 (arXiv:2605.01860), de planifier des trajectoires arborescentes (trajectory-trees) dans l'espace des croyances (belief space) plutôt que les trajectoires séquentielles classiques. Quand un robot évolue en environnement partiellement observable, la trajectoire optimale dépend d'observations futures encore inconnues: les trajectory-trees branchent à chaque point où l'état de croyance est susceptible de diverger en scénarios distincts. Le papier présente deux contributions: un contrôleur prédictif partiellement observable (PO-MPC) à branchement unique, optimisé par un algorithme parallélisé baptisé D-AuLa (Distributed Augmented Lagrangian) conçu pour satisfaire les contraintes temps-réel du MPC; et un planificateur tâche-et-mouvement (PO-LGP) combinant arbres de décision symboliques et trajectory-trees cinématiques, en étendant le cadre Logic-Geometric-Programming (LGP) aux problèmes partiellement observables. Les validations expérimentales portent sur la conduite autonome pour le MPC et des scénarios de manipulation robotique pour le TAMP. L'enjeu industriel est direct: les environnements réels sont rarement entièrement observables. Un bras triant des pièces dont l'orientation n'est connue qu'après préhension, ou un AGV naviguant en zone d'incertitude sensorielle, nécessitent précisément ce type de planification contingente. Les trajectoires séquentielles obligent le robot à choisir un plan unique à l'avance, ce qui se traduit par des comportements sous-optimaux ou des replanifications coûteuses. L'approche PO-MPC réduit les coûts de contrôle en anticipant les branches d'observation possibles; PO-LGP génère des politiques d'exploration utilisables comme macro-actions dans un plan global. D-AuLa répond à l'objection classique contre la planification en espace de croyance: sa complexité computationnelle prohibitive pour le temps-réel, en exploitant la décomposabilité du problème pour paralléliser l'optimisation. Le cadre LGP étendu par ces travaux a été développé par le groupe de Marc Toussaint (TU Berlin), et constitue l'une des approches TAMP les plus rigoureuses pour la manipulation multi-étapes. La planification en POMDP (Partially Observable Markov Decision Processes) est un domaine actif depuis les années 1990, mais son couplage avec le contrôle continu et la planification symbolique reste un défi ouvert. Des approches concurrentes basées sur l'apprentissage par renforcement (notamment les méthodes VLA et politiques diffusion) ou sur des planificateurs sampling-based adressent des problèmes voisins avec des compromis différents en matière de généralisation et de garanties formelles. Les auteurs reconnaissent eux-mêmes que la méthode est validée sur des belief states de taille restreinte et exclusivement en simulation; la prochaine étape naturelle est une validation hardware sur robots réels avec perception embarquée et latences de capteurs.

UELes travaux étendent le cadre LGP développé par le groupe de Marc Toussaint à TU Berlin, consolidant le leadership académique européen en planification tâche-et-mouvement rigoureuse pour la manipulation robotique multi-étapes.

RecherchePaper
1 source
Planification de mouvement multi-robots décentralisée par diffusion informée par simulation
3arXiv cs.RO 

Planification de mouvement multi-robots décentralisée par diffusion informée par simulation

Des chercheurs présentent SID (Simulation-Informed Diffusion), un cadre décentralisé de planification de mouvement pour flottes multi-robots, publié sur arXiv (2605.27697) en mai 2026. Le problème ciblé est fondamental en robotique mobile collaborative : chaque robot doit générer des trajectoires sans collision à partir de ses seules observations locales, sans capteur global ni communication fiable. L'approche repose sur des modèles de diffusion sensibles aux contraintes (CADM, Constraint-Aware Diffusion Models) : dans une première passe, CADM simule les trajectoires futures des robots voisins à partir de leurs états observés ; dans une seconde passe, le même modèle planifie la trajectoire propre de chaque robot sous contraintes de sécurité issues de ces simulations. Un mécanisme de communication minimaliste complète le dispositif, ne déclenchant la coordination qu'en zones de forte congestion. Les expériences montrent que SID surpasse les méthodes de référence en termes d'efficacité de planification et de respect des contraintes, et passe à l'échelle jusqu'à 108 robots simultanés évoluant parmi 160 obstacles. La limite adressée est bien documentée dans les systèmes AMR industriels : planificateurs classiques (RVO, ORCA) et approches d'apprentissage raisonnent tous sur un instantané statique de l'environnement, ce qui devient un goulot d'étranglement au-delà d'une vingtaine d'agents en densité élevée. L'apport de SID est de traiter prédiction des voisins et planification propre comme un problème unifié, résolu par le même modèle de diffusion, évitant ainsi la propagation d'erreurs entre modules séparés. La communication conditionnelle représente également un avantage pratique pour les déploiements sur réseaux contraints, un point d'intérêt direct pour les intégrateurs logistiques opérant des flottes AMR à grande échelle. Les modèles de diffusion appliqués à la robotique connaissent un essor marqué depuis 2024, avec des travaux comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ayant démontré leur efficacité pour la manipulation. SID s'inscrit dans cette tendance mais cible la coordination décentralisée, angle moins couvert que la manipulation. La compétition directe inclut les approches MARL (multi-agent reinforcement learning) et les planificateurs hybrides comme PRIMAL ou DHC. À ce stade, SID reste une preuve de concept en simulation ; aucun déploiement sur hardware physique n'est annoncé. La prochaine étape naturelle serait une validation sur AMR réels en conditions d'entrepôt, qui constituerait le vrai test du sim-to-real gap encore ouvert pour ce type d'approche générative.

RecherchePaper
1 source
Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes
4arXiv cs.RO 

Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.08725) une méthode de planification de trajectoire en temps réel pour la téleopération sans collision de bras manipulateurs. Le problème central : en téleopération, l'opérateur ne contrôle que la pose de l'effecteur terminal (position et orientation de l'outil), sans piloter individuellement les articulations. Cela provoque régulièrement des auto-collisions du bras sur lui-même ou des collisions avec les obstacles de l'environnement de travail. L'approche proposée reformule les contraintes d'évitement de collision en les rendant différentiables via la dualité en optimisation convexe, une formulation récente adaptée ici au contexte de la téleopération. Le robot est représenté géométriquement par des capsules (cylindres à extrémités hémisphériques), l'environnement par des polytopes. La méthode a été validée en simulation sur des scénarios à nombre variable d'obstacles, puis testée physiquement sur un bras UR5e de Universal Robots dans une session de téleopération réelle. Les résultats indiquent des temps de calcul inférieurs aux méthodes de référence, tout en autorisant une modélisation géométrique plus fidèle, produisant des trajectoires plus lisses et garantissant l'absence de collision. L'enjeu industriel est direct : les approches existantes contraignent les développeurs à choisir entre précision géométrique et performance de calcul. Approximer robot et obstacles par des sphères simplifie la différentiabilité mais introduit des marges de sécurité artificiellement larges, restreignant l'espace de travail utile. À l'inverse, approximer les dérivées dégrade la convergence du solveur et augmente la latence, incompatible avec les exigences temps réel de la téleopération. En utilisant la dualité convexe, ce travail contourne les deux compromis simultanément. Pour un intégrateur déployant des cellules robotisées téléopérées, cela représente potentiellement moins de zones interdites inutiles et une meilleure réactivité du système. La téleopération connaît un regain d'intérêt important depuis 2023, portée par les besoins en collecte de données pour l'apprentissage par imitation dans les robots humanoïdes et par les applications en environnements dangereux ou médicaux. Les méthodes concurrentes incluent les contrôleurs réactifs basés sur des champs de potentiel, les planificateurs par échantillonnage (RRT, CHOMP) et les approches de contrôle optimal à horizon glissant avec modèles en sphères. L'approche ici, fondée sur la programmation différentiable et les contraintes duales convexes, s'inscrit dans une tendance plus large d'intégration des outils d'optimisation différentiable dans la robotique de manipulation. Le travail est un preprint non encore évalué par les pairs ; les prochaines étapes probables concernent l'extension à des configurations à plus grand nombre de degrés de liberté et à des environnements dynamiques.

UEApplicable aux intégrateurs européens déployant des cellules téléopérées (chirurgie, environnements dangereux), mais aucun acteur FR/EU n'est directement impliqué dans ce preprint.

RecherchePaper
1 source