Planification du mouvement multi-robots par modèle de diffusion guidé par apprentissage par renforcement multi-agents
Une équipe de chercheurs propose, dans un préprint arXiv (2606.00933) publié début juin 2026, un cadre de planification de trajectoires pour flottes de robots mobiles combinant modèles de diffusion génératifs et apprentissage par renforcement multi-agents (MARL). Concrètement, chaque robot génère indépendamment des trajectoires candidates via un modèle de diffusion entraîné sur des données mono-agent, puis une fonction de valeur centralisée, apprise par MARL, oriente le processus de débruitage par gradient pour réduire les conflits entre agents. Ce mécanisme dit d'"exponential tilting" pousse la distribution de débruitage vers les trajectoires associées au meilleur retour collectif attendu. Évalué en simulation sur un labyrinthe avec quatre robots mobiles, le système réduit le taux d'interférence inter-agents de 55,4 % à 41,8 %, sans nécessiter de ré-entraînement du modèle génératif ni de planification jointe centralisée.
Ce résultat attaque directement le compromis historique entre planification centralisée (précise mais peu scalable à mesure que la flotte grossit) et planification décentralisée (scalable mais aveugle aux autres agents). Le fait que la coordination soit injectée via un signal de guidage externe sans modifier le planificateur diffusion de base ouvre la voie à des architectures modulaires : on entraîne une fois le modèle de trajectoire mono-agent, puis on greffe la coordination selon l'environnement de déploiement. Pour les intégrateurs de systèmes multi-robots en entrepôt ou en manufacture, cela suggère qu'un découplage entre planification locale et coordination globale est techniquement praticable, ce qui simplifierait la mise à l'échelle des flottes hétérogènes sans refonte complète du pipeline.
Le domaine est depuis longtemps dominé par des méthodes à base de graphes comme CBS (Conflict-Based Search) ou des approches réactives décentralisées comme ORCA, avec des tentatives d'apprentissage profond restées limitées en conditions réelles. L'application des modèles de diffusion à la génération de trajectoires robotiques constitue un courant émergent, illustré notamment par Diffusion Policy (Chi et al., 2023) en manipulation, mais rarement couplé au MARL pour la coordination de flotte. Ce travail reste pour l'instant une preuve de concept en simulation sur quatre robots dans un environnement simple, et la généralisation à des scènes dynamiques, à des flottes plus larges ou à des robots hétérogènes demeure un défi non adressé. Les prochaines étapes naturelles incluent la validation sur hardware réel et la confrontation aux benchmarks de référence du MAPF (Multi-Agent Path Finding).
Dans nos dossiers




