RecherchearXiv cs.RO 16 juin 2026

Planification du mouvement multi-robots à partir de la vision et du langage par diffusion inspirée de la chaleur

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont présenté LHD (Language-conditioned Heat-inspired Diffusion), un framework de planification de mouvement multi-robots publié sur arXiv (réf. 2512.13090v2). Le système génère, en réponse à des commandes en langage naturel, des trajectoires sans collision pour plusieurs robots opérant simultanément dans un espace partagé, sans nécessiter de représentation explicite de l'environnement à l'inférence. LHD combine les priors sémantiques de CLIP, le modèle vision-langage d'OpenAI, avec un noyau de diffusion inspiré de l'équation de la chaleur. Ce noyau agit comme un biais inductif physique : en simulant la propagation thermique depuis les positions cibles, il délimite naturellement l'espace atteignable par chaque robot, guidant la planification à l'intérieur de la zone effectivement accessible. Les évaluations menées sur des environnements simulés inspirés du monde réel et des expériences en conditions physiques réelles montrent des gains en taux de succès et une réduction de la latence de planification par rapport aux planificateurs par diffusion antérieurs.

L'enjeu industriel est direct : des systèmes multi-robots capables d'interpréter des instructions verbales sans reconfiguration manuelle représentent un levier clé pour les entrepôts et les lignes de production flexible. Les approches par diffusion existantes souffraient de deux limites bloquantes pour le déploiement réel : un coût computationnel élevé à l'inférence et une dépendance à une cartographie explicite des obstacles. LHD adresse les deux simultanément. Le système gère également les scénarios hors distribution en termes d'accessibilité physique : si une cible est hors de portée, il redirige le robot vers l'alternative accessible la plus proche sémantiquement, exactement le type de robustesse attendu en conditions industrielles. Ces résultats renforcent l'hypothèse que des VLA (Vision-Language-Action) peuvent opérer sans représentation géométrique explicite, sans constituer pour autant une preuve de déploiement à l'échelle commerciale.

Ce travail s'inscrit dans une vague de planificateurs neuronaux multi-robots apparue depuis 2023, en concurrence directe avec les approches MAPF (Multi-Agent Path Finding) classiques et les méthodes d'apprentissage par renforcement multi-agent comme QMIX ou MAPPO. L'intégration de CLIP distingue LHD par son conditionnement sémantique flexible, là où la plupart des approches concurrentes raisonnent en coordonnées ou en graphes discrets. Aucun acteur industriel ou institutionnel européen n'est associé à cette publication, dont les affiliations d'équipe ne sont pas précisées dans l'abstract arXiv. Une page projet accompagnée de démos vidéo et de code est accessible à jebeom.github.io/lhdprojectpage/, mais des intégrations avec des flottes AMR commerciales restent à démontrer.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Modélisation par diffusion optimale pour la planification de mouvement multi-robots

Des chercheurs présentent MDOC (Model-Based Diffusion Optimal Control), un planificateur de trajectoires pour flottes multi-robots fondé sur la diffusion, décrit dans un preprint publié sur arXiv (2607.12423). Contrairement aux approches récentes qui traitent la planification de trajectoires comme un problème d'inférence probabiliste et apprennent leurs fonctions de score à partir de larges jeux de données de démonstration, MDOC s'appuie directement sur des modèles de dynamique connus, sans données d'entraînement. Sa mécanique de sécurité combine ces modèles avec des projections contraintes par des Control Barrier Functions (CBF), et le système passe à l'échelle multi-robots grâce à la méthode de Conflict-Based Search (CBS), qui résout les conflits de trajectoires entre agents de façon hiérarchique. Les auteurs rapportent, en simulation, de meilleures performances que des planificateurs de référence en termes d'efficacité d'échantillonnage, de fluidité géométrique des trajectoires et de taux de réussite, tout en réduisant le temps de calcul et en garantissant des trajectoires sans collision. L'enjeu dépasse l'exercice académique : la planification de mouvement multi-robots en environnement continu se heurte à une explosion combinatoire de l'espace des trajectoires conjointes, et les méthodes par diffusion existantes peinent à garantir rigoureusement la faisabilité dynamique et les contraintes de sécurité strictes lors de l'échantillonnage. En s'affranchissant de la dépendance aux données de démonstration tout en conservant des garanties formelles de sécurité, MDOC répond à un frein réel à l'adoption industrielle de ces techniques pour des flottes d'AMR ou de robots collaboratifs, où l'absence de collision n'est pas négociable. Le travail s'inscrit dans la lignée des approches récentes qui recadrent la planification de trajectoires comme un problème d'inférence par diffusion, en s'en distinguant par son caractère "model-based" plutôt que piloté par les données. Il se positionne aussi comme une alternative aux méthodes classiques d'optimisation de trajectoire et de recherche multi-agents. À ce stade, les résultats restent limités à des expériences en simulation ; aucun déploiement sur robots physiques n'est mentionné, ce qui en fait une contribution méthodologique à confirmer avant tout usage en conditions réelles.

RecherchePaper

1 source

2arXiv cs.RO

Planification de mouvement multi-robots décentralisée par diffusion informée par simulation

Des chercheurs présentent SID (Simulation-Informed Diffusion), un cadre décentralisé de planification de mouvement pour flottes multi-robots, publié sur arXiv (2605.27697) en mai 2026. Le problème ciblé est fondamental en robotique mobile collaborative : chaque robot doit générer des trajectoires sans collision à partir de ses seules observations locales, sans capteur global ni communication fiable. L'approche repose sur des modèles de diffusion sensibles aux contraintes (CADM, Constraint-Aware Diffusion Models) : dans une première passe, CADM simule les trajectoires futures des robots voisins à partir de leurs états observés ; dans une seconde passe, le même modèle planifie la trajectoire propre de chaque robot sous contraintes de sécurité issues de ces simulations. Un mécanisme de communication minimaliste complète le dispositif, ne déclenchant la coordination qu'en zones de forte congestion. Les expériences montrent que SID surpasse les méthodes de référence en termes d'efficacité de planification et de respect des contraintes, et passe à l'échelle jusqu'à 108 robots simultanés évoluant parmi 160 obstacles. La limite adressée est bien documentée dans les systèmes AMR industriels : planificateurs classiques (RVO, ORCA) et approches d'apprentissage raisonnent tous sur un instantané statique de l'environnement, ce qui devient un goulot d'étranglement au-delà d'une vingtaine d'agents en densité élevée. L'apport de SID est de traiter prédiction des voisins et planification propre comme un problème unifié, résolu par le même modèle de diffusion, évitant ainsi la propagation d'erreurs entre modules séparés. La communication conditionnelle représente également un avantage pratique pour les déploiements sur réseaux contraints, un point d'intérêt direct pour les intégrateurs logistiques opérant des flottes AMR à grande échelle. Les modèles de diffusion appliqués à la robotique connaissent un essor marqué depuis 2024, avec des travaux comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ayant démontré leur efficacité pour la manipulation. SID s'inscrit dans cette tendance mais cible la coordination décentralisée, angle moins couvert que la manipulation. La compétition directe inclut les approches MARL (multi-agent reinforcement learning) et les planificateurs hybrides comme PRIMAL ou DHC. À ce stade, SID reste une preuve de concept en simulation ; aucun déploiement sur hardware physique n'est annoncé. La prochaine étape naturelle serait une validation sur AMR réels en conditions d'entrepôt, qui constituerait le vrai test du sim-to-real gap encore ouvert pour ce type d'approche générative.

RecherchePaper

1 source

3arXiv cs.RO

Planification du mouvement multi-robots par modèle de diffusion guidé par apprentissage par renforcement multi-agents

Une équipe de chercheurs propose, dans un préprint arXiv (2606.00933) publié début juin 2026, un cadre de planification de trajectoires pour flottes de robots mobiles combinant modèles de diffusion génératifs et apprentissage par renforcement multi-agents (MARL). Concrètement, chaque robot génère indépendamment des trajectoires candidates via un modèle de diffusion entraîné sur des données mono-agent, puis une fonction de valeur centralisée, apprise par MARL, oriente le processus de débruitage par gradient pour réduire les conflits entre agents. Ce mécanisme dit d'"exponential tilting" pousse la distribution de débruitage vers les trajectoires associées au meilleur retour collectif attendu. Évalué en simulation sur un labyrinthe avec quatre robots mobiles, le système réduit le taux d'interférence inter-agents de 55,4 % à 41,8 %, sans nécessiter de ré-entraînement du modèle génératif ni de planification jointe centralisée. Ce résultat attaque directement le compromis historique entre planification centralisée (précise mais peu scalable à mesure que la flotte grossit) et planification décentralisée (scalable mais aveugle aux autres agents). Le fait que la coordination soit injectée via un signal de guidage externe sans modifier le planificateur diffusion de base ouvre la voie à des architectures modulaires : on entraîne une fois le modèle de trajectoire mono-agent, puis on greffe la coordination selon l'environnement de déploiement. Pour les intégrateurs de systèmes multi-robots en entrepôt ou en manufacture, cela suggère qu'un découplage entre planification locale et coordination globale est techniquement praticable, ce qui simplifierait la mise à l'échelle des flottes hétérogènes sans refonte complète du pipeline. Le domaine est depuis longtemps dominé par des méthodes à base de graphes comme CBS (Conflict-Based Search) ou des approches réactives décentralisées comme ORCA, avec des tentatives d'apprentissage profond restées limitées en conditions réelles. L'application des modèles de diffusion à la génération de trajectoires robotiques constitue un courant émergent, illustré notamment par Diffusion Policy (Chi et al., 2023) en manipulation, mais rarement couplé au MARL pour la coordination de flotte. Ce travail reste pour l'instant une preuve de concept en simulation sur quatre robots dans un environnement simple, et la généralisation à des scènes dynamiques, à des flottes plus larges ou à des robots hétérogènes demeure un défi non adressé. Les prochaines étapes naturelles incluent la validation sur hardware réel et la confrontation aux benchmarks de référence du MAPF (Multi-Agent Path Finding).

RecherchePaper

1 source

4arXiv cs.RO

Connectivité multi-robots : maintien et récupération pour la planification de mouvement

Des chercheurs proposent un nouvel algorithme de planification de trajectoire pour flottes de robots, baptisé MPC-CLF-CBF, conçu pour maintenir la connectivité du réseau de communication entre robots tout en évitant les obstacles. Décrit dans une version révisée d'un article arXiv (2510.03504v3), ce planificateur en temps réel combine fonctions barrières de contrôle d'ordre élevé (CBF) et fonctions de Lyapunov de contrôle (CLF) au sein de trajectoires basées sur des courbes de Bézier, calculant simultanément trajectoire et commandes. Contrairement aux contrôleurs réactifs classiques à base de CBF, qui préservent la connectivité quand elle est déjà assurée mais se bloquent fréquemment en environnement encombré, cette approche sait aussi restaurer la connectivité depuis une configuration initialement déconnectée ou après une séparation temporaire causée par un obstacle. En simulation avec 4 à 12 robots et une densité d'obstacles de 20%, le système maintient un graphe connecté entre 95,8% et 100% du temps, contre seulement 48,9% à 61,3% pour la méthode de référence MPC-CBF, sans aucune collision observée. Les auteurs ont aussi validé l'approche physiquement sur un essaim de 8 nano-quadricoptères Crazyflie. Pour l'industrie robotique, ce travail s'attaque à un verrou concret des flottes multi-robots : maintenir un réseau de communication fonctionnel dans un environnement encombré, sans sacrifier la capacité de déplacement de la flotte. Le phénomène de blocage (deadlock) des contrôleurs CBF classiques en milieu cluttered est un problème connu et documenté dans la littérature ; le proposer comme point de comparaison chiffré, avec un écart net (quasi 100% contre environ 50-60%), donne une mesure concrète du gain. La capacité du planificateur à produire des dérivées analytiques continues le rend directement applicable aux systèmes différentiellement plats comme les drones quadrirotors, ce qui ouvre la voie à des essaims aériens plus robustes pour l'inspection, la surveillance ou la recherche-sauvetage en zones GPS-dégradées où la connectivité inter-robots est critique. Le sujet s'inscrit dans une lignée de recherche active sur les CBF appliqués à la coordination multi-agents, où la difficulté centrale reste de concilier sécurité (éviter collisions et obstacles), connectivité du réseau et progression réelle vers un objectif. La comparaison directe avec un MPC-CBF plus classique sert de baseline pour situer l'apport du couplage CLF. La validation matérielle sur banc de 8 Crazyflie, bien que modeste en échelle, apporte une preuve de concept au-delà de la simulation, un point souvent absent des publications purement théoriques sur ce sujet.

RecherchePaper

1 source