
Planification du mouvement multi-robots à partir de la vision et du langage par diffusion inspirée de la chaleur
Des chercheurs ont présenté LHD (Language-conditioned Heat-inspired Diffusion), un framework de planification de mouvement multi-robots publié sur arXiv (réf. 2512.13090v2). Le système génère, en réponse à des commandes en langage naturel, des trajectoires sans collision pour plusieurs robots opérant simultanément dans un espace partagé, sans nécessiter de représentation explicite de l'environnement à l'inférence. LHD combine les priors sémantiques de CLIP, le modèle vision-langage d'OpenAI, avec un noyau de diffusion inspiré de l'équation de la chaleur. Ce noyau agit comme un biais inductif physique : en simulant la propagation thermique depuis les positions cibles, il délimite naturellement l'espace atteignable par chaque robot, guidant la planification à l'intérieur de la zone effectivement accessible. Les évaluations menées sur des environnements simulés inspirés du monde réel et des expériences en conditions physiques réelles montrent des gains en taux de succès et une réduction de la latence de planification par rapport aux planificateurs par diffusion antérieurs.
L'enjeu industriel est direct : des systèmes multi-robots capables d'interpréter des instructions verbales sans reconfiguration manuelle représentent un levier clé pour les entrepôts et les lignes de production flexible. Les approches par diffusion existantes souffraient de deux limites bloquantes pour le déploiement réel : un coût computationnel élevé à l'inférence et une dépendance à une cartographie explicite des obstacles. LHD adresse les deux simultanément. Le système gère également les scénarios hors distribution en termes d'accessibilité physique : si une cible est hors de portée, il redirige le robot vers l'alternative accessible la plus proche sémantiquement, exactement le type de robustesse attendu en conditions industrielles. Ces résultats renforcent l'hypothèse que des VLA (Vision-Language-Action) peuvent opérer sans représentation géométrique explicite, sans constituer pour autant une preuve de déploiement à l'échelle commerciale.
Ce travail s'inscrit dans une vague de planificateurs neuronaux multi-robots apparue depuis 2023, en concurrence directe avec les approches MAPF (Multi-Agent Path Finding) classiques et les méthodes d'apprentissage par renforcement multi-agent comme QMIX ou MAPPO. L'intégration de CLIP distingue LHD par son conditionnement sémantique flexible, là où la plupart des approches concurrentes raisonnent en coordonnées ou en graphes discrets. Aucun acteur industriel ou institutionnel européen n'est associé à cette publication, dont les affiliations d'équipe ne sont pas précisées dans l'abstract arXiv. Une page projet accompagnée de démos vidéo et de code est accessible à jebeom.github.io/lhdprojectpage/, mais des intégrations avec des flottes AMR commerciales restent à démontrer.
Dans nos dossiers




