
AnyGoal : exploration multi-agents guidée par vision-langage pour une navigation permanente sans entraînement
Une équipe de chercheurs a publié sur arXiv (arXiv:2606.13878) AnyGoal, une architecture multi-agents de navigation en intérieur conçue pour fonctionner sans entraînement préalable sur les scènes cibles. Le système coordonne plusieurs robots via une carte partagée appelée Bayesian Value Map (BVM), une grille 2D maintenant pour chaque pixel une distribution gaussienne (μ, σ²) représentant la pertinence estimée de l'objectif. Cette carte est mise à jour par fusion pondérée des scores issus d'un modèle vision-langage (VLM), projetés via un masque conique de profondeur, et n'est jamais remise à zéro entre les sous-tâches, permettant une accumulation d'indices dite « lifelong ». Sur le benchmark GOAT-Bench (360 épisodes, 2 669 sous-tâches, configuration physique stricte : pas discrets de 0,25 m, champ de vision horizontal de 42°, sans téléportation), la version bi-agent atteint 52,4 % de taux de réussite par sous-tâche (Subtask SR) pour un SPL de 12,7 %, contre 41,9 % en configuration mono-agent.
Ce résultat représente un gain de +27,5 points de pourcentage sur Modular GOAT (24,9 %), le système modulaire de référence précédent, ce qui est substantiel dans un domaine où les progrès se mesurent souvent en quelques points. L'intérêt principal réside dans l'approche sans entraînement : là où la plupart des politiques de navigation end-to-end se dégradent dès qu'elles rencontrent des scènes, des catégories d'objets ou des modalités d'objectif hors distribution, AnyGoal s'appuie sur la généralisation intrinsèque du VLM. L'ablation à quatre variables de perception révèle que l'intégration de détecteurs open-vocabulary déplace le goulot d'étranglement : la cause principale d'échec n'est plus l'exploration, mais la vérification de l'objectif, un déplacement de problème qui oriente clairement les futurs travaux.
AnyGoal s'inscrit dans la lignée des travaux tentant de remplacer les pipelines fermés (détection à ensemble d'objets fixe, comme dans Modular GOAT) et les mémoires 3D denses (comme 3D-Mem, coûteuses à maintenir et sensibles au point de vue) par des représentations légères pilotées par le langage. La coordination multi-agents repose ici sur un allocateur glouton avec pénalité de séparation spatiale et hysteresis d'engagement, sans contrôleur centralisé, ce qui simplifie le déploiement. L'architecture reste à ce stade une contribution de recherche publiée sur preprint ; aucun pilote industriel ni déploiement réel n'est annoncé. Les prochaines étapes naturelles concernent la robustesse du VLM à la vérification de but et l'extension à des environnements semi-structurés ou extérieurs, où la généralisation sera encore plus mise à l'épreuve.
Dans nos dossiers




