Aller au contenu principal
AnyGoal : exploration multi-agents guidée par vision-langage pour une navigation permanente sans entraînement
RecherchearXiv cs.RO2h

AnyGoal : exploration multi-agents guidée par vision-langage pour une navigation permanente sans entraînement

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.13878) AnyGoal, une architecture multi-agents de navigation en intérieur conçue pour fonctionner sans entraînement préalable sur les scènes cibles. Le système coordonne plusieurs robots via une carte partagée appelée Bayesian Value Map (BVM), une grille 2D maintenant pour chaque pixel une distribution gaussienne (μ, σ²) représentant la pertinence estimée de l'objectif. Cette carte est mise à jour par fusion pondérée des scores issus d'un modèle vision-langage (VLM), projetés via un masque conique de profondeur, et n'est jamais remise à zéro entre les sous-tâches, permettant une accumulation d'indices dite « lifelong ». Sur le benchmark GOAT-Bench (360 épisodes, 2 669 sous-tâches, configuration physique stricte : pas discrets de 0,25 m, champ de vision horizontal de 42°, sans téléportation), la version bi-agent atteint 52,4 % de taux de réussite par sous-tâche (Subtask SR) pour un SPL de 12,7 %, contre 41,9 % en configuration mono-agent.

Ce résultat représente un gain de +27,5 points de pourcentage sur Modular GOAT (24,9 %), le système modulaire de référence précédent, ce qui est substantiel dans un domaine où les progrès se mesurent souvent en quelques points. L'intérêt principal réside dans l'approche sans entraînement : là où la plupart des politiques de navigation end-to-end se dégradent dès qu'elles rencontrent des scènes, des catégories d'objets ou des modalités d'objectif hors distribution, AnyGoal s'appuie sur la généralisation intrinsèque du VLM. L'ablation à quatre variables de perception révèle que l'intégration de détecteurs open-vocabulary déplace le goulot d'étranglement : la cause principale d'échec n'est plus l'exploration, mais la vérification de l'objectif, un déplacement de problème qui oriente clairement les futurs travaux.

AnyGoal s'inscrit dans la lignée des travaux tentant de remplacer les pipelines fermés (détection à ensemble d'objets fixe, comme dans Modular GOAT) et les mémoires 3D denses (comme 3D-Mem, coûteuses à maintenir et sensibles au point de vue) par des représentations légères pilotées par le langage. La coordination multi-agents repose ici sur un allocateur glouton avec pénalité de séparation spatiale et hysteresis d'engagement, sans contrôleur centralisé, ce qui simplifie le déploiement. L'architecture reste à ce stade une contribution de recherche publiée sur preprint ; aucun pilote industriel ni déploiement réel n'est annoncé. Les prochaines étapes naturelles concernent la robustesse du VLM à la vérification de but et l'extension à des environnements semi-structurés ou extérieurs, où la généralisation sera encore plus mise à l'épreuve.

Dans nos dossiers

À lire aussi

ProbeAct : récupération des échecs sans entraînement guidée par sonde dans les modèles vision-langage-action
1arXiv cs.RO 

ProbeAct : récupération des échecs sans entraînement guidée par sonde dans les modèles vision-langage-action

Une équipe de recherche a publié sur arXiv (arXiv:2606.09740) ProbeAct, un framework d'intervention à l'exécution conçu pour détecter et corriger les échecs de saisie et de placement dans les modèles Vision-Language-Action (VLA) pré-entraînés, sans modifier leurs poids ni nécessiter de démonstrations supplémentaires. Le système repose sur trois composants couplés : une sonde légère sur les états cachés du modèle qui prédit les positions 3D des objets pertinents à partir des features intermédiaires du VLA (avec suivi d'identité par algorithme hongrois pour les scènes multi-objets) ; une machine à états cinématiques agnostique à l'objet qui détecte les défaillances de saisie, de transport et de placement via les signaux internes du préhenseur et la cinématique de l'effecteur terminal ; enfin, un filtre hiérarchique par Control Barrier Function (CBF) qui encode les zones d'échecs répétés comme contraintes soft sur l'ensemble de sécurité, corrigeant minimalement les actions du VLA sans altérer son comportement nominal. Évalué sur le benchmark LIBERO-plus, ProbeAct améliore le taux de succès d'OpenVLA-OFT de 69,6 % à 74,1 %. Un gain de 4,5 points de taux de succès peut sembler modeste, mais il intervient sur un problème structurel bien identifié des VLA : leur fragilité hors distribution. Ces modèles échouent régulièrement face à des variations de luminosité, des changements de point de vue caméra, ou de légères variations d'état initial, autant de conditions triviales dans un déploiement industriel réel. L'intérêt de ProbeAct est précisément d'être plug-and-play, orthogonal aux pipelines d'entraînement existants, et applicable aussi bien aux modèles de base qu'aux versions fine-tunées. Pour un intégrateur, cela signifie un filet de sécurité superposable sur n'importe quel VLA sans coût de ré-entraînement, ce qui réduit concrètement le gap entre performance en benchmark et robustesse terrain. Les VLA ont connu une accélération notable depuis 2023 avec des modèles comme RT-2 (Google DeepMind), OpenVLA (UC Berkeley) ou pi-0 (Physical Intelligence), mais leur fragilité aux perturbations reste un frein reconnu à la commercialisation. Les approches existantes pour y remédier passent généralement par de l'augmentation de données ou du fine-tuning ciblé, coûteux en temps et en annotations. ProbeAct s'inscrit dans une alternative émergente : la correction à l'inférence, sans toucher au modèle. Il s'agit pour l'instant d'un preprint arXiv, sans déploiement annoncé ni partenaire industriel mentionné ; les prochaines étapes naturelles seraient une validation sur hardware réel hors benchmark simulé.

RechercheOpinion
1 source
Navigation hiérarchique augmentée par la sémantique : transport optimal et raisonnement par graphes pour la navigation vision-langage
2arXiv cs.RO 

Navigation hiérarchique augmentée par la sémantique : transport optimal et raisonnement par graphes pour la navigation vision-langage

Une équipe de chercheurs a publié le 2 juin 2026 sur arXiv (identifiant 2606.01565) le cadre HSAN (Hierarchical Semantic-Augmented Navigation), une architecture de navigation pour agents autonomes en environnements 3D intérieurs non contraints, dit VLN-CE (Vision-Language Navigation in Continuous Environments). Le principe : un agent reçoit des instructions en langage naturel ("va jusqu'à la cuisine et tourne à gauche avant la porte") et doit naviguer dans un espace réel sans carte préétablie. HSAN propose trois composants imbriqués : d'abord, un graphe de scène sémantique hiérarchique et dynamique, construit en temps réel à partir de modèles vision-langage, qui représente l'environnement sur trois niveaux (objets, régions, zones) ; ensuite, un planificateur topologique basé sur le transport optimal (dualité de Kantorovich) qui sélectionne des sous-objectifs à long terme en pondérant pertinence sémantique et accessibilité spatiale, avec garanties théoriques d'optimalité ; enfin, une politique de contrôle bas niveau entraînée par apprentissage par renforcement et sensible à la structure du graphe, chargée de la navigation fine et de l'évitement d'obstacles. Les auteurs rapportent des résultats état de l'art sur plusieurs benchmarks VLN-CE standards, sans préciser les métriques exactes dans le résumé disponible. L'intérêt de cette approche tient à la façon dont elle traite le problème des tâches à horizon long, un point de friction majeur des systèmes VLN existants qui perdent le contexte spatial sur des trajectoires de plusieurs dizaines de mètres. En structurant la représentation de l'environnement en graphe multi-niveaux plutôt qu'en carte voxel statique, HSAN permet à l'agent de raisonner sur des concepts spatiaux ("la pièce d'à côté", "le couloir du fond") plutôt que sur des coordonnées brutes. Le planificateur par transport optimal est notable : il évite les heuristiques ad hoc (distance euclidienne, A* classique) en reformulant la sélection de sous-objectifs comme un problème de couplage optimal entre distributions sémantiques, ce qui est théoriquement plus robuste. Pour les intégrateurs de robots de service ou de livraison intérieure, ce type d'architecture facilite potentiellement l'instruction en langage naturel sans cartographie préalable, à condition que le sim-to-real gap soit résolu, ce que le papier n'aborde pas explicitement. La navigation guidée par langage en environnement continu est un champ actif depuis les benchmarks R2R (Room-to-Room, 2018) et VLN-CE (2021, basé sur Matterport3D). Les approches antérieures dominantes combinent généralement des cartes topologiques statiques avec des politiques Transformer (CWP, DUET, GridMM). HSAN s'en distingue en rendant le graphe de scène dynamique et en y couplant le transport optimal, une technique rare dans ce domaine mais bien établie en vision par ordinateur (alignement de nuages de points, correspondance d'images). Aucun acteur industriel ni laboratoire nommé n'est associé à la publication dans le résumé disponible, et il s'agit d'un preprint non encore évalué par les pairs. Les prochaines étapes attendues dans ce type de travaux incluent des expériences sur robots physiques (Boston Dynamics Spot, Fetch, TIAGo) pour valider le transfert simulation-réel.

RechercheOpinion
1 source
MiniVLA-Nav v1 : un jeu de données de simulation multi-scènes pour la navigation robotique guidée par le langage
3arXiv cs.RO 

MiniVLA-Nav v1 : un jeu de données de simulation multi-scènes pour la navigation robotique guidée par le langage

MiniVLA-Nav v1 est un dataset de simulation publié sur HuggingFace pour la navigation robotique conditionnée par le langage naturel, tâche désignée LCOA (Language-Conditioned Object Approach). Un robot différentiel NVIDIA Nova Carter reçoit une instruction courte et doit atteindre l'objet nommé en s'arrêtant à moins d'un mètre. Le dataset couvre 1 174 épisodes dans quatre scènes Isaac Sim photoréalistes (bureau, hôpital, entrepôt complet, entrepôt à étagères multiples), chacun annoté avec images RGB 640x640, cartes de profondeur métriques float32, masques de segmentation d'instance et labels d'action à 60 Hz (commandes continues v/omega et tokenisation 7x7 via contrôleur proportionnel visuel). Trois tiers de distance d'initialisation (1,5-3,5 m, 3,5-7,0 m, et lointain curatés) assurent la diversité des trajectoires, avec une corrélation Pearson r=0,94 entre distance de départ et longueur. Douze catégories d'objets et 30 templates (18 d'entraînement, 12 hors distribution) structurent cinq splits d'évaluation. La rareté de données annotées pour entraîner des modèles VLA (Vision-Language-Action) orientés navigation reste un frein reconnu dans la communauté. MiniVLA-Nav v1 y répond avec un benchmark à cinq axes : précision en distribution, robustesse aux paraphrases et généralisation hors distribution sur de nouvelles catégories. La tâche LCOA isole délibérément le grounding linguistique, c'est-à-dire la capacité à relier une instruction verbale à un objet physique, sans mélanger avec la planification globale de chemin. Les labels moteurs continus à 60 Hz offrent une supervision plus fine que la majorité des datasets de navigation verbale existants, souvent limités à des waypoints discrets. La compatibilité native avec l'écosystème Isaac Sim et la plateforme Nova Carter facilite un éventuel transfert sim-to-real vers des robots physiques en milieu industriel ou hospitalier. Ce travail s'inscrit dans la lignée de R2R et REVERIE pour la navigation à instruction verbale, mais avec un focus bas niveau peu commun. La publication, signée Ali Bustami et déposée sur arXiv en mai 2025 (2605.00397), ne présente pas encore de modèle baseline entraîné sur ces données, ce qui en limite la portée empirique immédiate : c'est un dataset, pas une preuve de performance. L'écosystème concurrent inclut Meta AI avec Habitat, Allen AI avec AI2-THOR et plusieurs benchmarks récents de Google DeepMind, mais aucun ne cible spécifiquement le LCOA avec commandes continues à 60 Hz sur plateforme NVIDIA. Le dataset est librement accessible sur HuggingFace (alibustami/miniVLA-Nav), en attente d'un modèle VLA de référence et d'expériences de transfert sim-to-real sur robot physique.

RechercheOpinion
1 source
PECMAN : navigation collaborative multi-agents par perception en environnements inconnus
4arXiv cs.RO 

PECMAN : navigation collaborative multi-agents par perception en environnements inconnus

Des chercheurs ont publié sur arXiv (réf. 2605.09344) PECMAN, un système de navigation collaborative multi-agents conçu pour des environnements inconnus et dynamiques. L'algorithme s'appuie sur SMART-3D, un planificateur de trajectoires fondé sur la structure RRT* (Rapidly-exploring Random Tree) capable de reconfigurer en temps réel son arbre de planification dès qu'un obstacle ou une nouvelle structure est détecté : plutôt que de reconstruire l'arbre depuis zéro, SMART-3D élague les noeuds et arêtes invalidés, puis répare les sous-arbres déconnectés à des points critiques appelés "hot-nodes". PECMAN étend ce mécanisme à la coopération multi-agents via deux stratégies combinées : une morphologie d'arbre distribuée, où chaque robot replanifie localement, et une perception partagée, par laquelle chaque agent diffuse les structures nouvellement découvertes à ses coéquipiers, leur permettant de replanifier proactivement même dans des zones encore inexplorées. Évalué sur 28 000 simulations couvrant sept scénarios 2D distincts, le système atteint jusqu'à 52 % de réduction du temps de complétion collective avec un taux de succès proche de 100 %. Les expériences ont également été validées sur deux robots autonomes réels dans un environnement de bâtiment. La contribution architecturale centrale est la perception partagée sans coordinateur central : chaque agent enrichit la carte collective en temps réel, ce qui réduit les replanifications redondantes et la latence de réaction de la flotte entière. Pour les intégrateurs de systèmes AMR (Autonomous Mobile Robots) en logistique ou en inspection industrielle, c'est précisément le verrou qui bloque le passage à l'échelle des flottes dans des environnements semi-structurés. La validation physique, même limitée à deux robots, apporte un début de réponse au problème classique du sim-to-real gap, l'un des obstacles majeurs au déploiement de planificateurs collaboratifs en conditions réelles. La réduction de 52 % du temps de complétion est prometteuse, mais mérite d'être interprétée avec prudence : les simulations 2D ne capturent pas la complexité des environnements 3D, et les scénarios de test ne sont pas détaillés dans l'abstract. Les approches multi-agents existantes comme CBS (Conflict-Based Search) ou ORCA supposent généralement des cartes connues à l'avance, ce qui les rend difficilement applicables à une exploration progressive. SMART-3D avait résolu ce problème pour un agent unique ; PECMAN en est l'extension coopérative naturelle. Aucun partenaire industriel ni déploiement commercial n'est mentionné dans la publication, qui reste une contribution académique. Les prochaines étapes logiques seraient des tests sur des flottes plus larges et en environnements 3D réels, conditions nécessaires pour envisager un transfert vers des entrepôts multi-niveaux ou des bâtiments industriels complexes, où les systèmes AMR actuels peinent encore à coordonner leur navigation de façon autonome.

RecherchePaper
1 source