RecherchearXiv cs.RO 15 juin 2026

AnyGoal : exploration multi-agents guidée par vision-langage pour une navigation permanente sans entraînement

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.13878) AnyGoal, une architecture multi-agents de navigation en intérieur conçue pour fonctionner sans entraînement préalable sur les scènes cibles. Le système coordonne plusieurs robots via une carte partagée appelée Bayesian Value Map (BVM), une grille 2D maintenant pour chaque pixel une distribution gaussienne (μ, σ²) représentant la pertinence estimée de l'objectif. Cette carte est mise à jour par fusion pondérée des scores issus d'un modèle vision-langage (VLM), projetés via un masque conique de profondeur, et n'est jamais remise à zéro entre les sous-tâches, permettant une accumulation d'indices dite « lifelong ». Sur le benchmark GOAT-Bench (360 épisodes, 2 669 sous-tâches, configuration physique stricte : pas discrets de 0,25 m, champ de vision horizontal de 42°, sans téléportation), la version bi-agent atteint 52,4 % de taux de réussite par sous-tâche (Subtask SR) pour un SPL de 12,7 %, contre 41,9 % en configuration mono-agent.

Ce résultat représente un gain de +27,5 points de pourcentage sur Modular GOAT (24,9 %), le système modulaire de référence précédent, ce qui est substantiel dans un domaine où les progrès se mesurent souvent en quelques points. L'intérêt principal réside dans l'approche sans entraînement : là où la plupart des politiques de navigation end-to-end se dégradent dès qu'elles rencontrent des scènes, des catégories d'objets ou des modalités d'objectif hors distribution, AnyGoal s'appuie sur la généralisation intrinsèque du VLM. L'ablation à quatre variables de perception révèle que l'intégration de détecteurs open-vocabulary déplace le goulot d'étranglement : la cause principale d'échec n'est plus l'exploration, mais la vérification de l'objectif, un déplacement de problème qui oriente clairement les futurs travaux.

AnyGoal s'inscrit dans la lignée des travaux tentant de remplacer les pipelines fermés (détection à ensemble d'objets fixe, comme dans Modular GOAT) et les mémoires 3D denses (comme 3D-Mem, coûteuses à maintenir et sensibles au point de vue) par des représentations légères pilotées par le langage. La coordination multi-agents repose ici sur un allocateur glouton avec pénalité de séparation spatiale et hysteresis d'engagement, sans contrôleur centralisé, ce qui simplifie le déploiement. L'architecture reste à ce stade une contribution de recherche publiée sur preprint ; aucun pilote industriel ni déploiement réel n'est annoncé. Les prochaines étapes naturelles concernent la robustesse du VLM à la vérification de but et l'extension à des environnements semi-structurés ou extérieurs, où la généralisation sera encore plus mise à l'épreuve.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

ProbeAct : récupération des échecs sans entraînement guidée par sonde dans les modèles vision-langage-action

Une équipe de recherche a publié sur arXiv (arXiv:2606.09740) ProbeAct, un framework d'intervention à l'exécution conçu pour détecter et corriger les échecs de saisie et de placement dans les modèles Vision-Language-Action (VLA) pré-entraînés, sans modifier leurs poids ni nécessiter de démonstrations supplémentaires. Le système repose sur trois composants couplés : une sonde légère sur les états cachés du modèle qui prédit les positions 3D des objets pertinents à partir des features intermédiaires du VLA (avec suivi d'identité par algorithme hongrois pour les scènes multi-objets) ; une machine à états cinématiques agnostique à l'objet qui détecte les défaillances de saisie, de transport et de placement via les signaux internes du préhenseur et la cinématique de l'effecteur terminal ; enfin, un filtre hiérarchique par Control Barrier Function (CBF) qui encode les zones d'échecs répétés comme contraintes soft sur l'ensemble de sécurité, corrigeant minimalement les actions du VLA sans altérer son comportement nominal. Évalué sur le benchmark LIBERO-plus, ProbeAct améliore le taux de succès d'OpenVLA-OFT de 69,6 % à 74,1 %. Un gain de 4,5 points de taux de succès peut sembler modeste, mais il intervient sur un problème structurel bien identifié des VLA : leur fragilité hors distribution. Ces modèles échouent régulièrement face à des variations de luminosité, des changements de point de vue caméra, ou de légères variations d'état initial, autant de conditions triviales dans un déploiement industriel réel. L'intérêt de ProbeAct est précisément d'être plug-and-play, orthogonal aux pipelines d'entraînement existants, et applicable aussi bien aux modèles de base qu'aux versions fine-tunées. Pour un intégrateur, cela signifie un filet de sécurité superposable sur n'importe quel VLA sans coût de ré-entraînement, ce qui réduit concrètement le gap entre performance en benchmark et robustesse terrain. Les VLA ont connu une accélération notable depuis 2023 avec des modèles comme RT-2 (Google DeepMind), OpenVLA (UC Berkeley) ou pi-0 (Physical Intelligence), mais leur fragilité aux perturbations reste un frein reconnu à la commercialisation. Les approches existantes pour y remédier passent généralement par de l'augmentation de données ou du fine-tuning ciblé, coûteux en temps et en annotations. ProbeAct s'inscrit dans une alternative émergente : la correction à l'inférence, sans toucher au modèle. Il s'agit pour l'instant d'un preprint arXiv, sans déploiement annoncé ni partenaire industriel mentionné ; les prochaines étapes naturelles seraient une validation sur hardware réel hors benchmark simulé.

RechercheOpinion

1 source

2arXiv cs.RO

LA4VLA : apprendre à agir sans vision par pré-entraînement langage-action

Des chercheurs ont publié sur arXiv (2606.27295, juin 2026) un cadre de pré-entraînement baptisé LA4VLA qui s'attaque à un défaut structurel des modèles Vision-Langage-Action (VLA) : en supervision conjointe visuelle et textuelle, le signal visuel écrase le signal langage, poussant les politiques de contrôle à exploiter des raccourcis visuels spécifiques à une scène plutôt qu'à exécuter des instructions généralisables. LA4VLA introduit une phase de pré-entraînement sans images : les trajectoires de démonstration existantes sont découpées en segments atomiques, chacun associé à une description textuelle bas-niveau, produisant LA4-33K, un dataset de 33 000 épisodes Langage-Action construits entièrement à partir de données existantes sans collecte robotique supplémentaire. Le modèle LA4VLA-1B (1 milliard de paramètres) est évalué selon trois paradigmes : pré-entraînement LA seul, séquentiel LA puis VLA, et mixte LA+VLA. Le pré-entraînement mixte améliore le taux de succès moyen de 17,8 points de pourcentage en simulation et de 45 points sur tâches réelles par rapport à l'absence de pré-entraînement. Ces résultats ont une portée directe pour les développeurs de politiques robotiques polyvalentes. Le problème des raccourcis visuels est bien documenté dans la littérature : les robots apprennent à reconnaître un arrangement de scène particulier plutôt qu'à interpréter une instruction générique, ce qui fragilise les politiques dès que l'environnement varie légèrement. Le gain de 45 points sur les tâches réelles, contre 17,8 en simulation, est particulièrement notable : il suggère que l'approche atténue précisément le sim-to-real gap, principal obstacle aux déploiements industriels. Pour les intégrateurs, la méthode permet de valoriser des datasets de démonstrations existants sans mobiliser de ressources robotiques supplémentaires, réduisant substantiellement le coût d'entrée vers des politiques plus robustes. Les modèles VLA ont connu une forte accélération depuis 2023, portée par des travaux comme RT-2 (Google DeepMind), OpenVLA ou π0 de Physical Intelligence, qui s'appuient tous sur un pré-entraînement visuel massif suivi d'un fine-tuning robotique. LA4VLA propose une direction complémentaire et orthogonale : renforcer le conditionnement langage indépendamment du flux visuel, en exploitant la structure sémantique des trajectoires plutôt que leur apparence. L'abstract ne mentionne ni affiliations institutionnelles précises ni partenaires industriels ; il s'agit d'une contribution académique validée en laboratoire, sans pilote commercial annoncé. La suite logique serait une évaluation sur des benchmarks standardisés comme LIBERO ou CALVIN, ainsi qu'une intégration dans des pipelines humanoïdes à manipulation complexe où la généralisation au langage est particulièrement critique.

RechercheOpinion

1 source

3arXiv cs.RO

Navigation hiérarchique augmentée par la sémantique : transport optimal et raisonnement par graphes pour la navigation vision-langage

Une équipe de chercheurs a publié le 2 juin 2026 sur arXiv (identifiant 2606.01565) le cadre HSAN (Hierarchical Semantic-Augmented Navigation), une architecture de navigation pour agents autonomes en environnements 3D intérieurs non contraints, dit VLN-CE (Vision-Language Navigation in Continuous Environments). Le principe : un agent reçoit des instructions en langage naturel ("va jusqu'à la cuisine et tourne à gauche avant la porte") et doit naviguer dans un espace réel sans carte préétablie. HSAN propose trois composants imbriqués : d'abord, un graphe de scène sémantique hiérarchique et dynamique, construit en temps réel à partir de modèles vision-langage, qui représente l'environnement sur trois niveaux (objets, régions, zones) ; ensuite, un planificateur topologique basé sur le transport optimal (dualité de Kantorovich) qui sélectionne des sous-objectifs à long terme en pondérant pertinence sémantique et accessibilité spatiale, avec garanties théoriques d'optimalité ; enfin, une politique de contrôle bas niveau entraînée par apprentissage par renforcement et sensible à la structure du graphe, chargée de la navigation fine et de l'évitement d'obstacles. Les auteurs rapportent des résultats état de l'art sur plusieurs benchmarks VLN-CE standards, sans préciser les métriques exactes dans le résumé disponible. L'intérêt de cette approche tient à la façon dont elle traite le problème des tâches à horizon long, un point de friction majeur des systèmes VLN existants qui perdent le contexte spatial sur des trajectoires de plusieurs dizaines de mètres. En structurant la représentation de l'environnement en graphe multi-niveaux plutôt qu'en carte voxel statique, HSAN permet à l'agent de raisonner sur des concepts spatiaux ("la pièce d'à côté", "le couloir du fond") plutôt que sur des coordonnées brutes. Le planificateur par transport optimal est notable : il évite les heuristiques ad hoc (distance euclidienne, A* classique) en reformulant la sélection de sous-objectifs comme un problème de couplage optimal entre distributions sémantiques, ce qui est théoriquement plus robuste. Pour les intégrateurs de robots de service ou de livraison intérieure, ce type d'architecture facilite potentiellement l'instruction en langage naturel sans cartographie préalable, à condition que le sim-to-real gap soit résolu, ce que le papier n'aborde pas explicitement. La navigation guidée par langage en environnement continu est un champ actif depuis les benchmarks R2R (Room-to-Room, 2018) et VLN-CE (2021, basé sur Matterport3D). Les approches antérieures dominantes combinent généralement des cartes topologiques statiques avec des politiques Transformer (CWP, DUET, GridMM). HSAN s'en distingue en rendant le graphe de scène dynamique et en y couplant le transport optimal, une technique rare dans ce domaine mais bien établie en vision par ordinateur (alignement de nuages de points, correspondance d'images). Aucun acteur industriel ni laboratoire nommé n'est associé à la publication dans le résumé disponible, et il s'agit d'un preprint non encore évalué par les pairs. Les prochaines étapes attendues dans ce type de travaux incluent des expériences sur robots physiques (Boston Dynamics Spot, Fetch, TIAGo) pour valider le transfert simulation-réel.

RechercheOpinion

1 source

4arXiv cs.RO

MiniVLA-Nav v1 : un jeu de données de simulation multi-scènes pour la navigation robotique guidée par le langage

MiniVLA-Nav v1 est un dataset de simulation publié sur HuggingFace pour la navigation robotique conditionnée par le langage naturel, tâche désignée LCOA (Language-Conditioned Object Approach). Un robot différentiel NVIDIA Nova Carter reçoit une instruction courte et doit atteindre l'objet nommé en s'arrêtant à moins d'un mètre. Le dataset couvre 1 174 épisodes dans quatre scènes Isaac Sim photoréalistes (bureau, hôpital, entrepôt complet, entrepôt à étagères multiples), chacun annoté avec images RGB 640x640, cartes de profondeur métriques float32, masques de segmentation d'instance et labels d'action à 60 Hz (commandes continues v/omega et tokenisation 7x7 via contrôleur proportionnel visuel). Trois tiers de distance d'initialisation (1,5-3,5 m, 3,5-7,0 m, et lointain curatés) assurent la diversité des trajectoires, avec une corrélation Pearson r=0,94 entre distance de départ et longueur. Douze catégories d'objets et 30 templates (18 d'entraînement, 12 hors distribution) structurent cinq splits d'évaluation. La rareté de données annotées pour entraîner des modèles VLA (Vision-Language-Action) orientés navigation reste un frein reconnu dans la communauté. MiniVLA-Nav v1 y répond avec un benchmark à cinq axes : précision en distribution, robustesse aux paraphrases et généralisation hors distribution sur de nouvelles catégories. La tâche LCOA isole délibérément le grounding linguistique, c'est-à-dire la capacité à relier une instruction verbale à un objet physique, sans mélanger avec la planification globale de chemin. Les labels moteurs continus à 60 Hz offrent une supervision plus fine que la majorité des datasets de navigation verbale existants, souvent limités à des waypoints discrets. La compatibilité native avec l'écosystème Isaac Sim et la plateforme Nova Carter facilite un éventuel transfert sim-to-real vers des robots physiques en milieu industriel ou hospitalier. Ce travail s'inscrit dans la lignée de R2R et REVERIE pour la navigation à instruction verbale, mais avec un focus bas niveau peu commun. La publication, signée Ali Bustami et déposée sur arXiv en mai 2025 (2605.00397), ne présente pas encore de modèle baseline entraîné sur ces données, ce qui en limite la portée empirique immédiate : c'est un dataset, pas une preuve de performance. L'écosystème concurrent inclut Meta AI avec Habitat, Allen AI avec AI2-THOR et plusieurs benchmarks récents de Google DeepMind, mais aucun ne cible spécifiquement le LCOA avec commandes continues à 60 Hz sur plateforme NVIDIA. Le dataset est librement accessible sur HuggingFace (alibustami/miniVLA-Nav), en attente d'un modèle VLA de référence et d'expériences de transfert sim-to-real sur robot physique.

RechercheOpinion

1 source