
SEDualVLN : un système dual à représentation spatiale enrichie pour la navigation vision-langage
Une équipe a publié sur arXiv (2605.17249) SEDualVLN, un cadre de navigation visuo-langagière (VLN) à double système pour guider un agent autonome à partir d'instructions en langage naturel. Le Système 1 est un modèle VLM affiné sur des trajectoires de navigation, enrichi d'une conscience spatiale globale et locale, chargé de générer les actions immédiates. Le Système 2 intègre un MLLM généraliste et un module de cartographie 3D temps réel : il planifie des points de passage à partir de vues aériennes de la carte construite à la volée et d'un flux d'images de chemin rendues. Ce schéma rapide-lent coordonné atteint des performances état-de-l'art sur les benchmarks VLN-CE (VLN in Continuous Environments).
L'intérêt de SEDualVLN est de réconcilier deux paradigmes aux défauts complémentaires. Les approches end-to-end peinent sur les trajectoires longues et manquent de raisonnement dynamique : fine-tunées sur des données de navigation, elles mémorisent des comportements sans réellement planifier. Les pipelines zero-shot exploitent des MLLM pré-entraînés sans ré-entraînement, ce qui offre une meilleure généralisation, mais souffre d'un ancrage spatial insuffisant et d'un temps d'inférence élevé. SEDualVLN hybride les deux : le Système 1 conserve la réactivité end-to-end, le Système 2 apporte la planification raisonnée du modulaire. Pour des robots mobiles de service ou des assistants de livraison intérieure, ce type d'architecture ouvre une voie vers des agents capables de suivre des instructions complexes dans des espaces jamais vus à l'entraînement.
Le VLN est un sous-domaine actif de l'IA incarnée, avec des benchmarks comme R2R (Room-to-Room) et VLN-CE sur des environnements Matterport3D et Habitat. SEDualVLN s'inscrit dans une tendance à combiner LLM généralistes et modules de cartographie explicites, direction déjà explorée par NavGPT ou MapGPT. Le papier reste un preprint non évalué par les pairs, sans code ni démo publique, ce qui rend la reproduction indépendante difficile à ce stade. La prochaine étape naturelle est une validation sur robot physique : toutes les expériences rapportées restent pour l'instant confinées à la simulation.
Dans nos dossiers




