FutureNav : modélisation unifiée monde-action pour la navigation vision-langage
FutureNav est un cadre de modélisation unifiée monde-action pour la navigation vision-langage (VLN) en environnements continus, présenté sous forme de preprint sur arXiv (arXiv:2606.30367). Le système encode conjointement des features textuelles, visuelles et spatiales dans un grand modèle de langage, entraîné sur quatre objectifs simultanés : prédiction d'action de navigation, dynamiques inverse et forward pour modéliser les transitions d'états, et génération future pour anticiper les états spatiaux à venir. Avec un backbone de 4 milliards de paramètres, FutureNav revendique des performances state-of-the-art sur plusieurs benchmarks VLN, surpassant les méthodes antérieures selon ses auteurs. Le code et les modèles seront publiés en open source.
La contribution centrale est architecturale : la plupart des modèles de navigation fondationnels récents traitent la tâche comme une génération directe d'actions, sans modéliser explicitement l'état du monde ni son évolution future. FutureNav cherche à combler cet écart en forçant le modèle à représenter des transitions d'états, ce qui est censé renforcer la robustesse sur des séquences d'actions longues en environnement non discrétisé. Pour les chercheurs en navigation incarnée ou les intégrateurs de robots mobiles autonomes, cela pointe vers une approche où le raisonnement spatial prospectif améliore la politique d'action sans surcoût d'inférence notable, un point clé pour l'embarqué.
La VLN en environnements continus est un domaine actif depuis les benchmarks R2R, VLN-CE et REVERIE. Des travaux comme NavGPT, MapGPT ou EmbodiedScan ont scalé des VLM sur la navigation, mais en mode "action pure". FutureNav s'inscrit dans la tendance des world models appliqués à la navigation incarnée, parallèlement aux approches VLA comme OpenVLA ou aux travaux de DeepMind sur la robotique prédictive. Il s'agit pour l'instant d'un preprint non évalué par les pairs, et les gains annoncés sur les benchmarks méritent une vérification indépendante avant conclusions définitives. La prochaine étape annoncée est la publication publique du code.
Dans nos dossiers




