
NavWAM : modèle du monde et d'action pour la navigation visuelle guidée par objectif
Des chercheurs présentent NavWAM (Navigation World Action Model), une architecture diffusion-transformer publiée en préprint sur arXiv (identifiant 2606.13494, juin 2026), conçue pour la navigation visuelle conditionnée par un objectif. Le problème posé est classique en robotique mobile : un robot doit naviguer vers une cible image sous observabilité partielle, en anticipant uniquement depuis sa caméra embarquée comment ses déplacements vont modifier son champ de vision. NavWAM fusionne dans une séquence latente partagée trois composantes distinctes : les observations visuelles futures prédites, les valeurs de progression vers l'objectif, et les blocs d'actions (action chunks). L'entraînement combine un préentraînement en simulation suivi d'une adaptation sur robot réel, avec une évaluation en boucle fermée sur des tâches de navigation image-à-image.
Ce travail répond à une limitation bien identifiée des modèles de monde pour la navigation : ces modèles prédisent correctement l'évolution visuelle future, mais restent des modules passifs qui exigent un planificateur externe pour convertir leurs prédictions en commandes effectives. NavWAM élimine ce découplage en apprenant conjointement la prédiction visuelle, les valeurs d'objectif et la politique d'action. Concrètement, la clairvoyance visuelle du modèle de monde devient directement exploitable pour le contrôle moteur, sans recourir à une recherche d'actions de type CEM (Cross-Entropy Method). Sur les benchmarks offline et en déploiement réel en boucle fermée, NavWAM surpasse les baselines world-model à planification externe reportées par les auteurs. Comme pour tout préprint non encore revu par les pairs, ces résultats restent à valider sur une diversité d'environnements plus large.
L'approche s'inscrit dans une tendance qui cherche à unifier modèles génératifs et politiques de contrôle, direction explorée notamment par les modèles VLA (Vision-Language-Action) tels que Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui opèrent eux aussi sur des espaces latents partagés multi-modalités. La différence ici est la focalisation stricte sur la navigation monoculaire, sans instruction sémantique en langage naturel. Le passage sim-to-real est traité par fine-tuning sur données réelles, méthode désormais standard mais dont la robustesse dépend fortement de la diversité des scènes d'entraînement, non précisée dans l'abstract. Aucun code ni dataset n'est encore annoncé ; une page projet avec démonstrations vidéo est disponible à l'adresse fournie par les auteurs.
Dans nos dossiers




