
VISTA : navigation visuelle à l'échelle par conditionnement sur l'historique d'actions
VISTA, un nouveau modèle de navigation visuelle présenté en preprint (arXiv:2606.17294), s'attaque à une faille structurelle identifiée dans les Vision Navigation Foundation Models (VNMs) actuels : la normalisation des actions prédites. Lorsqu'un VNM produit des trajectoires normalisées, l'application d'un facteur d'échelle différent selon le robot ou l'environnement déforme la géométrie physique de la trajectoire, ce qui dégrade les performances de navigation et augmente les risques de collision. Pour corriger cela, VISTA conditionne ses prédictions sur l'historique normalisé des actions exécutées, en parallèle des observations visuelles, offrant au modèle un contexte explicite sur la relation entre ses sorties et le déplacement physique réel du robot. Le modèle intègre également un encodeur DINOv3, dont les représentations plus riches permettent de mieux discriminer les environnements visuellement répétitifs (couloirs, entrepôts) où les VNMs classiques peinent à se localiser. En déploiement zéro-shot dans trois environnements réels (extérieur, forêt, bureau), VISTA affiche 100 % de précision dans la prédiction des objectifs et un taux moyen de 95 % de points de passage atteints.
Ce résultat éclaire un angle mort largement sous-estimé dans le déploiement des politiques de navigation généralisées : l'invariance à l'échelle. Un modèle entraîné sur une flotte homogène peut échouer sur un robot dont la calibration diffère légèrement, sans qu'aucun défaut de l'architecture ne soit en cause. VISTA propose une correction légère mais systémique, applicable sans ré-entraînement, ce qui représente un avantage concret pour les intégrateurs qui déploient des politiques de navigation sur des flottes hétérogènes. Les résultats à 100 % méritent toutefois d'être nuancés : ils portent sur trois environnements seulement, et le terme "zéro-shot" désigne ici l'absence de fine-tuning spécifique aux sites de test, non une absence totale de données d'entraînement supervisé.
VISTA s'inscrit dans la montée en puissance des modèles de navigation généraux, portée ces deux dernières années par des travaux comme NoMaD (CMU/Berkeley, 2023) ou GNFactor, qui cherchent tous à produire une politique de déplacement transférable sans adaptation manuelle. L'usage de DINOv3 suit une tendance nette : les encodeurs de la famille DINOv2/v3 (Meta FAIR) s'imposent progressivement comme backbone de référence pour les tâches nécessitant une compréhension géométrique fine de l'environnement. Le preprint ne mentionne ni partenaires industriels ni timeline de commercialisation ; il s'agit à ce stade d'une contribution académique, sans annonce de déploiement à grande échelle.
Dans nos dossiers




