
Les modèles fondation visuels savent-ils naviguer ? Évaluation réelle en zéro-shot et leçons apprises
Cinq modèles de navigation visuelle, GNM, ViNT, NoMaD, NaviBridger et CrossFormer, ont été évalués en conditions réelles dans une étude publiée sur arXiv (2603.25937), sur deux plateformes robotiques distinctes et dans cinq environnements couvrant des configurations intérieures et extérieures. Contrairement aux benchmarks habituels qui se limitent au taux de succès (le robot atteint-il son objectif ?), les chercheurs ont combiné des métriques de trajectoire, des scores de reconnaissance visuelle de l'objectif, et des tests de robustesse via des perturbations d'image contrôlées : flou de mouvement et éblouissement solaire simulé. Les modèles ont été évalués en mode zéro-shot, sans ré-entraînement spécifique aux environnements testés. Le code et les données seront rendus publics pour permettre des comparaisons reproductibles.
Les résultats exposent trois failles systématiques qui nuancent sérieusement les promesses de généralisation affichées par ces architectures. Premièrement, même les modèles à base de diffusion ou de transformers, réputés plus expressifs, produisent des collisions fréquentes, ce qui trahit une compréhension géométrique de l'espace insuffisante pour un déploiement industriel fiable. Deuxièmement, les modèles peinent à discriminer des lieux visuellement similaires même lorsque des différences sémantiques subtiles existent, générant des erreurs de prédiction d'objectif dans les environnements répétitifs (couloirs, entrepôts). Troisièmement, les performances chutent dès que les conditions d'image s'écartent de la distribution d'entraînement. Pour un intégrateur ou un COO industriel, cela signifie que le taux de succès brut, la métrique la plus couramment citée dans les communications des équipes de recherche, masque des comportements qui seraient inacceptables en production.
Ces modèles de navigation visuelle (VNMs) s'inscrivent dans une vague de recherche qui cherche à doter les robots d'une navigation généralisable apprise depuis de larges corpus de démonstrations visuelles, à la manière des vision-language models en perception. GNM et ViNT, développés notamment par des équipes de Berkeley, ont posé les bases de ce paradigme ; NoMaD et CrossFormer ont ensuite tenté d'étendre la robustesse via des architectures plus profondes. L'étude ne nomme pas de concurrent commercial direct, mais ses conclusions s'appliquent directement aux robots mobiles autonomes (AMR) déployés en logistique, où Exotec ou d'autres acteurs européens intègrent déjà des approches de navigation apprise. La prochaine étape naturelle est l'évaluation de modèles VLA (vision-language-action) plus récents dans ce même protocole, pour tester si la compréhension sémantique accrue compense les lacunes géométriques identifiées ici.
Les intégrateurs européens d'AMR en logistique, dont Exotec, doivent tenir compte de ces failles systématiques avant tout déploiement de modèles de navigation visuelle zéro-shot en environnement industriel répétitif.
Dans nos dossiers




