Goal2Pixel : ancrage des objectifs dans les pixels pour la navigation vision-langage
Une équipe de recherche a publié fin mai 2026 Goal2Pixel, un nouveau paradigme de navigation robotique en environnement continu guidée par le langage naturel (VLN-CE, Vision-and-Language Navigation in Continuous Environments). L'approche reformule le problème : plutôt que de demander au modèle de vision-langage (VLM) de prédire directement des actions motrices, Goal2Pixel lui demande d'identifier un pixel navigable dans le champ de vision courant. Ce pixel est ensuite rétro-projeté en coordonnées 3D pour générer un waypoint de navigation. Pour les actions non-linéaires (virage gauche, virage droit, arrêt), des régions auxiliaires codées directement dans l'image servent d'interface. Un module de mémoire par keyframes filtrées par visibilité permet la navigation sur longues distances sans saturer le contexte du modèle. Sur le benchmark standard R2R-CE Val-Unseen, Goal2Pixel atteint 54,1 % de Success Rate (SR) et 52,5 % de SPL, avec seulement 7,75 appels VLM par épisode en moyenne.
Le gain d'efficacité est le fait saillant : la méthode de référence par prédiction d'action directe requiert 46,62 appels VLM par épisode pour un SR de seulement 32,9 %, soit 6 fois plus d'inférences pour une performance nettement inférieure. C'est un argument concret pour les intégrateurs qui cherchent à déployer des VLMs embarqués ou à limiter la latence en inférence. L'interface pixel unifie le raisonnement spatial du VLM et le contrôle moteur sans couche d'abstraction intermédiaire propriétaire, ce qui facilite le remplacement du backbone VLM par des versions plus récentes. Les résultats tiennent également sur le benchmark multilingue RxR-CE, ce qui suggère une certaine robustesse linguistique.
Le problème VLN-CE reste un champ de recherche très actif, dominé par des approches basées sur des cartes sémantiques ou des prédictions d'actions discrètes. Goal2Pixel s'inscrit dans une tendance plus récente qui exploite les capacités de grounding spatial des grands modèles visuels (type Qwen-VL, LLaVA, InternVL) comme interface de contrôle directe, évitant l'entraînement d'une tête d'action spécialisée. Les résultats publiés sont des métriques benchmark sur simulateur (Matterport3D), pas des validations en environnement physique réel : le sim-to-real gap reste entier. Le code et la page projet sont accessibles publiquement, ce qui ouvre la voie à des reproductions et adaptations par la communauté.




