CoFL-S : champs de flux sectoriels interrogeables spatialement pour la navigation locale conditionnée par le langage
La navigation par instructions en langage naturel (Vision-Language Navigation, VLN) a surtout progressé ces dernières années sur le raisonnement de haut niveau : compréhension des consignes, mémoire, cartographie globale, découpage des instructions en sous-tâches. La représentation d'action de bas niveau, elle, restait largement négligée. Une équipe de recherche propose CoFL-S (papier arXiv 2607.02222, publié début juillet 2026), un framework vision-langage-action qui prédit un champ de flux ("flow field") conditionné par le langage sur le secteur local visible du robot, puis génère des trajectoires continues en suivant ce champ. Pour l'entraîner, les chercheurs ont converti les épisodes du jeu de données VLN-CE, initialement des instructions complètes associées à des séquences d'actions, en supervision locale image par image, avec sous-instructions alignées, actions, trajectoires et champs de flux appariés. Ils introduisent aussi un nouveau benchmark Habitat en temps continu, qui isole l'interface d'action de bas niveau du découpage des instructions et fait passer toutes les méthodes par un contrôleur de commande de vitesse partagé, permettant une comparaison en boucle fermée indépendante de la fréquence du planificateur, plutôt que les transitions discrètes fixes (avancer/tourner) de VLN-CE classique.
Cette distinction entre haut niveau et bas niveau touche un vrai angle mort du secteur : une bonne compréhension d'instruction ne garantit pas une exécution fluide si la couche de contrôle reste rigide ou dépendante d'une fréquence de planification fixe. En isolant cette couche et en la testant à différentes fréquences, l'équipe évalue si une politique d'action tient réellement la route en conditions variables, un enjeu direct pour tout déploiement réel de robots mobiles guidés par le langage, où la latence de calcul et la fréquence de décision varient selon le matériel.
Sous encodeurs et réglages d'entraînement identiques, CoFL-S dépasse de façon constante les méthodes de référence à base de tokens d'action et de blocs d'action ("action-chunk"), quelle que soit la fréquence du planificateur testée. Les auteurs rapportent également un déploiement réel en zero-shot, en boucle fermée, où l'avantage de leur approche se confirme au-delà de la simulation, un point notable puisque le transfert sim-to-real reste l'un des obstacles les plus fréquemment cités dans la littérature VLN.
Dans nos dossiers




