
Rule-VLN : unifier perception et respect des règles par raisonnement sémantique et rectification géométrique
Une équipe de chercheurs a publié sur arXiv (2604.16993) un article introduisant Rule-VLN, un benchmark urbain à grande échelle conçu pour évaluer la navigation par instruction langagière (Vision-and-Language Navigation, ou VLN) sous contraintes réglementaires. L'environnement couvre 29 000 nœuds de graphe urbain, avec 8 000 nœuds soumis à 177 catégories de règles distinctes réparties en quatre niveaux de difficulté croissante. Pour corriger les agents existants, les auteurs proposent le Semantic Navigation Rectification Module (SNRM), un module zero-shot greffable sur tout agent VLN pré-entraîné. Dans les expériences rapportées, SNRM réduit le taux de violation des contraintes (Constraint Violation Rate, CVR) de 19,26 % et améliore le taux de complétion de tâche (Task Completion, TC) de 5,97 % par rapport aux modèles de référence.
Le problème identifié est structurel : les agents VLN actuels tombent dans ce que les auteurs appellent le "goal-driven trap", un biais où la géométrie physique ("puis-je passer ici ?") prime sur la sémantique réglementaire ("suis-je autorisé à passer ici ?"). Pour les intégrateurs de systèmes de navigation autonome en environnement urbain ou semi-public, cela signifie concrètement que les agents actuels ignorent des contraintes visibles pourtant critiques : panneaux d'interdiction, zones piétonnes, restrictions de circulation. Rule-VLN est le premier benchmark à formaliser ces contraintes à cette échelle, ce qui en fait un outil de qualification utile pour les développeurs souhaitant valider la conformité comportementale avant déploiement réel, au-delà des métriques classiques de succès de navigation.
La VLN est un axe de recherche actif depuis les travaux fondateurs de l'environnement R2R (2018, Anderson et al.), majoritairement axés sur la reachability dans des environnements intérieurs. Rule-VLN étend explicitement ce cadre à l'urbain extérieur avec une dimension normative, un angle peu exploré jusqu'ici malgré la montée en charge des robots de livraison et des AMR en espace public. Côté concurrents directs, des benchmarks comme TouchDown ou CityNav posent des bases géographiques réalistes mais sans injection systématique de contraintes réglementaires. Le SNRM s'appuie sur un VLM (Vision-Language Model) en pipeline coarse-to-fine couplé à une carte mentale épistémique pour la planification de détours dynamiques. Les résultats sont présentés uniquement en conditions simulées : aucun déploiement réel n'est mentionné, et les gains de 19 % sur CVR restent à valider sur des environnements physiques avec une distribution de règles non contrôlée.
Pertinent pour les intégrateurs de robots de livraison et AMR en espace public européen confrontés aux contraintes réglementaires urbaines, mais aucun acteur FR/EU n'est impliqué dans ces travaux.



