
ViTL : navigation en langage naturel zéro-shot guidée par logique temporelle via modèles vision-langage
Des chercheurs présentent ViTL (Vision-Language Temporal Logic), un système de navigation robotique capable d'exécuter des commandes en langage naturel impliquant plusieurs cibles et des contraintes temporelles, sans entraînement spécifique à l'environnement testé. Publié sur arXiv le 30 juin 2026, le framework s'attaque à un cas concret : une instruction comme "Nettoie la chaise ou le canapé, puis allume la télé" implique un ordre logique et un choix entre deux objets, ce qu'aucun système zero-shot existant ne gérait jusqu'ici. ViTL agit à deux niveaux. Au niveau tâche, un grand modèle de langage traduit la commande en formule de logique temporelle linéaire (LTL), convertie ensuite en automate fini déterministe (DFA) qui coordonne des cartes de valeur multi-canaux et déclenche une replanification dynamique dès qu'un nouvel objet pertinent est détecté. Au niveau navigation, les auteurs introduisent un "score directionnel" : plutôt qu'une valeur unique et indifférenciée sur tout le champ de vision, chaque direction de frontière est étiquetée sur l'image d'observation et notée séparément par le modèle vision-langage. Les tests ont été menés sur le simulateur Habitat-Matterport 3D (HM3D).
L'enjeu dépasse la démonstration académique. Les méthodes actuelles de navigation zero-shot vers un objet, qui s'appuient sur des VLM pour guider une exploration par frontières dans un environnement inconnu, restent cantonnées à une seule cible à la fois. En prouvant qu'un pipeline LLM-vers-logique-vers-automate peut orchestrer plusieurs sous-tâches ordonnées sans réentraînement, ViTL déplace la limite de ce qu'un robot peut comprendre d'une instruction humaine complexe, un enjeu direct pour les intégrateurs qui déploient des robots domestiques ou logistiques devant suivre des consignes composites. Le score directionnel améliore aussi, selon les auteurs, la précision et l'efficacité sur les tâches à cible unique par rapport à leur référence de base, signe que le gain ne se limite pas aux scénarios multi-cibles.
Ce travail s'inscrit dans la lignée des approches récentes combinant VLM et exploration frontalière pour la navigation sémantique zero-shot, une piste active depuis l'essor des modèles vision-langage capables de raisonner sur des scènes inconnues sans carte préexistante. La contribution spécifique de ViTL, la formalisation en logique temporelle plutôt qu'en heuristique ad hoc, ouvre la voie à des commandes encore plus complexes (conditions, boucles, contraintes de sécurité) dans de futurs travaux, même si le passage du simulateur HM3D à un robot réel reste l'étape non résolue par cette publication.
Dans nos dossiers




