
Suivi binaire pour la QA spatiale et la navigation avec des modèles vision-langage ouverts
Une équipe de chercheurs publie sur arXiv (référence 2606.16902) un agent de localisation spatiale open-source baptisé BinTrack, conçu pour permettre à des robots de service de répondre à des questions du type « où puis-je trouver un pressing sur le chemin du retour ? » et de retourner une coordonnée métrique exploitable directement par les modules de navigation. Le système s'appuie sur un robot quadrupède réel déployé dans des rues publiques de Séoul pour constituer GangnamLoop, un nouveau benchmark multi-trajets en extérieur. BinTrack atteint une amélioration de précision allant jusqu'à 22,8 % par rapport aux autres implémentations open-source sur SpaceLocQA, le benchmark de référence du domaine, et égale les résultats des agents basés sur GPT-4o sur la catégorie « global », la plus difficile. Il offre par ailleurs un gain de vitesse d'inférence supérieur à 1,5x par rapport aux approches précédentes.
L'intérêt principal de BinTrack pour les intégrateurs et les décideurs industriels tient à son architecture entièrement embarquée et déconnectée. Les approches existantes de Spatial Question Answering s'appuyaient sur des modèles fermés comme GPT-4o via des agents RAG (retrieval-augmented generation), ce qui implique une dépendance réseau, une latence de communication et des coûts d'API prohibitifs pour une flotte de robots en production. BinTrack remplace cela par une recherche binaire sur les segments de trajectoire entre deux repères spatiaux extraits de la requête, en exploitant l'ordre temporel du trajet. Ce faisant, le travail démontre qu'un modèle de vision-langage open-source peut rivaliser avec GPT-4o sur un benchmark spatial de référence, sans connexion cloud, une hypothèse que beaucoup dans le secteur considéraient non résolue à ce stade.
GangnamLoop se distingue des benchmarks indoor habituels : il capture les mêmes lieux sous différentes conditions extérieures et croise le point de vue bas du robot quadrupède avec celui de son propriétaire humain, ce qui en fait un jeu de données plus réaliste pour la navigation piétonne en ville. La recherche spatiale embarquée reste un domaine peu exploré par rapport aux approches cloud-first ; des acteurs comme Boston Dynamics, Unitree ou les équipes robotique de Google DeepMind travaillent sur des problèmes connexes, mais rarement avec une contrainte d'inférence locale aussi explicite. Le code et les données de GangnamLoop sont disponibles publiquement sur GitHub, ce qui ouvre la voie à des évaluations indépendantes et à des intégrations dans des pipelines de navigation autonome en contexte réel.
Dans nos dossiers




