
Qwen-RobotNav : un modèle de navigation extensible conçu pour un système de navigation à base d'agents
Alibaba Research a publié le 24 juin 2026 le rapport technique de Qwen-RobotNav, un modèle de navigation robotique entraîné sur 15,6 millions d'échantillons et disponible en deux versions, 2B et 8B paramètres. Le modèle expose une interface paramétrée à deux dimensions : des modes de tâches sélectionnables (suivi d'instructions, recherche d'objets, tracking de cible, conduite autonome) et des paramètres d'observation configurables à l'inférence -- budget de tokens, pondération par caméra, fenêtre d'historique visuel. La randomisation de ces paramètres pendant l'entraînement rend le modèle robuste à toute configuration d'inférence sans modification architecturale. Le co-entraînement avec des données vision-langage (VLA) évite l'effondrement en simple mappeur action-séquence, un problème documenté sur les modèles entraînés uniquement sur trajectoires. Les benchmarks navigation annoncés sont en état de l'art sur les principales références du domaine, avec une généralisation zero-shot validée sur robots réels en environnements variés.
L'intérêt industriel de Qwen-RobotNav réside dans son architecture modulaire : un planificateur de haut niveau peut décomposer un objectif long-horizon en sous-tâches, basculer dynamiquement le mode et la stratégie de contexte en cours d'épisode, et composer des comportements complexes via des appels répétés au même modèle de base. Pour un intégrateur ou un OEM robotique, cela signifie un seul backbone navigation réutilisable sur plusieurs verticales (logistique, inspection, assistance), sans refonte du pipeline perception-planification. Le passage de 2B à 8B paramètres montre un scaling favorable, avec émergence d'un substrat spatial-planning partagé qui transfère entre familles de tâches -- ce qui valide empiriquement l'hypothèse que l'entraînement multi-tâche peut remplacer des modèles spécialisés distincts.
Qwen-RobotNav s'inscrit dans l'effort d'Alibaba DAMO Academy et du groupe Qwen pour étendre leur famille de modèles au-delà du langage pur vers l'action incarnée. En termes de positionnement concurrentiel, le modèle s'inscrit dans un espace occupé par des travaux comme NaviLLM (Microsoft), OpenFMNav et UniNav, tous cherchant un modèle de navigation généraliste. La différence revendiquée par Qwen-RobotNav est l'interface paramétrique unifiée permettant la reconfiguration à l'inférence sans fine-tuning, ce qui facilite l'intégration dans des systèmes agentiques multi-étapes. Le code et les poids ne semblent pas encore publiés au moment du rapport ; les résultats zero-shot sur robots réels restent à confirmer dans des conditions industrielles non contrôlées.




