LocalNav : distillation de VLMs frontière et RL incarné pour la navigation embarquée vers un objet cible
Une équipe de chercheurs a publié LocalNav (arXiv 2506.27871), une méthode de distillation permettant d'exécuter des modèles de vision-langage (VLM) directement sur robots embarqués, sans recourir au cloud. Le pipeline de référence s'appuie sur Claude Sonnet 4.6 couplé à un graphe de scène et atteint un taux de succès (SR) de 39,7% sur le benchmark HM3D OVON, qui évalue la navigation vers des objets désignés en langage naturel dans des environnements intérieurs simulés (tâche ObjectNav). Qwen3.5-4B, un modèle de 4 milliards de paramètres, est ensuite fine-tuné sur seulement 500 traces de raisonnement issues de ce pipeline frontier : il obtient un SR de 34,5%, réduisant significativement l'écart avec le modèle cloud de référence. Pour le déploiement physique sur Jetson Orin (NVIDIA), les auteurs introduisent E-RLVR avec régularisation Token Generation (TG), qui comprime les séquences de sortie. Combinée à la quantification, cette optimisation réduit la latence globale d'inférence de 82,8% (71,8% sur la latence brute, 72,1% sur la génération de tokens), sans perte de performance jugée significative par les auteurs.
L'enjeu industriel est direct : la dépendance au cloud représente un frein opérationnel réel pour les robots mobiles déployés en entrepôt, en usine ou en extérieur, où la connectivité est intermittente et où chaque dizaine de millisecondes pèse sur les décisions de navigation. Le fait que 500 traces de distillation suffisent à approcher les performances d'un grand modèle frontier valide une hypothèse clé du domaine : la supervision synthétique depuis des LLMs propriétaires peut compenser l'absence de larges jeux de données annotés manuellement. La réduction de 82,8% de latence franchit un seuil opérationnel critique pour un déploiement synchrone avec le mouvement physique du robot, ce que les architectures cloud ne peuvent pas garantir en conditions réelles.
Ce travail s'inscrit dans une tendance de compression des VLMs pour la robotique edge, aux côtés de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, qui cherchent tous à réduire leur empreinte computationnelle pour le déploiement à grande échelle. La distillation depuis Claude vers Qwen positionne ce pipeline à l'intersection de deux écosystèmes : modèles frontier propriétaires comme source de supervision, modèles open-weights comme cible d'optimisation. À noter que l'ensemble des résultats présentés reste pour l'instant simulé sur HM3D ; les prochaines étapes naturelles incluent une validation sur déploiement physique réel et un passage à l'échelle des traces de distillation au-delà des 500 exemples actuels, pour cartographier la courbe d'amélioration.
Dans nos dossiers




