
Cerveau lent, planificateur rapide : navigation urbaine résiliente à la latence avec VLM
Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2506.20458) une architecture hybride pour améliorer la navigation piétonne de robots mobiles en milieu urbain, intitulée "Slow Brain, Fast Planner". Le problème central est ce qu'ils nomment le "trajectory scoring gap" : même lorsqu'une bonne trajectoire existe dans l'ensemble des candidats générés par le planificateur, sa fonction de score choisit souvent une option sous-optimale, poussant le robot sur la pelouse, vers des piétons, ou dans la mauvaise direction. Pour y remédier, les auteurs proposent une interface VLM-Planificateur où un modèle de langage et de vision (VLM) sélectionne le meilleur candidat parmi les propositions du planificateur, avec une latence de 1 à 3 secondes, incompatible avec une boucle de contrôle à 5-20 Hz. La solution est une couche de fusion sans entraînement supplémentaire (training-free), basée sur la similarité géométrique avec décroissance exponentielle, qui convertit la sélection "périmée" du VLM en score temps réel. Sur environ 2 000 scénarios réels difficiles (intersections, croisements piétons), l'approche réduit l'erreur de déplacement moyen (ADE) de 30 % par rapport au meilleur choix du planificateur seul, et maintient un taux de succès supérieur à 80 % en simulation avec des délais allant jusqu'à 5 secondes.
Ce résultat intéresse directement les intégrateurs de robots de livraison ou de surveillance extérieure, car il montre qu'un VLM généraliste peut corriger les erreurs de compréhension de scène d'un planificateur local sans nécessiter une refonte en architecture VLA (Vision-Language-Action) bout-en-bout, dont l'entraînement reste coûteux et rigide. La fusion géométrique à décroissance exponentielle contourne deux obstacles classiques du déploiement terrain : la dépendance réseau et le sim-to-real gap. Prudence toutefois sur les chiffres : les 2 000 scénarios "difficiles" ont été sélectionnés par les auteurs sur un campus académique, loin d'un environnement commercial dense.
La navigation piétonne extérieure est un segment sous pression, notamment pour le dernier kilomètre, avec des acteurs comme Kiwibot, Starship Technologies et Cartken qui butent sur les intersections non signalisées et la densité piétonne. L'approche "deux vitesses" (fast pour le contrôle, slow pour la planification sémantique) suit une tendance portée par des laboratoires comme Berkeley et des entreprises comme Physical Intelligence (Pi-0). En France, des acteurs comme Enchanted Tools et les spin-offs CEA explorent des architectures comparables pour la navigation indoor. Les prochaines étapes naturelles pour cette équipe sont la validation en environnement urbain dense et l'intégration de VLMs embarqués à faible latence (LLaVA, Phi-3 Vision) pour réduire la dépendance réseau en conditions terrain.
Les équipes R&D d'Enchanted Tools et des spin-offs du CEA explorant la navigation indoor pourraient intégrer directement cette fusion géométrique sans réentraînement pour améliorer leurs planificateurs locaux existants.
Dans nos dossiers




