
SAGE-Nav : planification LLM et fusion d'alignement pour la navigation par graphe de scène hiérarchique
Des chercheurs ont publié le 25 juin 2026 sur arXiv (réf. 2606.25497) SAGE-Nav, un système de navigation autonome pour robots incarnés capable de localiser des objets spécifiés à partir de la seule perception visuelle égocentrique. L'architecture découple explicitement deux boucles temporelles : une planification globale sémantique assurée par un LLM, et un contrôle réactif basse latence. Le LLM décompose une instruction abstraite ("trouve la tasse dans la cuisine") en une séquence de waypoints sémantiquement ancrés. Deux modules originaux assurent la traduction en commandes : un encodeur de graphe de scène hiérarchique (HSGE) fondé sur des convolutions de graphes relationnelles, et un réseau de fusion GAFN qui combine perception temps réel et représentations structurées via un mécanisme de gating adaptatif à biais inductif explicite. Les évaluations conduites dans les simulateurs i-THOR et RoboTHOR affichent des performances à l'état de l'art en efficacité de navigation et en généralisation zero-shot vers des environnements non vus à l'entraînement.
L'apport central est architectural : en séparant planification haute latence (LLM) et boucle de contrôle haute fréquence, SAGE-Nav évite le goulot d'étranglement qui pénalise les approches monolithiques de type VLA (Vision-Language-Action) sur des plateformes embarquées temps-réel. La généralisation zero-shot est un indicateur industriel critique car elle conditionne directement l'utilité d'un robot dans des entrepôts, hôpitaux ou espaces de bureau non cartographiés à l'avance. Le mécanisme GAFN répond concrètement au problème de cohérence entre carte sémantique construite offline et perception temps réel, un défi que les méthodes classiques d'exploration-planification traitent mal.
La navigation orientée-objet (ObjNav) est un benchmark central de l'IA incarnée depuis la plateforme AI2-THOR de l'Allen Institute. SAGE-Nav s'inscrit dans la tendance qui instrumentalise les LLMs comme planificateurs symboliques plutôt que contrôleurs directs, approche défendue aussi par SayPlan (2023) et NavGPT. Limite importante : les évaluations restent confinées aux simulateurs, et aucun déploiement physique n'est rapporté malgré une mention de latence "compatible avec le matériel réel". Le gap sim-to-real demeure non adressé dans ce papier. Les concurrents directs incluent les architectures VLA bout-en-bout comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, qui font le pari inverse de la séparation planification/contrôle. Une validation sur plateformes physiques (Spot, Hello Robot Stretch) constituerait la prochaine étape naturelle.




