
Robotique physique et navigation sémantique par graphe de scène 3D hiérarchique et planification bayésienne
Une équipe de recherche propose un nouveau système de navigation sémantique en zero-shot pour agents robotiques évoluant dans des environnements inconnus, capable de combiner compréhension du langage naturel et planification à long terme. Le cœur de la méthode est un graphe de scène 3D hiérarchique (Hierarchical 3D Scene Graph, HSG), construit et mis à jour en continu pendant l'exploration, qui organise l'environnement en plusieurs niveaux de granularité : objets, zones et régions. Ce graphe sert de représentation compacte de l'état global, sur laquelle s'appuie un module de planification fondé sur des croyances (belief-based planning) qui combine les a priori sémantiques issus de modèles de fondation avec les preuves accumulées lors de l'exploration. Le système effectue des simulations à horizon fini directement sur le HSG pour estimer le gain attendu de chaque macro-action candidate avant de décider où aller. Testée sur plusieurs tâches et jeux de données en simulation haute fidélité, l'approche améliore en moyenne le taux de réussite (SR) de 9,4% et le score SPL (réussite pondérée par la longueur du chemin) de 5,0% par rapport aux meilleures méthodes existantes, avec des gains plus marqués sur les trajectoires longue distance.
L'intérêt de ce travail est de s'attaquer à un défaut connu des agents de navigation actuels : lorsqu'ils reposent uniquement sur des modèles de fondation sans mémoire structurée du monde, ils ont tendance à adopter des stratégies gloutonnes fondées sur l'observation locale, ce qui produit une exploration inefficace et des comportements myopes, en particulier sur de longues distances. En donnant à l'agent une carte sémantique persistante et hiérarchisée plutôt qu'un simple flux d'observations, la méthode réduit les retours en arrière redondants et permet des décisions cohérentes à l'échelle globale. C'est un signal utile pour la robotique mobile autonome (entrepôts, robots de service) où la navigation longue portée dans des lieux jamais vus reste un point faible des architectures purement réactives.
Ce travail s'inscrit dans la lignée des recherches récentes qui exploitent les modèles de fondation pour doter les robots de connaissances sémantiques riches, mais cherche à corriger leur principale limite, l'absence de représentation globale structurée. Contrairement aux approches concurrentes qui traitent la scène comme une simple carte topologique plate, le HSG introduite ici multiplie les niveaux d'abstraction. Les résultats, uniquement obtenus en simulation, ouvrent la voie à des tests en conditions réelles, où le passage du simulateur au monde physique reste l'obstacle habituel de ce type de recherche.




