Génération de concepts spatiaux de haut niveau intégrant l'incertitude dans des graphes de scènes 3D factorisés par GNN
Des chercheurs ont publié fin 2024 (arXiv:2409.11972, version 4) une méthode d'apprentissage automatique permettant à un robot de découvrir de manière autonome des concepts spatiaux de haut niveau, pièces, murs, couloirs, à partir de simples observations géométriques primitives telles que des surfaces planes verticales. L'approche s'appuie sur un réseau de neurones de graphe (GNN) qui infère ces concepts en ligne, puis les injecte comme facteurs optimisables dans un backend de SLAM (Simultaneous Localization and Mapping) reposant sur des Factorized 3D Scene Graphs. Ces graphes de scène 3D organisent la représentation de l'environnement de façon hiérarchique et métrico-sémantique, de l'obstacle ponctuel jusqu'à la pièce entière. Les gains mesurés sont significatifs : en environnements simulés à agencements complexes, la détection de pièces progresse de 20,7 % et l'estimation de trajectoire de 19,2 %. Sur des chantiers de construction réels, la détection de pièces s'améliore de 5,3 % et la précision du recalage cartographique de 3,8 %.
L'intérêt de ce travail réside dans la suppression d'un goulot d'étranglement persistant dans la robotique d'intérieur : jusqu'ici, la génération de concepts spatiaux et la spécification des covariances associées reposaient sur des heuristiques conçues à la main, concept par concept. Cette dépendance limitait la généralisation à de nouveaux types d'environnements et rendait coûteuse l'extension à de nouvelles classes sémantiques. En automatisant à la fois la génération des facteurs et la calibration de leur incertitude, la méthode rend le pipeline SLAM plus robuste et potentiellement déployable sans expertise de réglage fin, ce qui intéresse directement les intégrateurs de robots mobiles autonomes (AMR) opérant dans des bâtiments industriels ou des chantiers évolutifs.
Les 3D Scene Graphs, popularisés notamment par les travaux du MIT et de l'université Carnegie Mellon sur Hydra et ses successeurs, constituent depuis plusieurs années un cadre de référence pour la cartographie sémantique hiérarchique. La variante "factorisée" utilisée ici, qui encode les concepts comme contraintes d'optimisation dans le graphe de poses, est une direction active de la communauté graph-SLAM. Les concurrents directs incluent les approches basées sur des segmentations panoptiques 2D projetées en 3D (SegMap, Kimera) ainsi que les méthodes neuronales implicites de type NeRF-SLAM. La prochaine étape naturelle sera d'étendre la méthode à des concepts au-delà des pièces, zones fonctionnelles, étages, bâtiments, et de la valider à plus grande échelle sur des flottes robotiques opérant en continu.
Dans nos dossiers




