
FUS3DMaps : cartographie sémantique à vocabulaire ouvert par fusion 3D de couches voxel et instance
Une équipe de recherche a publié le 6 mai 2026 sur arXiv (référence 2605.03669) FUS3DMaps, une méthode de cartographie sémantique 3D à vocabulaire ouvert conçue pour permettre à des robots de localiser spatialement des concepts arbitraires sans ensemble de classes prédéfini. Le système fonctionne en ligne et maintient simultanément deux couches sémantiques dans une même carte de voxels partagée : une couche dense, qui projette directement les embeddings de pixels sur la carte 3D, et une couche instance-level, qui segmente les vues, encode les régions correspondant à des objets distincts, puis les associe en 3D. Les expériences menées sur des benchmarks établis de segmentation sémantique 3D montrent que FUS3DMaps atteint une précision compétitive à l'échelle de bâtiments multi-étages, un niveau de scalabilité rarement démontré pour ce type d'approche sans entraînement supervisé. Le code et les données complémentaires sont annoncés en accès ouvert.
Ce qui distingue FUS3DMaps des méthodes existantes est la fusion sémantique inter-couches (cross-layer fusion), qui combine les forces complémentaires des deux représentations : la couche dense couvre l'intégralité du champ visuel sans nécessiter de segmentation préalable, mais souffre d'un manque de précision à l'échelle ; la couche instance-level est précise sur les objets individuels mais dépend de l'association 2D-3D. En fusionnant les embeddings des deux couches au niveau voxel, la méthode améliore la qualité de chacune. Pour garantir la scalabilité, la fusion dense et inter-couches est restreinte à une fenêtre spatiale glissante, évitant l'explosion mémoire dans les grands environnements. Pour les intégrateurs de robotique mobile ou les développeurs de systèmes de navigation en environnement ouvert, c'est une piste concrète vers des robots capables de répondre à des requêtes en langage naturel sur des espaces non balisés.
La cartographie sémantique à vocabulaire ouvert est un champ en plein essor depuis l'émergence des vision-language models (VLM) comme CLIP. Les approches actuelles se divisent en deux familles : les méthodes instance-level (LSeg, OpenScene, EmbodiedScan) et les méthodes dense (ConceptFusion, OpenFusion), chacune avec ses compromis entre précision et scalabilité. FUS3DMaps tente de réconcilier les deux dans un pipeline unifié, sans fine-tuning. À noter que l'article est une prépublication arXiv, sans validation par les pairs à ce stade, et que les démonstrations vidéo et le code sont encore annoncés comme "à venir". Aucune entreprise industrielle ou partenaire de déploiement n'est mentionné : il s'agit d'une contribution de recherche académique, pas d'un produit commercialisé.
Dans nos dossiers




