
FloVerse : navigation multimodale guidée par plan d'étage
Une équipe de chercheurs a publié FloVerse, un cadre unifié de navigation incarnée guidée par plans d'étage, accompagné d'un jeu de données à grande échelle et d'une nouvelle politique d'apprentissage. Présenté sous forme de preprint arXiv (2606.14267) en juin 2026, ce travail rassemble sous un même protocole trois variantes classiques de navigation autonome en intérieur : PointNav (atteindre des coordonnées cibles), ObjectNav (trouver une instance d'objet précis) et ImageNav (rejoindre un lieu identifié par une image de référence). Pour soutenir ces expériences, les auteurs ont constitué FloVerse-1.6K, un jeu de données de 1 600 scènes issues des environnements HM3D et Gibson 4+, couplé aux plans d'étage correspondants, comprenant 240 000 trajectoires expertes et 12 millions de frames RGBD. Ils proposent également ThreeDiff, une politique d'imitation en deux étapes : un planificateur basé sur la diffusion entraîné par masked-modality modeling (masquage aléatoire des modalités en entrée pour forcer la robustesse multimodale), et un raffineur qui ajuste les trajectoires à l'exécution à partir de données de profondeur pour éviter les collisions.
L'apport principal réside dans la démonstration que les plans d'étage constituent des priors spatiaux efficaces et généralisables : les résultats montrent une amélioration des performances sur l'ensemble des trois modalités de tâches, y compris en généralisation à des scènes non vues durant l'entraînement. Pour un intégrateur déployant des robots mobiles en environnement structuré (entrepôts, hôpitaux, hôtels), ce résultat ouvre une voie pragmatique : exploiter les plans existants issus du BIM ou de simples blueprints sans nécessiter de cartographie préalable par le robot. ThreeDiff montre de surcroît que ce prior spatial peut être capturé implicitement par le modèle, sans supervision explicite sur la structure géométrique du plan.
Ce travail s'inscrit dans un courant de recherche actif où plusieurs approches concurrentes telles que VLN-BERT, NavGPT ou EmbodiedGPT s'appuient sur des modèles de langage visuels ou des cartes sémantiques. La spécificité de FloVerse est d'intégrer le plan d'étage comme modalité de guidage explicite et portable, là où la majorité des travaux antérieurs se limitaient à PointNav sur des environnements restreints comme AI2-THOR ou Matterport3D. En tant que preprint non encore soumis à évaluation par les pairs, les benchmarks restent en simulation ; le gap sim-to-real n'est pas évalué, ce qui constitue la limite principale avant toute application industrielle.
Dans nos dossiers




