MASt3R-Nav : navigation WayPixel dans des cartes 3D rel…

SignScene : ancrage visuel des panneaux pour la navigation sans carte

43

1arXiv cs.RO

SignScene : ancrage visuel des panneaux pour la navigation sans carte

Des chercheurs ont publié SignScene (arXiv 2602.12686), un système permettant à un robot de naviguer sans carte préalable en interprétant les panneaux de signalisation présents dans l'environnement. Évalué sur un jeu de données de 114 requêtes couvrant neuf types d'environnements différents, le système atteint 88 % de précision dans ce qu'ils appellent le "sign grounding" : la capacité à associer les instructions sémantiques d'un panneau à des éléments de la scène 3D locale et à des actions de navigation concrètes. La démonstration a été réalisée sur un robot Boston Dynamics Spot naviguant en conditions réelles en s'appuyant uniquement sur les panneaux visibles, sans carte ni waypoints préprogrammés. Le défi central est la représentation spatiale : les grands modèles vision-langage (VLMs) disposent du raisonnement sémantique nécessaire pour interpréter un panneau ("Sortie à 50 m à droite"), mais ils sont sensibles à la manière dont l'information spatiale leur est présentée. SignScene introduit une représentation "sign-centric" qui extrait les éléments de scène pertinents pour la navigation et les organise autour du panneau détecté, améliorant significativement le raisonnement du VLM par rapport aux approches de référence, sans que les chiffres exacts de ces dernières soient publiés dans l'abstract disponible. Pour les intégrateurs industriels, l'enjeu est direct : un robot capable d'interpréter les panneaux existants d'un entrepôt ou d'un hôpital pourrait être déployé sans phase de cartographie SLAM préalable, réduisant les coûts et délais d'installation tout en fonctionnant dans des environnements qui évoluent. La navigation sans carte est un axe de recherche actif en robotique mobile, traditionnellement dominé par SLAM ou les cartes topologiques préprogrammées. L'essor des VLMs a ouvert la voie à une navigation guidée par le langage naturel, avec des travaux comme SayNav, VLMaps ou LM-Nav comme précédents directs. SignScene se positionne sur le créneau spécifique des panneaux physiques, signal abondant dans les environnements humains mais peu exploité en robotique autonome. Le robot Spot de Boston Dynamics sert ici de plateforme de validation standard dans la communauté académique. Les prochaines étapes logiques incluraient une extension aux environnements extérieurs urbains ou logistiques, et l'intégration dans des pipelines VLA (Vision-Language-Action) combinant interprétation de panneaux et planification de trajectoire bout-en-bout.

RecherchePaper

1 source

Mémoire plutôt que cartes : localisation d'objets 3D sans reconstruction

41

2arXiv cs.RO

Mémoire plutôt que cartes : localisation d'objets 3D sans reconstruction

Une équipe de chercheurs a publié sur arXiv (référence 2603.20530v2) une méthode de localisation d'objets pour robots mobiles qui abandonne complètement la construction de représentations 3D globales de l'environnement. Baptisée "Memory Over Maps", cette approche remplace les pipelines classiques (nuages de points, grilles de voxels, graphes de scènes) par une mémoire visuelle légère composée uniquement de trames RGB-D géolocalisées (keyframes avec profondeur et position de caméra). À l'exécution d'une requête, le système récupère les vues candidates pertinentes, les reclasse via un modèle vision-langage (VLM), puis reconstruit à la volée une estimation 3D locale de la cible par rétroprojection de profondeur et fusion multi-vues. Les auteurs rapportent, sur leurs benchmarks, une vitesse d'indexation de scène supérieure de plus de deux ordres de grandeur par rapport aux pipelines de reconstruction classiques, avec une empreinte mémoire significativement réduite. Ce résultat remet en question une hypothèse structurante de la robotique d'intérieur : l'idée qu'une carte 3D dense et complète serait un prérequis indispensable à la navigation orientée objets. Si la méthode tient ses promesses à l'échelle, les intégrateurs de robots de service et les développeurs de systèmes de navigation autonome pourraient simplifier drastiquement leurs pipelines de mise en service, en supprimant la phase coûteuse de cartographie initiale. Le fait que le système n'exige aucun entraînement spécifique à la tâche (zero-shot sur les benchmarks testés) renforce son potentiel de généralisation, même si les conditions réelles d'un entrepôt ou d'un hôpital restent plus exigeantes que les environnements de benchmark contrôlés. Il faut noter que les métriques de performance présentées proviennent des propres expériences des auteurs, et que des évaluations indépendantes sur des scènes dynamiques ou encombrées manquent encore. La localisation d'objets pour la navigation robotique est un problème central depuis les travaux fondateurs sur la SLAM (Simultaneous Localization and Mapping). Les approches modernes s'appuient de plus en plus sur des VLM pour raisonner directement sur des observations 2D, dans la lignée des travaux comme ConceptGraphs, OpenScene ou les architectures VLA (Vision-Language-Action) qui cherchent à court-circuiter la représentation explicite du monde. La méthode "Memory Over Maps" s'inscrit dans cette tendance de fond, en compétition directe avec des approches comme EmbodiedScan ou SQA3D. Les prochaines étapes attendues incluent des tests sur des scènes dynamiques, une évaluation sur des plateformes physiques (les résultats actuels sont validés en simulation et sur benchmarks standards), et une intégration avec des architectures de manipulation pour étendre la méthode au-delà de la navigation pure.

RecherchePaper

1 source

Sem-NaVAE : navigation extérieure sans carte guidée sémantiquement via des trajectoires génératives

42

3arXiv cs.RO

Sem-NaVAE : navigation extérieure sans carte guidée sémantiquement via des trajectoires génératives

Des chercheurs ont publié Sem-NaVAE, une approche de navigation sans carte (mapless) pour robots mobiles en extérieur, détaillée dans un preprint arXiv (arXiv:2502.01429v2). Le système repose sur deux composants articulés : un autoencodeur variationnel conditionnel (CVAE) qui génère en temps réel un ensemble de trajectoires candidates, et un modèle vision-langage (VLM) léger qui sélectionne la trajectoire à exécuter via segmentation sémantique à vocabulaire ouvert. L'opérateur spécifie une consigne en langage naturel, le VLM score chaque trajectoire proposée selon la sémantique visuelle de la scène, et un planificateur local de pointe convertit la trajectoire retenue en commandes de vitesse. Sur des parcours réels de 120 à 240 mètres dans des environnements non vus lors de l'entraînement, Sem-NaVAE atteint un taux de réussite de 90%, surpassant la baseline la plus proche de 10 points de pourcentage tout en restant à seulement 7% du plafond théorique d'un système avec carte. Ce résultat est notable car il démontre qu'une navigation extérieure robuste et généralisable est atteignable sans cartographie préalable, une contrainte opérationnelle majeure pour le déploiement d'AMR sur des chantiers, en agriculture ou en logistique outdoor. La combinaison d'un générateur stochastique de trajectoires avec une couche sémantique pilotée par langage naturel permet d'abstraire la description du terrain sans règles codées en dur ni base de données d'annotation. Le fait que le système opère en temps réel sur des itinéraires inédits constitue une validation partielle du sim-to-real pour la navigation extérieure non structurée. L'écart résiduel de 7% avec un système cartographié reste un indicateur honnête des limites actuelles : la carte conserve un avantage mesurable. La navigation mapless en extérieur est un problème ouvert depuis des années : les solutions SLAM indoor ne se transfèrent pas aux terrains variables (végétation, météo, absence de repères stables). Sem-NaVAE s'inscrit dans une tendance récente qui exploite les VLM pour une compréhension sémantique du monde réel, dans la lignée de ViNT (Stanford/Berkeley) ou de GNFactor. Côté industriel, des acteurs comme Boston Dynamics, Clearpath (désormais Rockwell Automation) ou le français Exotec restent principalement positionnés sur des environnements contrôlés et structurés. Le preprint ne mentionne aucun partenaire industriel ni timeline de commercialisation ; les prochaines étapes logiques seraient une validation sur des distances plus longues, des conditions météorologiques adverses, et une comparaison formelle avec des approches VLA de type end-to-end.

UEImpact indirect : les opérateurs d'AMR outdoor européens (agriculture, chantiers, logistique) pourraient bénéficier d'une navigation sans cartographie préalable, mais aucun acteur ou financement européen n'est impliqué dans ces travaux.

RecherchePaper

1 source

SuReNav : navigation par graphe de superpixels avec relaxation de contraintes en environnements sur-contraints

43

4arXiv cs.RO

SuReNav : navigation par graphe de superpixels avec relaxation de contraintes en environnements sur-contraints

Des chercheurs ont publié sur arXiv (identifiant 2602.06807) SuReNav, une méthode de navigation robotique conçue pour les environnements dits "sur-contraints", où aucun chemin ne permet d'éviter l'intégralité des obstacles. Le problème visé est concret : dans des espaces semi-statiques (couloirs partiellement encombrés, zones urbaines, campus), les planificateurs classiques échouent ou bloquent faute de solution "parfaite". SuReNav repose sur trois composantes : une carte en graphe de superpixels encodant des contraintes régionales hiérarchisées, un réseau de neurones sur graphe (GNN) entraîné sur des démonstrations humaines pour relâcher sélectivement ces contraintes, et un mécanisme d'entrelacement entre relaxation, planification et exécution en temps réel. La méthode a été évaluée sur des cartes sémantiques 2D et des environnements 3D issus d'OpenStreetMap, obtenant le meilleur score de "ressemblance humaine" parmi les baselines testées. Une démonstration en navigation urbaine réelle a été réalisée avec un quadrupède Spot de Boston Dynamics. L'apport principal est de dépasser les limites des planificateurs à coûts prédéfinis, peu transférables à des environnements inédits. En s'appuyant sur des démonstrations humaines, le GNN apprend à distinguer les zones passables "en dernier recours" des zones strictement interdites, une nuance que les heuristiques fixes peinent à capturer sans sur-estimation systématique. Pour les intégrateurs déployant des robots mobiles en milieux semi-statiques, l'enjeu est direct : le robot cesse de bloquer face à une impasse et produit une solution "best-effort" minimisant le risque traversé. La généralisation sans reconfiguration manuelle des coûts est particulièrement pertinente pour des déploiements à grande échelle. Il convient toutefois de noter que les métriques de "human-likeness" restent auto-définies par les auteurs, et que les vidéos disponibles ne couvrent qu'un sous-ensemble de scénarios. SuReNav s'inscrit dans la tendance à l'apprentissage par imitation pour la navigation mobile, un axe activement exploré par des équipes comme ETH Zurich, CMU Robotics Institute ou dans le cadre de projets EU sur la robotique en espace public. La méthode se distingue des approches VLA (Vision-Language-Action) pures par son ancrage dans une représentation spatiale structurée plutôt que dans un modèle de langage génératif, ce qui la rend plus interprétable et plus légère computationnellement. Les principaux concurrents sur ce créneau incluent des planificateurs à champ de potentiel augmentés et des méthodes de navigation par apprentissage par renforcement. Aucun déploiement commercial n'est annoncé : il s'agit d'un résultat de recherche avec validation expérimentale sur Spot, dont le code est publié sur sure-nav.github.io, ouvrant la voie à des reproductions et pilotes industriels.

UELa méthode est directement pertinente pour les projets européens déployant des robots mobiles en espaces publics semi-statiques (couloirs, campus, zones urbaines), un axe exploré par ETH Zurich et plusieurs consortiums EU, et le code ouvert facilite des pilotes industriels sur le Vieux Continent.

RecherchePaper

1 source

MASt3R-Nav : navigation WayPixel dans des cartes 3D relatives

À lire aussi

SignScene : ancrage visuel des panneaux pour la navigation sans carte

Mémoire plutôt que cartes : localisation d'objets 3D sans reconstruction

Sem-NaVAE : navigation extérieure sans carte guidée sémantiquement via des trajectoires génératives

SuReNav : navigation par graphe de superpixels avec relaxation de contraintes en environnements sur-contraints