SignScene : ancrage visuel des panneaux pour la…

49

1arXiv cs.RO

« Cartes sémantiques enrichies par instance pour la navigation en langage visuel »

Une équipe de recherche (RCI Lab) publie un nouveau framework baptisé Instance-Enriched Semantic Maps pour la navigation par instructions en langage naturel (Visual Language Navigation, VLN), avec trois apports techniques. D'abord, une cartographie 2.5D au niveau instance construite à partir d'images couleur et de profondeur via segmentation panoptique en vocabulaire ouvert, qui préserve les distinctions verticales et capture les petits objets, tout en associant à chaque élément des attributs sémantiques et des descriptions en langage naturel enrichies du contexte de la pièce. Ensuite, un module de traitement des requêtes s'appuyant sur un LLM pour sélectionner la cible, en routant dynamiquement les requêtes vers des experts spécialisés par type et en fusionnant leurs scores pour une sélection d'objectif cohérente quel que soit le formulation de la requête. Enfin, une représentation sémantique nettement plus compacte, avec une réduction de stockage d'environ 96 % par rapport aux approches à scene-graph 3D, tout en conservant l'information spatiale nécessaire à la navigation. Sur le plan des résultats, la représentation 2.5D dépasse la référence 3D de plus de 27 % en AUC normalisée, et le système complet améliore la récupération d'objets de plus de 17 % et le taux de réussite de navigation de plus de 23 % par rapport à la baseline, sur des types de requêtes variés. Pour les robots mobiles autonomes (AMR) et les agents embarqués évoluant en intérieur, ces travaux ciblent un goulot d'étranglement connu des systèmes VLN actuels : la cartographie sémantique existante manque de granularité au niveau des instances individuelles et se montre fragile face à la diversité réelle des formulations utilisateur. En réduisant drastiquement le coût de stockage des cartes tout en gardant leur précision spatiale, l'approche répond à une contrainte concrète de déploiement embarqué, où la mémoire et le calcul restent limités. C'est un signal que la navigation par langage naturel progresse vers une robustesse compatible avec des usages industriels au-delà des démonstrations de laboratoire. Le travail s'inscrit dans la lignée des systèmes VLN combinant cartes spatiales sémantiques et raisonnement par LLM, une direction de recherche active depuis l'essor des modèles de segmentation en vocabulaire ouvert. Les auteurs comparent explicitement leur méthode à des approches de référence en scene-graph 3D, positionnant leur contribution comme une alternative plus légère et plus précise. Le code et les démonstrations sont disponibles sur la page du projet, mais aucun calendrier de déploiement sur robot physique n'est mentionné à ce stade.

RecherchePaper

1 source

FeudalNav : un framework simple pour la navigation visuelle

36

2arXiv cs.RO

FeudalNav : un framework simple pour la navigation visuelle

Des chercheurs ont publié sur arXiv (référence 2602.06974) FeudalNav, un cadre hiérarchique de navigation visuelle pour robots mobiles qui ne requiert ni carte métrique, ni GPS, ni données odométriques en phase d'entraînement ou d'inférence. Le système décompose la prise de décision en plusieurs niveaux : un réseau de sélection de sous-objectifs (waypoints) léger et transférable choisit des points intermédiaires, tandis qu'un module de mémoire dans l'espace latent organise les observations visuelles passées par similarité visuelle, utilisée comme proxy de distance. Ce module de mémoire remplace les représentations topologiques classiques basées sur des graphes, sans dégradation notable des performances. Les résultats sont obtenus dans les environnements simulés Habitat AI, un benchmark standard du domaine, et montrent des scores compétitifs face aux méthodes état de l'art. Les auteurs explorent également une modalité d'navigation interactive : ils quantifient la quantité minimale d'intervention humaine nécessaire pour atteindre un taux de succès de 100% sur l'ensemble des trajectoires testées. L'intérêt de FeudalNav réside dans sa sobriété architecturale. Là où la plupart des navigateurs apprenants reposent sur des graphes topologiques coûteux à maintenir ou sur des représentations métriques qui échouent dans des environnements non cartographiés, FeudalNav prouve qu'une mémoire visuelle latente simple suffit pour guider un agent vers un objectif en terrain inconnu. Cette approche réduit les exigences d'infrastructure embarquée (pas de capteur odométrique requis) et améliore la transférabilité entre environnements, deux critères directement pertinents pour les intégrateurs de robots de service ou d'inspection industrielle. La composante interactive est notable : même une intervention humaine minimale et ponctuelle augmente significativement le taux de réussite global, ce qui ouvre la voie à des architectures human-in-the-loop adaptatives. FeudalNav s'inscrit dans un courant de recherche actif visant à dépasser les navigateurs métriques classiques (SLAM, cartographie 2D/3D) en faveur d'approches fondées sur l'apprentissage et la mémoire sémantique, directement inspirées de la cognition spatiale humaine. Le benchmark Habitat AI, développé par Meta AI Research, est devenu la référence pour évaluer ce type de systèmes en simulation. Les méthodes concurrentes incluent les approches à graphes topologiques (NoMaD, ViNT de Berkeley) et les navigateurs basés sur des Vision-Language Models (VLMaps, CoW). FeudalNav se distingue par sa légèreté et l'absence d'odométrie, mais reste pour l'instant cantonné à la simulation, sans validation sur robot physique annoncée dans cet article.

RecherchePaper

1 source

OSCAR : courbes de survie aux obstacles pour la navigation adaptative des robots

38

3arXiv cs.RO

OSCAR : courbes de survie aux obstacles pour la navigation adaptative des robots

Des chercheurs ont publié le 1er juin 2026 sur arXiv (réf. 2606.00990) un framework de navigation adaptative baptisé OSCAR (Obstacle Survival Curves for Adaptive Robot Navigation), conçu pour les robots mobiles naviguant sur des graphes de routes prédéfinies. Le problème ciblé est précis : quand un obstacle temporaire bloque un nœud critique du graphe, le robot doit décider d'attendre ou de recalculer un itinéraire alternatif. OSCAR répond à cette décision en apprenant, par expérience en ligne, des distributions statistiques de durée de présence selon la classe d'obstacle (piéton, chaise, poubelle, chariot, tube). Ces modèles de survie, y compris les observations censurées à droite (cas où le robot reroutait avant d'observer la libération effective de l'obstacle), alimentent un planificateur de graphe temporel qui calcule un seuil de patience par arête bloquée. En simulation, la politique apprise converge à moins de 1 % d'un oracle disposant des distributions réelles de dégagement après moins de 20 observations par classe d'obstacle, surpassant tous les heuristiques de référence. En déploiement réel dans un atrium universitaire, le système améliore ses seuils de patience au fil de 50 épisodes de navigation. L'intérêt pour les intégrateurs de robots mobiles autonomes (AMR) est direct : les systèmes actuels appliquent soit de la réactivité locale (évitement d'obstacles à l'instant T), soit des règles fixes de type "attendre X secondes puis rerouter", sans modéliser la sémantique temporelle de l'obstacle. OSCAR comble cet écart en montrant qu'un modèle de survie conditionné à la classe, mis à jour en ligne, suffit à se rapprocher du comportement optimal sans connaissance a priori des distributions réelles. Cela réduit concrètement les temps morts dans des environnements semi-dynamiques comme les entrepôts, les hôpitaux ou les campus, où la majorité des blocages sont transitoires mais de durée variable selon leur nature. OSCAR s'inscrit dans un courant de recherche qui vise à dépasser la navigation réactive pure pour introduire de la mémoire contextuelle dans la planification. La littérature existante sur la navigation en graphe traite généralement les obstacles comme statiques ou entièrement imprévisibles ; les modèles de survie, issus de la biostatistique et de la fiabilité industrielle, restent rares dans ce domaine. Les concurrents fonctionnels incluent les approches de navigation socio-consciente (social force models, ORCA) et les planificateurs probabilistes à horizon temporel (POMDP), mais ces derniers sont computationnellement coûteux. OSCAR se positionne comme une alternative légère et incrémentale, compatible avec des plateformes AMR standard. La prochaine étape naturelle serait de tester la généralisation à des environnements à plus forte densité d'obstacles ou à des classes non vues à l'entraînement.

RecherchePaper

1 source

48

4arXiv cs.RO

RVN-Bench : un benchmark pour la navigation visuelle réactive

Des chercheurs présentent RVN-Bench (Reactive Visual Navigation Benchmark), un nouveau protocole d'évaluation pour la navigation visuelle sécurisée des robots mobiles en intérieur. Construit sur le simulateur Habitat 2.0 et les scènes photoréalistes HM3D, RVN-Bench place un agent robotique dans des environnements intérieurs jamais vus auparavant, sans carte préalable, avec pour seule information des observations visuelles brutes. L'agent doit atteindre une série d'objectifs de position successifs tout en évitant les collisions, une contrainte que les benchmarks existants négligent généralement ou qu'ils appliquent à des scénarios extérieurs peu transposables aux espaces encombrés d'un intérieur. Le système fournit un environnement d'apprentissage par renforcement en ligne, un générateur de jeux de trajectoires en images, ainsi que des outils dédiés à la production de jeux de données "négatifs" capturant spécifiquement les événements de collision, permettant un entraînement hors ligne aussi bien qu'en ligne. Les auteurs ont validé leur approche par des tests physiques sur un robot terrestre Jackal UGV. Ce travail comble un vide méthodologique réel pour l'industrie robotique : la plupart des benchmarks de navigation visuelle mesurent la capacité à atteindre un objectif sans pénaliser les collisions, ce qui masque un défaut critique pour tout déploiement en usine, entrepôt ou établissement de santé où un robot mobile évolue au milieu d'humains et d'obstacles mobiles. En intégrant la sécurité de trajectoire comme métrique de premier plan, RVN-Bench donne aux équipes de recherche et aux intégrateurs un outil standardisé pour comparer des politiques de navigation sur un critère qui compte réellement en production, plutôt que sur la seule réussite de la tâche. Les résultats indiquant une généralisation à des environnements simulés inédits et un transfert sim-to-real prometteur sur Jackal restent toutefois préliminaires : les auteurs eux-mêmes qualifient ces expériences physiques d'initiales, et la portée du transfert vers des robots aux dynamiques différentes reste à démontrer. RVN-Bench s'inscrit dans une lignée de benchmarks de navigation basés sur Habitat, déjà largement utilisés par la communauté de recherche en robotique et en apprentissage par renforcement visuel. Le code, les jeux de données et les outils associés sont publiés en accès libre, une pratique désormais standard pour ce type de contribution académique visant l'adoption par d'autres laboratoires. Aucun acteur français ou européen n'est mentionné dans ces travaux, qui restent pour l'instant au stade de la recherche et n'ont pas de calendrier de déploiement commercial annoncé.

RecherchePaper

1 source

SignScene : ancrage visuel des panneaux pour la navigation sans carte

À lire aussi

« Cartes sémantiques enrichies par instance pour la navigation en langage visuel »

FeudalNav : un framework simple pour la navigation visuelle

OSCAR : courbes de survie aux obstacles pour la navigation adaptative des robots

RVN-Bench : un benchmark pour la navigation visuelle réactive