RecherchearXiv cs.RO6sem

CLUE : indices contextuels à priorité adaptative et carte sémantique unifiée pour la navigation zero-shot vers des objets cibles

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2605.19206) un framework de navigation baptisé CLUE, conçu pour résoudre le problème de la navigation vers des objets cibles sans entraînement préalable sur ces objets, un défi connu sous le nom de zero-shot object-goal navigation (ZSON). L'idée centrale : un agent robotique doit localiser un objet donné dans un environnement inconnu en exploitant deux types d'indices contextuels, les pièces (un réfrigérateur se trouve presque toujours dans une cuisine) et les objets voisins co-localisés (des ciseaux peuvent se trouver partout, mais souvent près d'un bureau ou d'un plan de travail). CLUE extrait des connaissances de bon sens à partir d'un grand modèle de langage (LLM) utilisé hors ligne, calcule un score d'association entre la cible et les types de pièces, puis construit une carte sémantique unifiée pondérant dynamiquement ces deux sources d'information selon l'ambiguïté de la cible. Un mécanisme de vérification multi-points de vue complète le système. Les expériences menées en simulation et dans des environnements réels montrent que CLUE dépasse les baselines de l'état de l'art sur les métriques de taux de succès (SR) et de succès pondéré par la longueur du chemin (SPL), sans que des chiffres absolus ne soient communiqués dans l'abstract.

L'intérêt pratique de cette approche tient à une critique implicite des méthodes existantes : traiter tous les indices contextuels avec le même poids conduit à une exploration inefficace. Pour un intégrateur de robots de service, cela signifie des trajectoires plus courtes et une meilleure résilience dans des environnements non cartographiés, comme les hôpitaux, les entrepôts ou les environnements domestiques. L'utilisation d'un LLM hors ligne, plutôt qu'en inférence temps réel, réduit la latence et les dépendances cloud, un avantage concret pour le déploiement industriel. La démonstration en environnement réel, même si ses conditions exactes ne sont pas précisées, distingue CLUE de nombreux travaux restés en simulation pure.

Ce travail s'inscrit dans un champ de recherche actif sur la navigation sémantique, aux côtés de méthodes comme ESC, VLFM ou SemEXP, issues principalement de laboratoires américains (CMU, Georgia Tech, Berkeley). CLUE se positionne comme une couche d'arbitrage contextuel au-dessus de ces approches plutôt que comme une refonte complète de l'architecture. Le papier est une prépublication arXiv, non encore évalué par les pairs, ce qui invite à la prudence sur la généralisabilité des résultats. Aucune affiliation industrielle ni plateforme matérielle spécifique n'est mentionnée. Les prochaines étapes naturelles seraient une validation sur des robots commerciaux (AMR de type Boston Dynamics Spot, Hello Robot Stretch ou plateformes mobiles ROS2-compatibles) et une comparaison sur les benchmarks standardisés HM3D ou Gibson.

Dans nos dossiers

Boston Dynamics arXiv cs.RO

À lire aussi

1arXiv cs.RO

Le Navigateur de Schrödinger : imaginer un ensemble de futurs pour la navigation vers des objets en zéro-shot

Des chercheurs ont présenté sur arXiv (2512.21201, v3, déposé en décembre 2025) Schrödinger's Navigator, un système de navigation zéro-shot d'objets (ZSON) pour robots mobiles. Le principe : à l'inférence, le système génère plusieurs "futurs 3D imaginés" le long de trajectoires candidates, maintenant une superposition de représentations plausibles de la scène plutôt que de s'engager sur une carte unique. Un échantillonneur adaptatif concentre l'effort sur les zones occultées et incertaines, tandis qu'une Future-Aware Value Map (FAVM) agrège ces projections pour sélectionner des waypoints proactifs et conscients des risques. Les expériences ont été menées en simulation et sur un quadrupède physique Unitree Go2 dans des scènes encombrées à forte occlusion, avec des résultats supérieurs aux meilleures baselines ZSON actuelles en termes de détection de cibles cachées. Le fossé simulation-réel est l'un des obstacles structurels de la robotique de service : les systèmes efficaces en simulation se dégradent souvent dans des environnements réels encombrés, où les zones inexplorées rendent l'inférence sur une scène unique fragile et risquée. Schrödinger's Navigator attaque ce verrou en raisonnant sur des futurs hypothétiques à l'inférence, sans retraining, ce qui ouvre la voie à une navigation autonome sans cartographie préalable dans des entrepôts, hôpitaux ou bâtiments publics non structurés. La validation sur hardware physique (Go2) plutôt qu'exclusivement en simulation renforce la crédibilité de l'approche, même si les métriques précises (taux de succès chiffrés, nombre de scènes testées) n'apparaissent pas dans le résumé publié. La ZSON est un champ actif mobilisant laboratoires et équipes R&D industrielles, avec des approches concurrentes basées sur des modèles de langage visuel (VLM) ou des représentations sémantiques 3D comme les NeRF ou le Gaussian Splatting. L'originalité de cette proposition est l'usage d'un modèle de monde 3D conditionné par la trajectoire pour projeter des futurs probables, une transposition directe du paradoxe de Schrödinger à la planification sous incertitude. La recherche, déjà en troisième version sur arXiv, reste purement académique : aucun déploiement commercial ni pilote industriel n'est annoncé. Elle constitue néanmoins un signal pertinent pour les équipes travaillant sur la navigation autonome en environnements dynamiques et non structurés, en particulier dans le contexte de l'essor des robots de service et des humanoïdes de deuxième génération.

RecherchePaper

1 source

2arXiv cs.RO

OSCAR : courbes de survie aux obstacles pour la navigation adaptative des robots

Des chercheurs ont publié le 1er juin 2026 sur arXiv (réf. 2606.00990) un framework de navigation adaptative baptisé OSCAR (Obstacle Survival Curves for Adaptive Robot Navigation), conçu pour les robots mobiles naviguant sur des graphes de routes prédéfinies. Le problème ciblé est précis : quand un obstacle temporaire bloque un nœud critique du graphe, le robot doit décider d'attendre ou de recalculer un itinéraire alternatif. OSCAR répond à cette décision en apprenant, par expérience en ligne, des distributions statistiques de durée de présence selon la classe d'obstacle (piéton, chaise, poubelle, chariot, tube). Ces modèles de survie, y compris les observations censurées à droite (cas où le robot reroutait avant d'observer la libération effective de l'obstacle), alimentent un planificateur de graphe temporel qui calcule un seuil de patience par arête bloquée. En simulation, la politique apprise converge à moins de 1 % d'un oracle disposant des distributions réelles de dégagement après moins de 20 observations par classe d'obstacle, surpassant tous les heuristiques de référence. En déploiement réel dans un atrium universitaire, le système améliore ses seuils de patience au fil de 50 épisodes de navigation. L'intérêt pour les intégrateurs de robots mobiles autonomes (AMR) est direct : les systèmes actuels appliquent soit de la réactivité locale (évitement d'obstacles à l'instant T), soit des règles fixes de type "attendre X secondes puis rerouter", sans modéliser la sémantique temporelle de l'obstacle. OSCAR comble cet écart en montrant qu'un modèle de survie conditionné à la classe, mis à jour en ligne, suffit à se rapprocher du comportement optimal sans connaissance a priori des distributions réelles. Cela réduit concrètement les temps morts dans des environnements semi-dynamiques comme les entrepôts, les hôpitaux ou les campus, où la majorité des blocages sont transitoires mais de durée variable selon leur nature. OSCAR s'inscrit dans un courant de recherche qui vise à dépasser la navigation réactive pure pour introduire de la mémoire contextuelle dans la planification. La littérature existante sur la navigation en graphe traite généralement les obstacles comme statiques ou entièrement imprévisibles ; les modèles de survie, issus de la biostatistique et de la fiabilité industrielle, restent rares dans ce domaine. Les concurrents fonctionnels incluent les approches de navigation socio-consciente (social force models, ORCA) et les planificateurs probabilistes à horizon temporel (POMDP), mais ces derniers sont computationnellement coûteux. OSCAR se positionne comme une alternative légère et incrémentale, compatible avec des plateformes AMR standard. La prochaine étape naturelle serait de tester la généralisation à des environnements à plus forte densité d'obstacles ou à des classes non vues à l'entraînement.

RecherchePaper

1 source

3arXiv cs.RO

SurveilNav : navigation collaborative vers des objets cibles avec robot et système de surveillance

Une équipe de chercheurs propose SurveilNav, un système de navigation collaborative couplant un robot mobile à un réseau de caméras de surveillance fixes pour localiser des objets dans des espaces intérieurs de grande surface. Présenté sous forme de preprint arXiv (arXiv:2606.25119, juin 2026), le travail introduit un jeu de données inédit construit sur le simulateur Habitat-Sim, comportant 206 caméras réparties sur 74 étages. Le framework s'articule autour de quatre composants : un ordonnanceur de caméras actives, une cartographie conjointe 2D/3D, une estimation de valeur fondée sur un VLM (Vision-Language Model), et une vérification collaborative de la cible détectée. Évalué sur le benchmark HM3D (Habitat-Matterport 3D), SurveilNav atteint des résultats état de l'art en efficacité d'exploration et en taux de succès de navigation par rapport aux méthodes mono-agent existantes. L'intérêt technique tient à la complémentarité des deux types de perception : un robot mobile dispose d'une vue dynamique locale mais limitée par sa portée et ses angles morts, tandis qu'un réseau de caméras fixes offre une couverture globale statique, incomplète par construction. SurveilNav fusionne ces deux sources en temps réel via cartographie 3D partagée et estimation sémantique par VLM, permettant de prioriser les zones à explorer sans balayage exhaustif. Pour les intégrateurs industriels opérant dans des entrepôts ou usines déjà équipés d'infrastructure vidéo, la proposition est directement pertinente : elle exploite un actif existant (le réseau CCTV) pour augmenter les capacités des AMR sans modifier le matériel. L'usage du VLM pour l'estimation de valeur sémantique reste néanmoins un point à surveiller, les auteurs ne précisant pas la latence d'inférence ni sa compatibilité avec une navigation temps réel en conditions réelles. Le champ de l'Object Goal Navigation (OGN) s'est principalement construit sur des architectures mono-agent et des environnements simulés (Habitat, AI2-THOR, Gibson). L'extension vers un réseau de capteurs fixes hétérogènes représente une direction logique vers des scénarios industriels réels, où bâtiments tertiaires et usines sont massivement équipés de systèmes CCTV. Les travaux concurrents sur la navigation multi-robot, comme MultiON ou CoNav, restent centrés sur la coopération entre agents mobiles homogènes et ne tirent pas parti de l'infrastructure fixe existante. Aucun acteur européen n'est impliqué selon le résumé disponible. Les débouchés envisagés, dont la recherche en zone sinistrée (search-and-rescue) et la domotique, restent au stade de la validation en simulation : aucun déploiement terrain ni partenariat industriel n'est annoncé.

RecherchePaper

1 source

4arXiv cs.RO

Diffusion de carte d'étiquettes plug-and-play pour la navigation universelle orientée objectif

Une équipe de chercheurs a publié le 8 mai 2026 sur arXiv (référence 2605.05960) une méthode baptisée PLMD (Plug-and-Play Label Map Diffusion) pour la navigation robotique orientée objectif, dite GON (Goal-Oriented Navigation). Le défi central de cette classe de problèmes est le suivant : un robot doit localiser un objet cible dans un environnement qu'il n'a pas encore exploré, en construisant simultanément une carte en vue du dessus (BEV, Bird's-Eye-View). PLMD mobilise les modèles de diffusion probabiliste par débruitage (DDPM), popularisés en génération d'images, pour compléter ces cartes partielles à la volée : le système génère des étiquettes d'obstacles et des labels sémantiques pour les zones non encore visitées, permettant au robot de raisonner sur des régions qu'il n'a pas encore traversées. Les auteurs annoncent des performances état de l'art sur trois tâches GON distinctes, sans détailler les benchmarks ni les marges dans le seul abstract disponible. L'intérêt de l'approche tient à deux corrections apportées aux limites des méthodes existantes. Les cartes sémantiques auto-centrées échouent fréquemment en exploration partielle, précisément le cas réel, car elles supposent une connaissance complète de l'environnement. PLMD contourne ce verrou en extrapolant les zones inconnues de façon structurée, en exploitant la cohérence géométrique entre obstacles connus et inconnus pour guider le débruitage sémantique. Parallèlement, l'incohérence d'association sémantique, un même objet catégorisé différemment selon le point de vue du robot, est atténuée en intégrant des priors d'obstacles dans ce processus. Le qualificatif "plug-and-play" n'est pas qu'un argument marketing : la méthode est architecturée pour se greffer sur des pipelines de navigation sémantique existants sans réentraînement complet des modules sous-jacents, ce qui facilite son adoption dans des systèmes déjà déployés. La navigation orientée objectif dans des environnements non cartographiés est un problème de référence de l'embodied AI, évalué classiquement sur des benchmarks comme HM3D, MP3D ou RoboTHOR. Les approches concurrentes vont de l'exploration par frontières (frontier-based) aux modèles de langage visuels (VLM) comme EmbCLIP ou ESC, qui contournent la carte explicite en s'appuyant sur des embeddings pré-entraînés. PLMD se positionne dans le segment "map-based" en cherchant à corriger ses faiblesses structurelles plutôt qu'à les éviter. L'application des modèles de diffusion à la complétion de cartes topologiques est une direction de recherche émergente, distincte de leur usage en synthèse d'images ou de trajectoires. À ce stade, la contribution reste une validation en simulation, une évaluation sur robots physiques constituerait la prochaine étape décisive.

RecherchePaper

1 source