RecherchearXiv cs.RO3h

SurveilNav : navigation collaborative vers des objets cibles avec robot et système de surveillance

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs propose SurveilNav, un système de navigation collaborative couplant un robot mobile à un réseau de caméras de surveillance fixes pour localiser des objets dans des espaces intérieurs de grande surface. Présenté sous forme de preprint arXiv (arXiv:2606.25119, juin 2026), le travail introduit un jeu de données inédit construit sur le simulateur Habitat-Sim, comportant 206 caméras réparties sur 74 étages. Le framework s'articule autour de quatre composants : un ordonnanceur de caméras actives, une cartographie conjointe 2D/3D, une estimation de valeur fondée sur un VLM (Vision-Language Model), et une vérification collaborative de la cible détectée. Évalué sur le benchmark HM3D (Habitat-Matterport 3D), SurveilNav atteint des résultats état de l'art en efficacité d'exploration et en taux de succès de navigation par rapport aux méthodes mono-agent existantes.

L'intérêt technique tient à la complémentarité des deux types de perception : un robot mobile dispose d'une vue dynamique locale mais limitée par sa portée et ses angles morts, tandis qu'un réseau de caméras fixes offre une couverture globale statique, incomplète par construction. SurveilNav fusionne ces deux sources en temps réel via cartographie 3D partagée et estimation sémantique par VLM, permettant de prioriser les zones à explorer sans balayage exhaustif. Pour les intégrateurs industriels opérant dans des entrepôts ou usines déjà équipés d'infrastructure vidéo, la proposition est directement pertinente : elle exploite un actif existant (le réseau CCTV) pour augmenter les capacités des AMR sans modifier le matériel. L'usage du VLM pour l'estimation de valeur sémantique reste néanmoins un point à surveiller, les auteurs ne précisant pas la latence d'inférence ni sa compatibilité avec une navigation temps réel en conditions réelles.

Le champ de l'Object Goal Navigation (OGN) s'est principalement construit sur des architectures mono-agent et des environnements simulés (Habitat, AI2-THOR, Gibson). L'extension vers un réseau de capteurs fixes hétérogènes représente une direction logique vers des scénarios industriels réels, où bâtiments tertiaires et usines sont massivement équipés de systèmes CCTV. Les travaux concurrents sur la navigation multi-robot, comme MultiON ou CoNav, restent centrés sur la coopération entre agents mobiles homogènes et ne tirent pas parti de l'infrastructure fixe existante. Aucun acteur européen n'est impliqué selon le résumé disponible. Les débouchés envisagés, dont la recherche en zone sinistrée (search-and-rescue) et la domotique, restent au stade de la validation en simulation : aucun déploiement terrain ni partenariat industriel n'est annoncé.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Navigation et exploration collaboratives avec des processus gaussiens épars bêta

Une équipe de chercheurs a publié sur arXiv (référence 2605.26304) un cadre algorithmique pour la navigation collaborative de robots hétérogènes dans des environnements inconnus. Le scénario étudié met en jeu deux plateformes : un robot principal chargé d'atteindre une cible, secondé par un robot capteur mobile (un drone dans les exemples) qui observe l'environnement local et transmet des informations sous contraintes de bande passante. Le système proposé, baptisé β-Sparse Gaussian Processes (βSGP), permet au drone de sélectionner simultanément quels points de sa carte transmettre et quelle trajectoire d'exploration adopter. Les simulations conduites sur des cartes Mars et terrestres affichent une réduction de 18 % du coût de chemin par rapport à une navigation sans communication, et une diminution de 76 % des données transmises face aux approches par transmission brute. L'intérêt principal du travail réside dans la co-optimisation de la communication et de l'action. Dans la majorité des systèmes multi-robots existants, la sélection des données à transmettre et la planification de trajectoire sont traitées séparément ; ici, elles sont couplées dans un cadre variationnel unique, ce qui permet au drone d'anticiper les zones non encore explorées et de prioriser l'information utile à la navigation du robot principal. Pour un intégrateur ou un opérateur industriel, cela se traduit par une architecture réaliste sous contrainte radio, applicable à l'inspection de sites isolés, à la cartographie d'urgence ou à l'exploration planétaire où les liaisons haut-débit sont exclues. Les Gaussian Processes sont une approche probabiliste classique pour la modélisation spatiale, mais leur passage à l'échelle se heurte à une complexité cubique. Les variantes sparse (à points inducteurs) sont connues depuis les travaux de Snelson et Ghahramani (2006), mais la sélection de ces points reste généralement agnostique à la tâche aval. Le βSGP adresse précisément ce verrou. Il convient de noter que les résultats présentés sont exclusivement en simulation ; aucun déploiement réel n'est rapporté, et l'écart sim-to-real reste à évaluer. Les prochaines étapes naturelles impliqueraient une validation sur plateforme physique et une comparaison avec des approches par apprentissage (GNN, transformers de cartes).

RecherchePaper

1 source

2arXiv cs.RO

OSCAR : courbes de survie aux obstacles pour la navigation adaptative des robots

Des chercheurs ont publié le 1er juin 2026 sur arXiv (réf. 2606.00990) un framework de navigation adaptative baptisé OSCAR (Obstacle Survival Curves for Adaptive Robot Navigation), conçu pour les robots mobiles naviguant sur des graphes de routes prédéfinies. Le problème ciblé est précis : quand un obstacle temporaire bloque un nœud critique du graphe, le robot doit décider d'attendre ou de recalculer un itinéraire alternatif. OSCAR répond à cette décision en apprenant, par expérience en ligne, des distributions statistiques de durée de présence selon la classe d'obstacle (piéton, chaise, poubelle, chariot, tube). Ces modèles de survie, y compris les observations censurées à droite (cas où le robot reroutait avant d'observer la libération effective de l'obstacle), alimentent un planificateur de graphe temporel qui calcule un seuil de patience par arête bloquée. En simulation, la politique apprise converge à moins de 1 % d'un oracle disposant des distributions réelles de dégagement après moins de 20 observations par classe d'obstacle, surpassant tous les heuristiques de référence. En déploiement réel dans un atrium universitaire, le système améliore ses seuils de patience au fil de 50 épisodes de navigation. L'intérêt pour les intégrateurs de robots mobiles autonomes (AMR) est direct : les systèmes actuels appliquent soit de la réactivité locale (évitement d'obstacles à l'instant T), soit des règles fixes de type "attendre X secondes puis rerouter", sans modéliser la sémantique temporelle de l'obstacle. OSCAR comble cet écart en montrant qu'un modèle de survie conditionné à la classe, mis à jour en ligne, suffit à se rapprocher du comportement optimal sans connaissance a priori des distributions réelles. Cela réduit concrètement les temps morts dans des environnements semi-dynamiques comme les entrepôts, les hôpitaux ou les campus, où la majorité des blocages sont transitoires mais de durée variable selon leur nature. OSCAR s'inscrit dans un courant de recherche qui vise à dépasser la navigation réactive pure pour introduire de la mémoire contextuelle dans la planification. La littérature existante sur la navigation en graphe traite généralement les obstacles comme statiques ou entièrement imprévisibles ; les modèles de survie, issus de la biostatistique et de la fiabilité industrielle, restent rares dans ce domaine. Les concurrents fonctionnels incluent les approches de navigation socio-consciente (social force models, ORCA) et les planificateurs probabilistes à horizon temporel (POMDP), mais ces derniers sont computationnellement coûteux. OSCAR se positionne comme une alternative légère et incrémentale, compatible avec des plateformes AMR standard. La prochaine étape naturelle serait de tester la généralisation à des environnements à plus forte densité d'obstacles ou à des classes non vues à l'entraînement.

RecherchePaper

1 source

3arXiv cs.RO

CLUE : indices contextuels à priorité adaptative et carte sémantique unifiée pour la navigation zero-shot vers des objets cibles

Des chercheurs ont publié sur arXiv (référence 2605.19206) un framework de navigation baptisé CLUE, conçu pour résoudre le problème de la navigation vers des objets cibles sans entraînement préalable sur ces objets, un défi connu sous le nom de zero-shot object-goal navigation (ZSON). L'idée centrale : un agent robotique doit localiser un objet donné dans un environnement inconnu en exploitant deux types d'indices contextuels, les pièces (un réfrigérateur se trouve presque toujours dans une cuisine) et les objets voisins co-localisés (des ciseaux peuvent se trouver partout, mais souvent près d'un bureau ou d'un plan de travail). CLUE extrait des connaissances de bon sens à partir d'un grand modèle de langage (LLM) utilisé hors ligne, calcule un score d'association entre la cible et les types de pièces, puis construit une carte sémantique unifiée pondérant dynamiquement ces deux sources d'information selon l'ambiguïté de la cible. Un mécanisme de vérification multi-points de vue complète le système. Les expériences menées en simulation et dans des environnements réels montrent que CLUE dépasse les baselines de l'état de l'art sur les métriques de taux de succès (SR) et de succès pondéré par la longueur du chemin (SPL), sans que des chiffres absolus ne soient communiqués dans l'abstract. L'intérêt pratique de cette approche tient à une critique implicite des méthodes existantes : traiter tous les indices contextuels avec le même poids conduit à une exploration inefficace. Pour un intégrateur de robots de service, cela signifie des trajectoires plus courtes et une meilleure résilience dans des environnements non cartographiés, comme les hôpitaux, les entrepôts ou les environnements domestiques. L'utilisation d'un LLM hors ligne, plutôt qu'en inférence temps réel, réduit la latence et les dépendances cloud, un avantage concret pour le déploiement industriel. La démonstration en environnement réel, même si ses conditions exactes ne sont pas précisées, distingue CLUE de nombreux travaux restés en simulation pure. Ce travail s'inscrit dans un champ de recherche actif sur la navigation sémantique, aux côtés de méthodes comme ESC, VLFM ou SemEXP, issues principalement de laboratoires américains (CMU, Georgia Tech, Berkeley). CLUE se positionne comme une couche d'arbitrage contextuel au-dessus de ces approches plutôt que comme une refonte complète de l'architecture. Le papier est une prépublication arXiv, non encore évalué par les pairs, ce qui invite à la prudence sur la généralisabilité des résultats. Aucune affiliation industrielle ni plateforme matérielle spécifique n'est mentionnée. Les prochaines étapes naturelles seraient une validation sur des robots commerciaux (AMR de type Boston Dynamics Spot, Hello Robot Stretch ou plateformes mobiles ROS2-compatibles) et une comparaison sur les benchmarks standardisés HM3D ou Gibson.

RecherchePaper

1 source

4arXiv cs.RO

EffiNav : fusion de la profondeur et du modèle vision-langage pour une navigation efficace vers des objets

Une équipe de chercheurs a publié EffiNav, un framework de navigation robotique orientée-objet (Object Goal Navigation, ObjNav) qui fusionne perception de profondeur et modèles vision-langage pour améliorer l'efficacité des trajectoires d'exploration en environnement inconnu. La contribution, déposée en preprint sur arXiv (2606.18634) en juin 2026, évalue le système sur deux simulateurs de référence du domaine, HM3D (Habitat Matterport 3D) et OVON (Open-Vocabulary Object goal Navigation), puis le valide sur robots physiques en conditions réelles. Les auteurs l'étendent également à GOAT-BENCH, un benchmark de navigation avec mémoire augmentée, pour démontrer la généralisation du framework au-delà du protocole ObjNav standard. Sur les deux métriques habituelles du domaine, taux de succès (SR) et succès pondéré par longueur de chemin (SPL), EffiNav égale ou dépasse les baselines récentes, sans que le preprint ne communique de valeurs numériques absolues permettant une comparaison chiffrée directe. L'apport principal porte moins sur le taux de réussite brut que sur le SPL, qui pénalise les trajets inutilement longs. C'est précisément là que les approches actuelles divergent : les modèles entraînés end-to-end, y compris certains VLA (Vision-Language-Action), peinent à généraliser à de nouveaux environnements, tandis que les frameworks modulaires sans apprentissage accumulent des allers-retours redondants et revisitent des zones déjà explorées. EffiNav prétend adresser ces deux pathologies simultanément en combinant une estimation de la profondeur pour la représentation géométrique de l'espace et un modèle vision-langage pour l'interprétation sémantique. Pour les intégrateurs de robots de service ou les décideurs B2B, l'efficacité de trajectoire est directement liée au temps disponible pour les tâches secondaires, donc à la rentabilité opérationnelle d'un déploiement en entrepôt ou en environnement indoor. Le champ ObjNav s'est structuré autour de l'écosystème Habitat de Meta AI Research, qui fournit les simulateurs HM3D et OVON utilisés ici. Les approches concurrentes incluent des pipelines modulaires à cartographie explicite comme SemExp ou OpenFMNav, et des VLA appliqués à la navigation. EffiNav se positionne comme un framework hybride ne nécessitant ni encodeurs supplémentaires lourds ni réentraînement complet par domaine. Aucune timeline commerciale ni partenariat industriel n'est mentionné dans le preprint ; la prochaine étape naturelle serait une validation sur des plateformes AMR variées pour confirmer le transfert sim-to-real sur des morphologies autres que celles testées.

RecherchePaper

1 source