Navigation et exploration collaboratives avec des proce…

SurveilNav : navigation collaborative vers des objets cibles avec robot et système de surveillance

37

1arXiv cs.RO

SurveilNav : navigation collaborative vers des objets cibles avec robot et système de surveillance

Une équipe de chercheurs propose SurveilNav, un système de navigation collaborative couplant un robot mobile à un réseau de caméras de surveillance fixes pour localiser des objets dans des espaces intérieurs de grande surface. Présenté sous forme de preprint arXiv (arXiv:2606.25119, juin 2026), le travail introduit un jeu de données inédit construit sur le simulateur Habitat-Sim, comportant 206 caméras réparties sur 74 étages. Le framework s'articule autour de quatre composants : un ordonnanceur de caméras actives, une cartographie conjointe 2D/3D, une estimation de valeur fondée sur un VLM (Vision-Language Model), et une vérification collaborative de la cible détectée. Évalué sur le benchmark HM3D (Habitat-Matterport 3D), SurveilNav atteint des résultats état de l'art en efficacité d'exploration et en taux de succès de navigation par rapport aux méthodes mono-agent existantes. L'intérêt technique tient à la complémentarité des deux types de perception : un robot mobile dispose d'une vue dynamique locale mais limitée par sa portée et ses angles morts, tandis qu'un réseau de caméras fixes offre une couverture globale statique, incomplète par construction. SurveilNav fusionne ces deux sources en temps réel via cartographie 3D partagée et estimation sémantique par VLM, permettant de prioriser les zones à explorer sans balayage exhaustif. Pour les intégrateurs industriels opérant dans des entrepôts ou usines déjà équipés d'infrastructure vidéo, la proposition est directement pertinente : elle exploite un actif existant (le réseau CCTV) pour augmenter les capacités des AMR sans modifier le matériel. L'usage du VLM pour l'estimation de valeur sémantique reste néanmoins un point à surveiller, les auteurs ne précisant pas la latence d'inférence ni sa compatibilité avec une navigation temps réel en conditions réelles. Le champ de l'Object Goal Navigation (OGN) s'est principalement construit sur des architectures mono-agent et des environnements simulés (Habitat, AI2-THOR, Gibson). L'extension vers un réseau de capteurs fixes hétérogènes représente une direction logique vers des scénarios industriels réels, où bâtiments tertiaires et usines sont massivement équipés de systèmes CCTV. Les travaux concurrents sur la navigation multi-robot, comme MultiON ou CoNav, restent centrés sur la coopération entre agents mobiles homogènes et ne tirent pas parti de l'infrastructure fixe existante. Aucun acteur européen n'est impliqué selon le résumé disponible. Les débouchés envisagés, dont la recherche en zone sinistrée (search-and-rescue) et la domotique, restent au stade de la validation en simulation : aucun déploiement terrain ni partenariat industriel n'est annoncé.

RecherchePaper

1 source

Exploration multi-robots améliorée par priorisation probabiliste des frontières avec mélanges gaussiens de Dirichlet

38

2arXiv cs.RO

Exploration multi-robots améliorée par priorisation probabiliste des frontières avec mélanges gaussiens de Dirichlet

Des chercheurs ont publié sur arXiv (identifiant 2604.03042) une méthode d'amélioration des algorithmes d'exploration autonome multi-robots, fondée sur une priorisation probabiliste des frontières d'exploration. L'approche repose sur un modèle de mélange gaussien à processus de Dirichlet (DP-GMM), combiné à une formulation probabiliste du gain d'information, pour classer les zones frontières, ces limites entre les régions déjà cartographiées et les espaces encore inconnus. Testée sur deux algorithmes multi-agents de référence dans la littérature, elle affiche des gains moyens de 10 % et 14 % respectivement sur l'ensemble des configurations simulées : environnements à densité d'obstacles variable, contraintes de communication différentes, et équipes de tailles diverses. Un déploiement en conditions réelles avec un système à deux drones a confirmé ces résultats. L'intérêt principal de cette contribution réside dans sa modularité : il ne s'agit pas d'un nouvel algorithme complet, mais d'un module de priorisation greffable sur des pipelines existants. Les méthodes frontier-based classiques évaluent la valeur d'une frontière à partir de critères géométriques simples comme la distance euclidienne ou la taille de zone. La formulation probabiliste proposée estime mieux l'utilité réelle de chaque frontière, ce qui réduit les chevauchements de couverture entre agents sans requérir de bande passante supplémentaire. Pour un intégrateur déployant des flottes de drones ou de robots mobiles autonomes (AMR) en inspection industrielle ou surveillance de sites, un gain de 10 à 14 % en efficacité d'exploration se traduit concrètement par une réduction du temps de mission ou une diminution du nombre d'unités nécessaires. L'exploration par frontières remonte aux travaux fondateurs de Yamauchi en 1997 et reste l'un des paradigmes dominants pour la navigation autonome en environnement inconnu. Son extension aux systèmes multi-agents souffre depuis d'un problème de coordination sous contraintes de communication, que diverses approches ont tenté de résoudre via les marchés d'enchères, les graphes de communication ou l'apprentissage par renforcement distribué. Le DP-GMM se positionne ici comme une couche d'amélioration légère, potentiellement intégrable sans refonte architecturale dans des stacks existants comme ROS 2. La validation sur drones physiques renforce la crédibilité de la méthode dans un domaine où le sim-to-real gap reste une critique systématique. Aucun partenariat industriel ni déploiement commercial n'est annoncé à ce stade : il s'agit d'une contribution académique ouverte.

RecherchePaper

1 source

PECMAN : navigation collaborative multi-agents par perception en environnements inconnus

42

3arXiv cs.RO

PECMAN : navigation collaborative multi-agents par perception en environnements inconnus

Des chercheurs ont publié sur arXiv (réf. 2605.09344) PECMAN, un système de navigation collaborative multi-agents conçu pour des environnements inconnus et dynamiques. L'algorithme s'appuie sur SMART-3D, un planificateur de trajectoires fondé sur la structure RRT* (Rapidly-exploring Random Tree) capable de reconfigurer en temps réel son arbre de planification dès qu'un obstacle ou une nouvelle structure est détecté : plutôt que de reconstruire l'arbre depuis zéro, SMART-3D élague les noeuds et arêtes invalidés, puis répare les sous-arbres déconnectés à des points critiques appelés "hot-nodes". PECMAN étend ce mécanisme à la coopération multi-agents via deux stratégies combinées : une morphologie d'arbre distribuée, où chaque robot replanifie localement, et une perception partagée, par laquelle chaque agent diffuse les structures nouvellement découvertes à ses coéquipiers, leur permettant de replanifier proactivement même dans des zones encore inexplorées. Évalué sur 28 000 simulations couvrant sept scénarios 2D distincts, le système atteint jusqu'à 52 % de réduction du temps de complétion collective avec un taux de succès proche de 100 %. Les expériences ont également été validées sur deux robots autonomes réels dans un environnement de bâtiment. La contribution architecturale centrale est la perception partagée sans coordinateur central : chaque agent enrichit la carte collective en temps réel, ce qui réduit les replanifications redondantes et la latence de réaction de la flotte entière. Pour les intégrateurs de systèmes AMR (Autonomous Mobile Robots) en logistique ou en inspection industrielle, c'est précisément le verrou qui bloque le passage à l'échelle des flottes dans des environnements semi-structurés. La validation physique, même limitée à deux robots, apporte un début de réponse au problème classique du sim-to-real gap, l'un des obstacles majeurs au déploiement de planificateurs collaboratifs en conditions réelles. La réduction de 52 % du temps de complétion est prometteuse, mais mérite d'être interprétée avec prudence : les simulations 2D ne capturent pas la complexité des environnements 3D, et les scénarios de test ne sont pas détaillés dans l'abstract. Les approches multi-agents existantes comme CBS (Conflict-Based Search) ou ORCA supposent généralement des cartes connues à l'avance, ce qui les rend difficilement applicables à une exploration progressive. SMART-3D avait résolu ce problème pour un agent unique ; PECMAN en est l'extension coopérative naturelle. Aucun partenaire industriel ni déploiement commercial n'est mentionné dans la publication, qui reste une contribution académique. Les prochaines étapes logiques seraient des tests sur des flottes plus larges et en environnements 3D réels, conditions nécessaires pour envisager un transfert vers des entrepôts multi-niveaux ou des bâtiments industriels complexes, où les systèmes AMR actuels peinent encore à coordonner leur navigation de façon autonome.

RecherchePaper

1 source

Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique

42

4arXiv cs.RO

Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique

Des chercheurs ont publié sur arXiv (réf. 2606.01951) un cadre d'apprentissage par imitation pour robots mobiles qui exploite des vidéos égocentrées tournées par des humains en train de marcher. Le principe : estimer le mouvement de la caméra à partir de ces séquences piétonnes, puis convertir ce flux en représentations d'actions compatibles avec des robots mobiles au sol. Un modèle VLA (Vision-Language-Action) est ensuite entraîné conjointement sur ces données dérivées de vidéos humaines et sur des trajectoires collectées directement par le robot. Les expériences portent sur une tâche de navigation avec recherche de fruits, où le robot doit localiser des objets cibles dans un environnement non structuré en suivant des instructions en langage naturel. L'intérêt de cette approche réside dans sa réponse au principal goulot d'étranglement de la robotique apprise : la collecte de données sur robot réel est coûteuse, lente, et difficilement scalable. Si recycler des vidéos égocentrées humaines pour l'apprentissage de tâches de manipulation existe déjà dans la littérature (notamment via des datasets comme EPIC-Kitchens ou des pipelines type ACT), l'étendre à la navigation mobile reste difficile car les changements de point de vue lors de la locomotion créent des discontinuités que les modèles de manipulation ne rencontrent pas. Les résultats montrent que l'entraînement conjoint dépasse les deux sources de données prises isolément, aussi bien en compréhension du langage qu'en robustesse de génération d'actions. Cela valide partiellement l'hypothèse que le sim-to-human-video-to-real peut fonctionner pour la navigation, sans simulation physique. Ce travail s'inscrit dans une course plus large à la scalabilité des données pour les VLA, où des acteurs comme Physical Intelligence (pi0), Google DeepMind (RT-2, GR00T N2 pour Nvidia) ou Boston Dynamics cherchent des pipelines moins dépendants de la téléopération humaine sur robot. La navigation mobile reste moins couverte que la manipulation dans cette littérature, et ce papier ouvre une voie de co-training à moindre coût. Les prochaines étapes naturelles seraient d'évaluer la généralisation à des environnements plus complexes, de mesurer le ratio optimal données humaines/données robot, et de tester sur des plateformes AMR commerciales. Le code et les datasets ne sont pas encore publiés au moment de la soumission arXiv.

RechercheOpinion

1 source

Navigation et exploration collaboratives avec des processus gaussiens épars bêta

À lire aussi

SurveilNav : navigation collaborative vers des objets cibles avec robot et système de surveillance

Exploration multi-robots améliorée par priorisation probabiliste des frontières avec mélanges gaussiens de Dirichlet

PECMAN : navigation collaborative multi-agents par perception en environnements inconnus

Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique