RecherchearXiv cs.RO28min

SE(2) Navigation Mesh

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs proposent le SE(2) Navigation Mesh (SE(2) NavMesh), une nouvelle représentation cartographique pour la navigation globale des robots terrestres dans des environnements complexes à plusieurs niveaux, comme les bâtiments multi-étages ou les entrepôts encombrés. Publiée sur arXiv sous la référence 2607.01454v1, l'étude part d'un constat: les nuages de points et les cartes d'occupation volumétrique manquent de structure de surface explicite pour estimer la franchissabilité du terrain, tandis que la recherche de chemin directe sur des maillages triangulaires denses reste trop coûteuse en calcul. Les navmesh classiques, qui découpent l'espace en polygones traversables, supposent que la franchissabilité ne dépend pas de l'orientation du robot, ce qui les rend inadaptés aux robots non circulaires évoluant dans des espaces contraints. Le SE(2) NavMesh corrige ce défaut en évaluant la franchissabilité via des masques d'empreinte au sol et en construisant un graphe organisé en couches spécifiques à chaque orientation, avec une connectivité translationnelle et rotationnelle explicite. Les auteurs introduisent aussi une stratégie de recherche de chemin en deux temps, baptisée A-String Pulling-A (ASA), qui optimise hiérarchiquement la position puis le cap du robot, ainsi qu'une méthode en ligne mettant à jour incrémentalement le NavMesh à partir de flux de nuages de points pendant la reconstruction géométrique de l'environnement. En simulation, le SE(2) NavMesh capture plus de 50% de surface traversable en plus qu'un navmesh classique, et le pipeline SE(2) NavMesh + ASA surpasse systématiquement les méthodes d'échantillonnage de référence dans les espaces confinés. Des expériences réelles sur robot physique confirment la génération en temps réel et une navigation réussie dans plusieurs environnements.

Cette avancée cible un angle mort persistant de la navigation robotique: la plupart des pipelines actuels traitent le robot comme un disque, une approximation valable pour des AMR circulaires mais qui échoue dès qu'un châssis allongé, asymétrique ou muni d'un bras déployé doit se faufiler entre des obstacles serrés. Pour les intégrateurs qui déploient des robots logistiques ou des plateformes mobiles à bras manipulateur dans des entrepôts, usines ou bâtiments à plusieurs niveaux, cette limite se traduit par des chemins sous-optimaux, des blocages évitables ou des marges de sécurité excessives qui réduisent l'espace exploitable. En démontrant qu'une représentation sensible à l'orientation peut être calculée et mise à jour en temps réel, y compris pendant la reconstruction de la carte, les auteurs répondent à une objection fréquente: que ce type d'approche serait trop coûteux pour tourner en embarqué. Le gain de plus de 50% en surface traversable exploitable n'est pas un détail marginal, il implique potentiellement moins de détours et une meilleure utilisation de l'espace dans des contextes où chaque mètre carré compte, comme les micro-fulfillment centers ou les couloirs étroits d'établissements de santé.

Le travail s'inscrit dans la lignée des recherches sur la planification de trajectoire pour robots terrestres, longtemps tiraillées entre deux extrêmes: les cartes d'occupation, simples à construire mais pauvres en information de franchissabilité, et les maillages triangulaires denses, riches en détail mais trop lourds pour une recherche de chemin en temps réel. Les navmesh polygonaux classiques, utilisés de longue date dans le jeu vidéo puis adoptés par la robotique mobile, avaient déjà réglé le problème du coût de calcul, mais au prix de l'hypothèse simplificatrice d'une franchissabilité indépendante de l'orientation. Le SE(2) NavMesh se positionne comme une extension directe de cette famille de méthodes, en ajoutant la dimension manquante sans revenir à la complexité des maillages denses. Les auteurs valident leur approche à la fois en simulation et sur un robot physique réel, ce qui traduit une volonté de rapprocher rapidement cette technique du terrain plutôt que de la cantonner au stade théorique. Les suites attendues pour ce type de travaux incluent généralement l'intégration dans des piles logicielles de navigation existantes et des tests à plus grande échelle sur des flottes hétérogènes.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

FloVerse : navigation multimodale guidée par plan d'étage

Une équipe de chercheurs a publié FloVerse, un cadre unifié de navigation incarnée guidée par plans d'étage, accompagné d'un jeu de données à grande échelle et d'une nouvelle politique d'apprentissage. Présenté sous forme de preprint arXiv (2606.14267) en juin 2026, ce travail rassemble sous un même protocole trois variantes classiques de navigation autonome en intérieur : PointNav (atteindre des coordonnées cibles), ObjectNav (trouver une instance d'objet précis) et ImageNav (rejoindre un lieu identifié par une image de référence). Pour soutenir ces expériences, les auteurs ont constitué FloVerse-1.6K, un jeu de données de 1 600 scènes issues des environnements HM3D et Gibson 4+, couplé aux plans d'étage correspondants, comprenant 240 000 trajectoires expertes et 12 millions de frames RGBD. Ils proposent également ThreeDiff, une politique d'imitation en deux étapes : un planificateur basé sur la diffusion entraîné par masked-modality modeling (masquage aléatoire des modalités en entrée pour forcer la robustesse multimodale), et un raffineur qui ajuste les trajectoires à l'exécution à partir de données de profondeur pour éviter les collisions. L'apport principal réside dans la démonstration que les plans d'étage constituent des priors spatiaux efficaces et généralisables : les résultats montrent une amélioration des performances sur l'ensemble des trois modalités de tâches, y compris en généralisation à des scènes non vues durant l'entraînement. Pour un intégrateur déployant des robots mobiles en environnement structuré (entrepôts, hôpitaux, hôtels), ce résultat ouvre une voie pragmatique : exploiter les plans existants issus du BIM ou de simples blueprints sans nécessiter de cartographie préalable par le robot. ThreeDiff montre de surcroît que ce prior spatial peut être capturé implicitement par le modèle, sans supervision explicite sur la structure géométrique du plan. Ce travail s'inscrit dans un courant de recherche actif où plusieurs approches concurrentes telles que VLN-BERT, NavGPT ou EmbodiedGPT s'appuient sur des modèles de langage visuels ou des cartes sémantiques. La spécificité de FloVerse est d'intégrer le plan d'étage comme modalité de guidage explicite et portable, là où la majorité des travaux antérieurs se limitaient à PointNav sur des environnements restreints comme AI2-THOR ou Matterport3D. En tant que preprint non encore soumis à évaluation par les pairs, les benchmarks restent en simulation ; le gap sim-to-real n'est pas évalué, ce qui constitue la limite principale avant toute application industrielle.

RecherchePaper

1 source

2arXiv cs.RO

FeudalNav : un framework simple pour la navigation visuelle

Des chercheurs ont publié sur arXiv (référence 2602.06974) FeudalNav, un cadre hiérarchique de navigation visuelle pour robots mobiles qui ne requiert ni carte métrique, ni GPS, ni données odométriques en phase d'entraînement ou d'inférence. Le système décompose la prise de décision en plusieurs niveaux : un réseau de sélection de sous-objectifs (waypoints) léger et transférable choisit des points intermédiaires, tandis qu'un module de mémoire dans l'espace latent organise les observations visuelles passées par similarité visuelle, utilisée comme proxy de distance. Ce module de mémoire remplace les représentations topologiques classiques basées sur des graphes, sans dégradation notable des performances. Les résultats sont obtenus dans les environnements simulés Habitat AI, un benchmark standard du domaine, et montrent des scores compétitifs face aux méthodes état de l'art. Les auteurs explorent également une modalité d'navigation interactive : ils quantifient la quantité minimale d'intervention humaine nécessaire pour atteindre un taux de succès de 100% sur l'ensemble des trajectoires testées. L'intérêt de FeudalNav réside dans sa sobriété architecturale. Là où la plupart des navigateurs apprenants reposent sur des graphes topologiques coûteux à maintenir ou sur des représentations métriques qui échouent dans des environnements non cartographiés, FeudalNav prouve qu'une mémoire visuelle latente simple suffit pour guider un agent vers un objectif en terrain inconnu. Cette approche réduit les exigences d'infrastructure embarquée (pas de capteur odométrique requis) et améliore la transférabilité entre environnements, deux critères directement pertinents pour les intégrateurs de robots de service ou d'inspection industrielle. La composante interactive est notable : même une intervention humaine minimale et ponctuelle augmente significativement le taux de réussite global, ce qui ouvre la voie à des architectures human-in-the-loop adaptatives. FeudalNav s'inscrit dans un courant de recherche actif visant à dépasser les navigateurs métriques classiques (SLAM, cartographie 2D/3D) en faveur d'approches fondées sur l'apprentissage et la mémoire sémantique, directement inspirées de la cognition spatiale humaine. Le benchmark Habitat AI, développé par Meta AI Research, est devenu la référence pour évaluer ce type de systèmes en simulation. Les méthodes concurrentes incluent les approches à graphes topologiques (NoMaD, ViNT de Berkeley) et les navigateurs basés sur des Vision-Language Models (VLMaps, CoW). FeudalNav se distingue par sa légèreté et l'absence d'odométrie, mais reste pour l'instant cantonné à la simulation, sans validation sur robot physique annoncée dans cet article.

RecherchePaper

1 source

3arXiv cs.RO

Robots demandent leur chemin : la navigation sociale à base de communication

Des chercheurs ont présenté CommNav (Communication-enabled Social Navigation), une nouvelle tâche pour robots assistants évoluant en environnement multi-agents, décrite dans un article publié sur arXiv (2607.01044v1). Plutôt que de se contenter d'éviter les obstacles humains de façon réactive, comme le font les méthodes actuelles de navigation sociale, le robot cherche activement de l'aide en interrogeant les résidents sur les déplacements récents d'une personne cible : où elle se trouve, où elle a été vue, dans quelle direction elle s'est dirigée. Pour évaluer cette approche, l'équipe a créé Habitat 3.0c, une extension du simulateur Habitat 3.0 intégrant des protocoles d'échange d'informations en environnement multi-humains. En ajoutant leur module de communication, baptisé COMM, à un modèle de navigation sociale de référence, les chercheurs obtiennent un gain de 10 points de pourcentage sur le taux de succès des épisodes de navigation. Ils ont aussi comparé un entraînement sur instructions générées par un LLM à un entraînement sur formulations familières, collectées lors d'une étude auprès d'humains. Ce travail répond à un angle mort réel des systèmes de navigation sociale existants, focalisés sur l'évitement de collision et l'adaptation de trajectoire mais incapables de solliciter proactivement de l'information humaine. Pour les intégrateurs travaillant sur des robots d'assistance en environnement résidentiel, hospitalier ou logistique (recherche d'une personne dans un bâtiment, livraison ciblée en présence de plusieurs occupants), la capacité d'un robot à poser une question simple et à exploiter la réponse change la donne par rapport à une exploration purement géométrique de l'espace. Le résultat le plus notable pour la robustesse en conditions réelles est la troisième conclusion des auteurs : la politique de navigation reste performante face à un langage naturel et familier, avec un taux de succès statistiquement comparable à celui obtenu avec des données structurées parfaites, ce qui limite le risque que le système échoue simplement parce qu'un humain formule sa réponse maladroitement. CommNav s'inscrit dans la lignée des travaux sur la navigation sociale embarquée dans Habitat, plateforme de simulation largement utilisée en recherche robotique pour entraîner des agents en environnement intérieur peuplé d'humains virtuels. L'apport spécifique ici est le pré-entraînement du module COMM sur une tâche annexe de communication, une astuce présentée par les auteurs comme le moyen de gérer le caractère rare et irrégulier des signaux d'interaction avec les résidents. L'article ne mentionne pas de déploiement sur robot physique ni de partenaire industriel ; il s'agit à ce stade d'un travail de recherche en simulation, dont la prochaine étape logique serait un transfert vers un robot réel et une évaluation face à des locuteurs non scriptés en conditions non contrôlées.

RecherchePaper

1 source

4arXiv cs.RO

MASt3R-Nav : navigation WayPixel dans des cartes 3D relatives

Une équipe de chercheurs a publié fin mai 2026 sur arXiv (réf. 2605.24111) une nouvelle méthode de navigation visuelle pour robots, baptisée MASt3R-Nav. Le système repose sur une représentation de carte appelée "WayPixel Costmap", fondée sur le concept de connectivité pixel-relative. À partir d'une séquence d'images, le système établit des correspondances entre pixels dans les référentiels 3D propres à chaque paire d'images, sans exiger de cohérence géométrique globale à l'échelle de la carte complète. Ces liaisons inter-images forment un graphe dense, progressivement sparsifié pour permettre une planification de trajectoire globale. Un contrôleur est ensuite entraîné à prédire des séquences de déplacement à partir de ce costmap dense. La méthode a été validée sur quatre types de tâches de navigation en simulation, complétées par des démonstrations en environnement réel. L'intérêt de l'approche tient à sa position charnière entre deux paradigmes établis. Les systèmes SLAM classiques (ORB-SLAM3, OpenVINS) offrent une géométrie précise mais imposent une cohérence globale coûteuse en calcul et sensible aux dérives. Les graphes topologiques à base d'images évitent ce problème, mais cantonnent la navigation au mode "enseigner puis répéter" (teach-and-repeat), incapable de s'adapter à des modifications d'environnement. MASt3R-Nav démontre que la connectivité pixel-relative constitue une variable de conditionnement statistiquement plus précise que ses équivalents image ou objet pour la prédiction de contrôle, ouvrant la voie à des robots mobiles autonomes (AMR) plus généralisables sans pipeline SLAM complet. Le nom MASt3R fait référence au modèle de mise en correspondance 3D du même nom, présenté à CVPR 2024 par des équipes européennes dont l'INRIA, dont les capacités de matching géométrique dense servent de fondation à cette méthode. Dans le paysage concurrentiel, MASt3R-Nav se positionne face aux approches topologiques neuronales comme NetVLAD ou AnyLoc, et aux systèmes de navigation end-to-end récents tels que GNFactor. À noter qu'il s'agit à ce stade d'un preprint sans validation industrielle annoncée ; les métriques de performance restent issues d'environnements simulés et de démonstrations sélectionnées, sans benchmark standardisé public. Les prochaines étapes naturelles concernent l'évaluation sur des plateformes mobiles réelles en conditions non contrôlées.

UELa méthode s'appuie sur le modèle MASt3R développé notamment par l'INRIA (France), valorisant indirectement la recherche européenne en perception 3D pour la robotique mobile autonome.

RecherchePaper

1 source