Aller au contenu principal
CrossMaps : cartographie sémantique à vocabulaire ouvert avec estimation de confiance pour la navigation de rovers
RecherchearXiv cs.RO4h

CrossMaps : cartographie sémantique à vocabulaire ouvert avec estimation de confiance pour la navigation de rovers

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié le 16 juin 2026 sur arXiv (identifiant 2606.16935) les travaux relatifs à CrossMaps, un pipeline de cartographie sémantique en temps réel conçu pour la navigation de rovers autonomes. Le système exploite des données RGB-D pour construire des cartes interrogeables en langage naturel, en s'appuyant sur des embeddings CLIP multi-échelles fusionnés avec un mécanisme de pondération par confiance. L'architecture repose sur une mémoire duale : une mémoire court terme (STM) qui agrège les observations visuelles bruitées en combinant des métriques de confiance géométrique, sémantique et temporelle, et une mémoire long terme (LTM) dans laquelle sont promus les points d'intérêt stables et cohérents, constituant ainsi des repères sémantiques persistants. Le système est dimensionné pour fonctionner sur un UGV équipé d'un module Jetson Orin de NVIDIA, couplé à un pipeline SLAM, et génère des cartes de chaleur sémantiques interrogeables par requêtes en langage naturel.

L'intérêt de CrossMaps réside dans sa gestion explicite de la qualité perceptive, fiabilité du capteur de profondeur, artefacts d'éclairage, densité des données, directement intégrée dans la représentation spatiale, un aspect souvent traité de façon ad hoc dans les systèmes concurrents. En distinguant observations transitoires et connaissances consolidées via la dualité STM/LTM, l'architecture vise à réduire le gap sim-to-real classique des systèmes de navigation sémantique déployés en conditions dégradées. Pour un intégrateur ou un responsable de flotte robotique, cela signifie potentiellement une navigation plus robuste dans des environnements industriels non-structurés sans nécessiter un réentraînement des modèles pour chaque nouveau vocabulaire d'objets.

CrossMaps s'inscrit dans la lignée directe des VLMaps (travaux de Huang et al., 2023), qui ont popularisé la fusion de caractéristiques CLIP dans des cartes spatiales 3D pour la navigation en langage naturel. La différence revendiquée ici est la couche de gestion de la confiance et la séparation mémoire court/long terme, absentes dans VLMaps. L'article reste un preprint non encore évalué par les pairs, et les performances réelles sur un UGV physique en dehors de conditions contrôlées ne sont pas détaillées dans l'abstract, un point à vérifier dans le corps du papier avant toute extrapolation industrielle. Les suites naturelles incluent une comparaison quantitative face à ConceptFusion ou LERF, et un déploiement en environnements extérieurs non-structurés.

Dans nos dossiers

À lire aussi

FUS3DMaps : cartographie sémantique à vocabulaire ouvert par fusion 3D de couches voxel et instance
1arXiv cs.RO 

FUS3DMaps : cartographie sémantique à vocabulaire ouvert par fusion 3D de couches voxel et instance

Une équipe de recherche a publié le 6 mai 2026 sur arXiv (référence 2605.03669) FUS3DMaps, une méthode de cartographie sémantique 3D à vocabulaire ouvert conçue pour permettre à des robots de localiser spatialement des concepts arbitraires sans ensemble de classes prédéfini. Le système fonctionne en ligne et maintient simultanément deux couches sémantiques dans une même carte de voxels partagée : une couche dense, qui projette directement les embeddings de pixels sur la carte 3D, et une couche instance-level, qui segmente les vues, encode les régions correspondant à des objets distincts, puis les associe en 3D. Les expériences menées sur des benchmarks établis de segmentation sémantique 3D montrent que FUS3DMaps atteint une précision compétitive à l'échelle de bâtiments multi-étages, un niveau de scalabilité rarement démontré pour ce type d'approche sans entraînement supervisé. Le code et les données complémentaires sont annoncés en accès ouvert. Ce qui distingue FUS3DMaps des méthodes existantes est la fusion sémantique inter-couches (cross-layer fusion), qui combine les forces complémentaires des deux représentations : la couche dense couvre l'intégralité du champ visuel sans nécessiter de segmentation préalable, mais souffre d'un manque de précision à l'échelle ; la couche instance-level est précise sur les objets individuels mais dépend de l'association 2D-3D. En fusionnant les embeddings des deux couches au niveau voxel, la méthode améliore la qualité de chacune. Pour garantir la scalabilité, la fusion dense et inter-couches est restreinte à une fenêtre spatiale glissante, évitant l'explosion mémoire dans les grands environnements. Pour les intégrateurs de robotique mobile ou les développeurs de systèmes de navigation en environnement ouvert, c'est une piste concrète vers des robots capables de répondre à des requêtes en langage naturel sur des espaces non balisés. La cartographie sémantique à vocabulaire ouvert est un champ en plein essor depuis l'émergence des vision-language models (VLM) comme CLIP. Les approches actuelles se divisent en deux familles : les méthodes instance-level (LSeg, OpenScene, EmbodiedScan) et les méthodes dense (ConceptFusion, OpenFusion), chacune avec ses compromis entre précision et scalabilité. FUS3DMaps tente de réconcilier les deux dans un pipeline unifié, sans fine-tuning. À noter que l'article est une prépublication arXiv, sans validation par les pairs à ce stade, et que les démonstrations vidéo et le code sont encore annoncés comme "à venir". Aucune entreprise industrielle ou partenaire de déploiement n'est mentionné : il s'agit d'une contribution de recherche académique, pas d'un produit commercialisé.

RechercheActu
1 source
Apprentissage de correspondances fines par perception croisée pour l'estimation de pose 6D à vocabulaire ouvert
2arXiv cs.RO 

Apprentissage de correspondances fines par perception croisée pour l'estimation de pose 6D à vocabulaire ouvert

Des chercheurs ont publié sur arXiv (arXiv:2601.13565, janvier 2026) un framework baptisé FiCoP (Fine-grained Correspondence Pose Estimation) pour l'estimation de pose 6D en vocabulaire ouvert, soit la capacité d'un robot à localiser et orienter dans l'espace des objets arbitraires et inconnus guidé uniquement par du langage naturel. L'approche repose sur deux modules complémentaires : un module CPGP (Cross-Perspective Global Perception) qui fusionne des vues duales de l'objet pour établir un consensus structurel via raisonnement contextuel et injection sémantique texte-guidée, et un Patch Correlation Predictor (PCP) qui génère une carte d'association bloc-à-bloc servant de filtre spatial pour forcer une correspondance fine et robuste au bruit de fond. Sur les benchmarks REAL275 et Toyota-Light, FiCoP améliore le taux de rappel moyen de 8,0 % et 6,1 % respectivement par rapport à l'état de l'art. Le code sera rendu public sur GitHub (zjjqinyu/FiCoP). Le problème central que FiCoP résout est la confusion entre l'objet cible et les distracteurs de fond lors du matching global non contraint, défaut structurel des approches existantes qui tentent d'associer des features d'ancrage à l'intégralité de l'image requête. En passant à une correspondance par patches spatialement contrainte, après isolation préalable de la région d'intérêt via un disentanglement objet-centrique, FiCoP réduit l'ambiguité sans sacrifier la généralisation à des objets inconnus. Pour les intégrateurs et les équipes de manipulation industrielle, cela ouvre la voie à des systèmes de pick-and-place pilotés par description textuelle, sans pipeline d'entraînement objet-spécifique, gain significatif pour les applications à haute variété de SKUs. FiCoP s'inscrit dans la famille des méthodes de correspondance 2D-3D sans modèle CAD, en compétition directe avec GigaPose, FoundPose ou les pipelines VLA intégrant la perception 3D en aval. Les benchmarks utilisés, REAL275 et Toyota-Light, restent des environnements de table contrôlés, ce qui laisse entière la question du sim-to-real gap pour un déploiement industriel réel. À noter : les résultats ne sont pas comparés aux datasets adversariaux du BOP Challenge 2024, ce qui tempère la portée des gains annoncés. La mise à disposition du code devrait permettre une validation communautaire rapide sur des configurations plus adversariales.

RecherchePaper
1 source
OSMa-Bench++ : vers une évaluation ouverte de la cartographie sémantique pour la manipulation via des scènes synthétiques générées par prompt
3arXiv cs.RO 

OSMa-Bench++ : vers une évaluation ouverte de la cartographie sémantique pour la manipulation via des scènes synthétiques générées par prompt

Des chercheurs du laboratoire be2rlab publient OSMa-Bench++, une extension du framework d'évaluation OSMa-Bench, déposée sur arXiv en mai 2026. L'objectif est de pallier une limite structurelle des benchmarks actuels pour la cartographie sémantique appliquée à la manipulation robotique : leur dépendance à des jeux de données fixes, insuffisamment couverts en cas limites pertinents pour la manipulation. Le nouveau pipeline génère automatiquement des descriptions de scènes d'intérieur à partir de prompts textuels, synthétise les environnements correspondants via SceneSmith, puis les adapte dans un format de simulation compatible avec OSMa-Bench. Cette adaptation requiert une couche intermédiaire non triviale incluant la normalisation sémantique, la réparation de matériaux et textures, des politiques de fallback pour les shaders, la gestion des sols, la configuration de la navigation et un contrôle de l'éclairage. Le composant VQA (Visual Question Answering) est étendu avec une catégorie de questions ancrée sur le prompt d'origine, exploitant le fait que la spécification de la scène est connue à l'avance pour servir de référence sémantique vérifiable. Le code est disponible publiquement sur github.com/be2rlab/OSMa-Bench-v2. L'apport principal est de rendre le benchmarking de la cartographie sémantique extensible et contrôlable, deux propriétés absentes des benchmarks à scènes figées comme ScanNet ou Replica. Pour un intégrateur ou un équipe R&D travaillant sur des bras manipulateurs avec perception 3D, cela signifie pouvoir évaluer un modèle sur des conditions ciblées : objets de petite taille, occlusions partielles, encombrement variable, ou éclairage dégradé, sans avoir à constituer manuellement de nouveaux datasets. Le mécanisme de question-réponse ancré sur le prompt original permet une vérification objective contre une vérité terrain sémantique définie à la génération, ce qui réduit l'ambiguïté d'évaluation typique des VQA sur scènes non contraintes. OSMa-Bench, le framework d'origine, était déjà positionné sur l'évaluation de méthodes de cartographie sémantique pour la manipulation, un segment moins couvert que la navigation pure. SceneSmith, utilisé ici comme générateur de scènes, est un outil de synthèse procédurale d'environnements intérieurs. Dans le paysage des benchmarks pour la perception robotique, les approches à génération procédurale restent minoritaires face aux scènes scannées (HM3D, Matterport3D), mais gagnent du terrain pour leur capacité à couvrir des distributions hors-domaine. be2rlab n'annonce pas de déploiement industriel ni de partenariat : il s'agit d'une contribution de recherche académique, sous forme de pre-print non encore évalué par les pairs, avec mise à disposition du code comme principal livrable.

RecherchePaper
1 source
CLUE : indices contextuels à priorité adaptative et carte sémantique unifiée pour la navigation zero-shot vers des objets cibles
4arXiv cs.RO 

CLUE : indices contextuels à priorité adaptative et carte sémantique unifiée pour la navigation zero-shot vers des objets cibles

Des chercheurs ont publié sur arXiv (référence 2605.19206) un framework de navigation baptisé CLUE, conçu pour résoudre le problème de la navigation vers des objets cibles sans entraînement préalable sur ces objets, un défi connu sous le nom de zero-shot object-goal navigation (ZSON). L'idée centrale : un agent robotique doit localiser un objet donné dans un environnement inconnu en exploitant deux types d'indices contextuels, les pièces (un réfrigérateur se trouve presque toujours dans une cuisine) et les objets voisins co-localisés (des ciseaux peuvent se trouver partout, mais souvent près d'un bureau ou d'un plan de travail). CLUE extrait des connaissances de bon sens à partir d'un grand modèle de langage (LLM) utilisé hors ligne, calcule un score d'association entre la cible et les types de pièces, puis construit une carte sémantique unifiée pondérant dynamiquement ces deux sources d'information selon l'ambiguïté de la cible. Un mécanisme de vérification multi-points de vue complète le système. Les expériences menées en simulation et dans des environnements réels montrent que CLUE dépasse les baselines de l'état de l'art sur les métriques de taux de succès (SR) et de succès pondéré par la longueur du chemin (SPL), sans que des chiffres absolus ne soient communiqués dans l'abstract. L'intérêt pratique de cette approche tient à une critique implicite des méthodes existantes : traiter tous les indices contextuels avec le même poids conduit à une exploration inefficace. Pour un intégrateur de robots de service, cela signifie des trajectoires plus courtes et une meilleure résilience dans des environnements non cartographiés, comme les hôpitaux, les entrepôts ou les environnements domestiques. L'utilisation d'un LLM hors ligne, plutôt qu'en inférence temps réel, réduit la latence et les dépendances cloud, un avantage concret pour le déploiement industriel. La démonstration en environnement réel, même si ses conditions exactes ne sont pas précisées, distingue CLUE de nombreux travaux restés en simulation pure. Ce travail s'inscrit dans un champ de recherche actif sur la navigation sémantique, aux côtés de méthodes comme ESC, VLFM ou SemEXP, issues principalement de laboratoires américains (CMU, Georgia Tech, Berkeley). CLUE se positionne comme une couche d'arbitrage contextuel au-dessus de ces approches plutôt que comme une refonte complète de l'architecture. Le papier est une prépublication arXiv, non encore évalué par les pairs, ce qui invite à la prudence sur la généralisabilité des résultats. Aucune affiliation industrielle ni plateforme matérielle spécifique n'est mentionnée. Les prochaines étapes naturelles seraient une validation sur des robots commerciaux (AMR de type Boston Dynamics Spot, Hello Robot Stretch ou plateformes mobiles ROS2-compatibles) et une comparaison sur les benchmarks standardisés HM3D ou Gibson.

RecherchePaper
1 source