RecherchearXiv cs.RO 16 juin 2026

CrossMaps : cartographie sémantique à vocabulaire ouvert avec estimation de confiance pour la navigation de rovers

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié le 16 juin 2026 sur arXiv (identifiant 2606.16935) les travaux relatifs à CrossMaps, un pipeline de cartographie sémantique en temps réel conçu pour la navigation de rovers autonomes. Le système exploite des données RGB-D pour construire des cartes interrogeables en langage naturel, en s'appuyant sur des embeddings CLIP multi-échelles fusionnés avec un mécanisme de pondération par confiance. L'architecture repose sur une mémoire duale : une mémoire court terme (STM) qui agrège les observations visuelles bruitées en combinant des métriques de confiance géométrique, sémantique et temporelle, et une mémoire long terme (LTM) dans laquelle sont promus les points d'intérêt stables et cohérents, constituant ainsi des repères sémantiques persistants. Le système est dimensionné pour fonctionner sur un UGV équipé d'un module Jetson Orin de NVIDIA, couplé à un pipeline SLAM, et génère des cartes de chaleur sémantiques interrogeables par requêtes en langage naturel.

L'intérêt de CrossMaps réside dans sa gestion explicite de la qualité perceptive, fiabilité du capteur de profondeur, artefacts d'éclairage, densité des données, directement intégrée dans la représentation spatiale, un aspect souvent traité de façon ad hoc dans les systèmes concurrents. En distinguant observations transitoires et connaissances consolidées via la dualité STM/LTM, l'architecture vise à réduire le gap sim-to-real classique des systèmes de navigation sémantique déployés en conditions dégradées. Pour un intégrateur ou un responsable de flotte robotique, cela signifie potentiellement une navigation plus robuste dans des environnements industriels non-structurés sans nécessiter un réentraînement des modèles pour chaque nouveau vocabulaire d'objets.

CrossMaps s'inscrit dans la lignée directe des VLMaps (travaux de Huang et al., 2023), qui ont popularisé la fusion de caractéristiques CLIP dans des cartes spatiales 3D pour la navigation en langage naturel. La différence revendiquée ici est la couche de gestion de la confiance et la séparation mémoire court/long terme, absentes dans VLMaps. L'article reste un preprint non encore évalué par les pairs, et les performances réelles sur un UGV physique en dehors de conditions contrôlées ne sont pas détaillées dans l'abstract, un point à vérifier dans le corps du papier avant toute extrapolation industrielle. Les suites naturelles incluent une comparaison quantitative face à ConceptFusion ou LERF, et un déploiement en environnements extérieurs non-structurés.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Navigation par objectif à vocabulaire ouvert : généraliser la cartographie sémantique avec CLIP dense

Des chercheurs ont publié une nouvelle version (v2) de l'article arXiv 2407.09016, qui présente OVExp, un framework d'exploration en vocabulaire ouvert pour la navigation robotique vers des objets-cibles non catégorisés au préalable. Le système s'appuie sur des modèles Dense CLIP pour généraliser la cartographie sémantique, sans recourir à l'inférence coûteuse de grands modèles de langage (LLM) ni à un entraînement intensif par apprentissage par renforcement (RL) de bout en bout. L'innovation centrale est une stratégie de transfert cross-modal sur cartographie sémantique : le réseau apprend d'abord uniquement à partir de texte, puis transfère ces représentations, au moment du test, vers une cartographie multimodale combinant localisation spatiale précise des objets et représentations visuelles généralisables. Les auteurs annoncent une généralisation robuste vers des objets-cibles inédits, validée sur les benchmarks établis d'ObjectNav, malgré un entraînement reposant sur des mises en page textuelles limitées en nombre d'objets. Pour l'industrie robotique et les intégrateurs, ce travail cible un problème concret de coût et de latence : les approches actuelles de navigation en vocabulaire ouvert, qui appellent un LLM à chaque décision ou nécessitent des heures d'entraînement RL par environnement, restent difficiles à déployer à grande échelle sur des robots mobiles autonomes (AMR) ou des plateformes d'inspection. En montrant qu'un réseau de prédiction d'objectifs basé sur une carte sémantique peut généraliser sans réentraînement lourd ni appel LLM en boucle, OVExp propose une alternative aux architectures VLA gourmandes en ressources, ce qui intéresse directement tout acteur cherchant à doter des robots de capacités de recherche d'objets flexibles sans exploser les coûts d'inférence en production. Ce travail s'inscrit dans la lignée des recherches sur ObjectNav, la tâche de navigation vers un objet-cible désigné par catégorie ou par image dans un environnement inconnu, un benchmark phare de la navigation embarquée depuis plusieurs années. Il se positionne face à deux familles de méthodes concurrentes : celles qui exploitent des LLM sans entraînement supplémentaire pour raisonner sur la scène, coûteuses en inférence, et celles qui affinent des politiques par RL de bout en bout, limitées en généralisation hors distribution. En s'appuyant sur CLIP, déjà largement utilisé pour l'ancrage vision-langage, et sur un entraînement texte-seul transférable au moment du test, les auteurs proposent une voie plus économe en ressources. Publié en v2 sur arXiv, l'article reste à ce stade une contribution académique évaluée en simulation, sans annonce de déploiement matériel ni de partenariat industriel.

RecherchePaper

1 source

2arXiv cs.RO

FUS3DMaps : cartographie sémantique à vocabulaire ouvert par fusion 3D de couches voxel et instance

Une équipe de recherche a publié le 6 mai 2026 sur arXiv (référence 2605.03669) FUS3DMaps, une méthode de cartographie sémantique 3D à vocabulaire ouvert conçue pour permettre à des robots de localiser spatialement des concepts arbitraires sans ensemble de classes prédéfini. Le système fonctionne en ligne et maintient simultanément deux couches sémantiques dans une même carte de voxels partagée : une couche dense, qui projette directement les embeddings de pixels sur la carte 3D, et une couche instance-level, qui segmente les vues, encode les régions correspondant à des objets distincts, puis les associe en 3D. Les expériences menées sur des benchmarks établis de segmentation sémantique 3D montrent que FUS3DMaps atteint une précision compétitive à l'échelle de bâtiments multi-étages, un niveau de scalabilité rarement démontré pour ce type d'approche sans entraînement supervisé. Le code et les données complémentaires sont annoncés en accès ouvert. Ce qui distingue FUS3DMaps des méthodes existantes est la fusion sémantique inter-couches (cross-layer fusion), qui combine les forces complémentaires des deux représentations : la couche dense couvre l'intégralité du champ visuel sans nécessiter de segmentation préalable, mais souffre d'un manque de précision à l'échelle ; la couche instance-level est précise sur les objets individuels mais dépend de l'association 2D-3D. En fusionnant les embeddings des deux couches au niveau voxel, la méthode améliore la qualité de chacune. Pour garantir la scalabilité, la fusion dense et inter-couches est restreinte à une fenêtre spatiale glissante, évitant l'explosion mémoire dans les grands environnements. Pour les intégrateurs de robotique mobile ou les développeurs de systèmes de navigation en environnement ouvert, c'est une piste concrète vers des robots capables de répondre à des requêtes en langage naturel sur des espaces non balisés. La cartographie sémantique à vocabulaire ouvert est un champ en plein essor depuis l'émergence des vision-language models (VLM) comme CLIP. Les approches actuelles se divisent en deux familles : les méthodes instance-level (LSeg, OpenScene, EmbodiedScan) et les méthodes dense (ConceptFusion, OpenFusion), chacune avec ses compromis entre précision et scalabilité. FUS3DMaps tente de réconcilier les deux dans un pipeline unifié, sans fine-tuning. À noter que l'article est une prépublication arXiv, sans validation par les pairs à ce stade, et que les démonstrations vidéo et le code sont encore annoncés comme "à venir". Aucune entreprise industrielle ou partenaire de déploiement n'est mentionné : il s'agit d'une contribution de recherche académique, pas d'un produit commercialisé.

RechercheActu

1 source

3arXiv cs.RO

De la perception à l'assistance : autonomie partagée à vocabulaire ouvert pour la manipulation robotique

Des chercheurs présentent un système d'autonomie partagée pour la téléopération de bras manipulateurs en environnement industriel, publié le 24 juillet 2026 sur arXiv (référence 2607.17323). Le dispositif repose sur une seule caméra RGB-D qui capture les mouvements du bras et les gestes de la main de l'opérateur, sans combinaison connectée, marqueur fiduciaire ni étape de calibration préalable. La cible à saisir est désignée par une simple consigne textuelle en langage libre, interprétée par un modèle vision-langage via la caméra embarquée sur le préhenseur, puis suivie en continu par un modèle de segmentation vidéo promptable sur les caméras du robot, ce qui isole en permanence un repère de saisie de la carte des obstacles. Un contrôleur prédictif (MPC) accéléré par GPU exécute chaque commande tout en évitant les collisions avec l'environnement et avec le robot lui même, grâce à une reconstruction volumétrique calculée en temps réel, pendant qu'un champ de potentiel corrige la trajectoire de l'opérateur lors de l'approche finale. Testé sur un manipulateur mobile quadrupède, le système atteint une précision de positionnement de 59 mm d'erreur quadratique moyenne par rapport à une référence de capture de mouvement, et maintient le bras à au moins 18 cm des obstacles même lorsque l'opérateur tente délibérément une collision de 6 cm. Sur une tâche de manipulation de vanne industrielle et une tâche de prise dépose, le framework complet réussit tous les essais, tandis que le mode entièrement autonome, déclenché par geste, réussit quatre essais sur cinq par tâche. L'intérêt pour l'industrie robotique tient au problème visé: en téléopération classique, aligner précisément un effecteur avec une cible en environnement encombré, avec une perception de profondeur limitée par caméra, reste une source d'erreurs et de collisions coûteuses. En retirant marqueurs et calibration tout en gardant l'opérateur dans la boucle de décision, le système promet un déploiement plus rapide sur des cellules industrielles existantes. Le fait que retirer soit le module de collision, soit le module d'assistance provoque des échecs par des mécanismes différents montre que les deux briques sont complémentaires et non redondantes, un signal utile pour les intégrateurs qui évaluent la robustesse réelle de ces architectures avant tout achat. Le travail s'inscrit dans la convergence actuelle entre modèles vision-langage et téléopération assistée, où l'ancrage d'instructions textuelles dans la perception robotique gagne du terrain face aux interfaces manuelles pures. Les auteurs positionnent leur contribution comme une alternative légère aux pipelines nécessitant équipement dédié ou calibration lourde, et annoncent la possibilité de basculer vers une exécution autonome sur la même cible sans pipeline de perception séparé, ouvrant la voie à des essais plus poussés sur d'autres plateformes et tâches industrielles.

RecherchePaper

1 source

4arXiv cs.RO

Apprentissage de correspondances fines par perception croisée pour l'estimation de pose 6D à vocabulaire ouvert

Des chercheurs ont publié sur arXiv (arXiv:2601.13565, janvier 2026) un framework baptisé FiCoP (Fine-grained Correspondence Pose Estimation) pour l'estimation de pose 6D en vocabulaire ouvert, soit la capacité d'un robot à localiser et orienter dans l'espace des objets arbitraires et inconnus guidé uniquement par du langage naturel. L'approche repose sur deux modules complémentaires : un module CPGP (Cross-Perspective Global Perception) qui fusionne des vues duales de l'objet pour établir un consensus structurel via raisonnement contextuel et injection sémantique texte-guidée, et un Patch Correlation Predictor (PCP) qui génère une carte d'association bloc-à-bloc servant de filtre spatial pour forcer une correspondance fine et robuste au bruit de fond. Sur les benchmarks REAL275 et Toyota-Light, FiCoP améliore le taux de rappel moyen de 8,0 % et 6,1 % respectivement par rapport à l'état de l'art. Le code sera rendu public sur GitHub (zjjqinyu/FiCoP). Le problème central que FiCoP résout est la confusion entre l'objet cible et les distracteurs de fond lors du matching global non contraint, défaut structurel des approches existantes qui tentent d'associer des features d'ancrage à l'intégralité de l'image requête. En passant à une correspondance par patches spatialement contrainte, après isolation préalable de la région d'intérêt via un disentanglement objet-centrique, FiCoP réduit l'ambiguité sans sacrifier la généralisation à des objets inconnus. Pour les intégrateurs et les équipes de manipulation industrielle, cela ouvre la voie à des systèmes de pick-and-place pilotés par description textuelle, sans pipeline d'entraînement objet-spécifique, gain significatif pour les applications à haute variété de SKUs. FiCoP s'inscrit dans la famille des méthodes de correspondance 2D-3D sans modèle CAD, en compétition directe avec GigaPose, FoundPose ou les pipelines VLA intégrant la perception 3D en aval. Les benchmarks utilisés, REAL275 et Toyota-Light, restent des environnements de table contrôlés, ce qui laisse entière la question du sim-to-real gap pour un déploiement industriel réel. À noter : les résultats ne sont pas comparés aux datasets adversariaux du BOP Challenge 2024, ce qui tempère la portée des gains annoncés. La mise à disposition du code devrait permettre une validation communautaire rapide sur des configurations plus adversariales.

RecherchePaper

1 source