VLM-GLoc : localisation globale sémantique…

ShelfAware : localisation sémantique en temps réel dans des environnements quasi-statiques avec des capteurs bas coût

38

1arXiv cs.RO

ShelfAware : localisation sémantique en temps réel dans des environnements quasi-statiques avec des capteurs bas coût

Des chercheurs ont publié sur arXiv (2512.09065v2) ShelfAware, un filtre particulaire sémantique conçu pour la localisation globale de robots mobiles dans des environnements dits quasi-statiques : des espaces dont la géométrie générale est stable mais dont les contenus changent continuellement, comme les rayons d'un supermarché ou les allées d'un entrepôt logistique. Le système fusionne une vraisemblance de profondeur avec une similarité sémantique centrée sur les catégories d'objets, et génère des hypothèses de pose via des propositions inverses précalculées intégrées dans un cadre Monte Carlo Localization (MCL). Évalué dans un environnement de vente fictif rigoureusement contrôlé, ShelfAware atteint un taux de succès de localisation globale de 97 % et maintient un taux de suivi de 66 % dans des conditions d'occultation variées (chariot, dispositif portable, obstruction dynamique). Dans un second test mené dans un supermarché opérationnel de 325 m², le système s'appuie sur un pipeline de vision à vocabulaire ouvert et surpasse significativement les approches géométriques seules ainsi que les méthodes sémantiques à points de repère fixes. L'ensemble tourne sur du matériel vision bas coût, sans capteur LiDAR. Ce qui est notable ici, c'est moins la performance brute que l'approche architecturale. La grande majorité des systèmes de localisation sémantique traitent les objets comme des landmarks discrets et fixes : un objet identifié = une position dans la carte. ShelfAware modélise à la place la sémantique de manière distributionnelle, comme une évidence statistique sur des catégories, ce qui le rend résilient aux changements de stock, aux réorganisations et au désordre dynamique. Pour un intégrateur déployant des AMR (autonomous mobile robots) en grande distribution ou en logistique de dernier kilomètre, cela signifie une localisation sans infrastructure additionnelle (pas de QR codes, pas de balises UWB), avec un hardware limité au seul RGB-D ou monoculaire. L'article s'inscrit dans un effort de recherche plus large visant à combler le fossé entre les environnements de laboratoire et les déploiements réels dans des espaces peuplés et changeants. Les approches concurrentes incluent les méthodes SLAM visuelles (ORB-SLAM3, OpenVINS) et les systèmes sémantiques basés sur des réseaux de neurones comme Nice-SLAM ou Semantic-NeRF, qui offrent de meilleures représentations mais exigent des ressources computationnelles bien supérieures. ShelfAware opte pour un compromis pragmatique : représentation légère, généralisation par le vocabulaire ouvert (CLIP ou équivalent), et intégration native dans MCL. Il s'agit d'une contribution académique préprint, pas d'un produit commercialisé : aucun déploiement industriel ni partenariat industriel n'est annoncé à ce stade. Des acteurs comme Simbe Robotics ou Badger Technologies, positionnés sur la robotique de retail avec infrastructure propriétaire, constituent le référentiel concurrentiel naturel face auquel une telle approche sans infrastructure prendrait de la valeur.

RecherchePaper

1 source

Titre traduit : Où suis-je ? Localisation multimodale par ancrage sémantique de cartes via des modèles vision-langage

40

2arXiv cs.RO

Titre traduit : Où suis-je ? Localisation multimodale par ancrage sémantique de cartes via des modèles vision-langage

Des chercheurs proposent une nouvelle approche de la localisation robotique en interieur, dans les zones sans signal GPS, en la traitant comme un probleme de raisonnement semantique plutot que d'estimation geometrique classique. L'equipe a affine le modele vision-langage Qwen2.5-VL-7B via LoRA, en lui ajoutant une tete de regression legere qui predit directement les coordonnees de pose continues (x, y, theta) a partir de l'etat cache final, sans passer par une generation de texte. Le systeme recoit trois entrees simultanees: une image de camera frontale, un scan LiDAR polaire, et une carte de grille semantique vue du dessus. L'entrainement s'appuie sur une fonction de perte composite position-direction avec apprentissage par curriculum, sur un jeu de donnees Gazebo maison de 120 112 echantillons repartis sur 527 scenes. Sur un ensemble de test de 18 017 echantillons en distribution, le modele atteint 98,23% de precision en position, 98,00% en direction et 96,75% de pose complete correcte, avec une erreur moyenne de position de 0,11 metre, une erreur d'orientation de 5,7 degres, et un temps de traitement de 0,62 seconde par echantillon. L'interet de ces resultats tient moins a la performance brute qu'a leur robustesse face a la generalisation, un point faible recurrent des systemes de localisation bases sur l'apprentissage. Sur sept categories d'objets jamais vues a l'entrainement, la precision de position ne chute que de 7,2 points, a 90,99%, ce qui suggere que le modele raisonne reellement sur la semantique spatiale plutot que de memoriser l'apparence des objets. Face a des cartes incompletes ou perimees, un simple reajustement restaure la performance a 93,72% de precision, un scenario frequent en usage reel ou les cartes ne sont pas toujours a jour. Pour les integrateurs et les equipes robotique en environnement industriel ou logistique, ce travail ouvre une piste concrete pour reduire la dependance aux pipelines SLAM geometriques, couteux a calibrer, dans des lieux deja cartographies semantiquement comme des entrepots ou des usines. Il apporte aussi une preuve supplementaire que des modeles vision-langage generalistes, une fois specialises, peuvent remplacer des chaines de perception sur mesure pour des taches de bas niveau comme l'estimation de pose. Deux etudes d'ablation eclairent la complementarite des capteurs. Sans LiDAR, avec seulement la camera et la carte, la precision de position reste a 95,06%, a peine 3,2 points sous le systeme complet, ce qui montre que la vision seule porte l'essentiel du signal utile. Mais lorsque la camera fait face a un mur sans objet visible, le LiDAR permet de maintenir 92,33% de precision, contre 70,74% seulement quand ni le LiDAR ni des objets visibles ne sont disponibles, un cas typique d'occlusion ou de couloir peu structure. Ce travail s'inscrit dans la lignee de recherches recentes qui detournent les modeles vision-langage de leur usage generatif d'origine pour en faire des estimateurs de pose directs, une tendance deja visible dans les architectures VLA comme Pi-0 ou GR00T N2, mais appliquee ici specifiquement a la localisation plutot qu'au controle moteur. Les auteurs positionnent leur methode comme une alternative aux approches SLAM traditionnelles, potentiellement plus resiliente aux environnements dynamiques, sans toutefois avancer de calendrier de deploiement sur robot reel au-dela des simulations Gazebo presentees dans l'etude.

RecherchePaper

1 source

AffordVLA : intégration de représentations d'affordance dans les modèles vision-langage-action (VLA) par alignement implicite de caractéristiques

37

3arXiv cs.RO

AffordVLA : intégration de représentations d'affordance dans les modèles vision-langage-action (VLA) par alignement implicite de caractéristiques

Des chercheurs ont déposé en mai 2026 sur arXiv (arXiv:2605.17517) un papier présentant AffordVLA, un framework qui améliore la précision des modèles Vision-Langage-Action (VLA) en robotique de manipulation. Le problème central: les VLA actuels encodent l'apparence globale des objets mais peinent à localiser les zones d'interaction fonctionnelle, les affordances, telles que le point de préhension ou la surface de contact optimale. AffordVLA injecte ces représentations d'affordance directement dans les couches visuelles intermédiaires du VLA via un alignement implicite, sans annotation supplémentaire ni module de perception externe. Un "teacher" d'affordance zero-shot extrait des cartes fonctionnelles conditionnées par l'instruction en langage naturel, puis les aligne avec les représentations internes du modèle pendant l'entraînement. Les expériences en simulation et en environnement réel rapportent des performances supérieures aux baselines, avec un taux de succès en manipulation amélioré, sans que l'abstract ne publie de métriques absolues chiffrées. Ce gap entre apparence globale et localisation fonctionnelle est l'un des facteurs limitants du sim-to-real gap en manipulation non structurée: les systèmes réussissent en laboratoire contrôlé mais échouent dès que l'éclairage, le fond ou la pose de l'objet varient. En internalisant la perception d'affordance dans le VLA lui-même, AffordVLA évite les erreurs en cascade des architectures hybrides couplant un VLA à un module de segmentation externe, et n'alourdit pas le temps d'inférence, un critère déterminant pour les déploiements industriels en temps réel. La suppression de la dépendance aux masques annotés réduit également le coût de mise en données pour les intégrateurs, ce qui élargit la portée pratique de l'approche. AffordVLA s'inscrit dans l'accélération des travaux académiques autour des VLA depuis RT-2 (Google DeepMind, 2023), dans un secteur aujourd'hui dominé par des systèmes propriétaires comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure AI). Ce courant cherche à améliorer le grounding spatial sans refonte architecturale complète, une approche plus accessible pour les laboratoires sans les moyens de Physical Intelligence ou de Figure. Le papier reste un preprint non peer-reviewed; aucun partenariat industriel ni déploiement terrain n'est mentionné. La suite logique serait une validation sur des benchmarks standardisés comme BridgeV2 ou OpenX-Embodiment, et une intégration dans des pipelines open-source comme LeRobot ou OpenVLA.

RechercheOpinion

1 source

49

4arXiv cs.RO

« Cartes sémantiques enrichies par instance pour la navigation en langage visuel »

Une équipe de recherche (RCI Lab) publie un nouveau framework baptisé Instance-Enriched Semantic Maps pour la navigation par instructions en langage naturel (Visual Language Navigation, VLN), avec trois apports techniques. D'abord, une cartographie 2.5D au niveau instance construite à partir d'images couleur et de profondeur via segmentation panoptique en vocabulaire ouvert, qui préserve les distinctions verticales et capture les petits objets, tout en associant à chaque élément des attributs sémantiques et des descriptions en langage naturel enrichies du contexte de la pièce. Ensuite, un module de traitement des requêtes s'appuyant sur un LLM pour sélectionner la cible, en routant dynamiquement les requêtes vers des experts spécialisés par type et en fusionnant leurs scores pour une sélection d'objectif cohérente quel que soit le formulation de la requête. Enfin, une représentation sémantique nettement plus compacte, avec une réduction de stockage d'environ 96 % par rapport aux approches à scene-graph 3D, tout en conservant l'information spatiale nécessaire à la navigation. Sur le plan des résultats, la représentation 2.5D dépasse la référence 3D de plus de 27 % en AUC normalisée, et le système complet améliore la récupération d'objets de plus de 17 % et le taux de réussite de navigation de plus de 23 % par rapport à la baseline, sur des types de requêtes variés. Pour les robots mobiles autonomes (AMR) et les agents embarqués évoluant en intérieur, ces travaux ciblent un goulot d'étranglement connu des systèmes VLN actuels : la cartographie sémantique existante manque de granularité au niveau des instances individuelles et se montre fragile face à la diversité réelle des formulations utilisateur. En réduisant drastiquement le coût de stockage des cartes tout en gardant leur précision spatiale, l'approche répond à une contrainte concrète de déploiement embarqué, où la mémoire et le calcul restent limités. C'est un signal que la navigation par langage naturel progresse vers une robustesse compatible avec des usages industriels au-delà des démonstrations de laboratoire. Le travail s'inscrit dans la lignée des systèmes VLN combinant cartes spatiales sémantiques et raisonnement par LLM, une direction de recherche active depuis l'essor des modèles de segmentation en vocabulaire ouvert. Les auteurs comparent explicitement leur méthode à des approches de référence en scene-graph 3D, positionnant leur contribution comme une alternative plus légère et plus précise. Le code et les démonstrations sont disponibles sur la page du projet, mais aucun calendrier de déploiement sur robot physique n'est mentionné à ce stade.

RecherchePaper

1 source

VLM-GLoc : localisation globale sémantique robuste par Monte Carlo enrichi d'un modèle vision-langage dans des environnements encombrés quasi-statiques

À lire aussi

ShelfAware : localisation sémantique en temps réel dans des environnements quasi-statiques avec des capteurs bas coût

Titre traduit : Où suis-je ? Localisation multimodale par ancrage sémantique de cartes via des modèles vision-langage

AffordVLA : intégration de représentations d'affordance dans les modèles vision-langage-action (VLA) par alignement implicite de caractéristiques

« Cartes sémantiques enrichies par instance pour la navigation en langage visuel »