ShelfAware : localisation sémantique en temps réel dans des environnements quasi-statiques avec des capteurs bas coût
Des chercheurs ont publié sur arXiv (2512.09065v2) ShelfAware, un filtre particulaire sémantique conçu pour la localisation globale de robots mobiles dans des environnements dits quasi-statiques : des espaces dont la géométrie générale est stable mais dont les contenus changent continuellement, comme les rayons d'un supermarché ou les allées d'un entrepôt logistique. Le système fusionne une vraisemblance de profondeur avec une similarité sémantique centrée sur les catégories d'objets, et génère des hypothèses de pose via des propositions inverses précalculées intégrées dans un cadre Monte Carlo Localization (MCL). Évalué dans un environnement de vente fictif rigoureusement contrôlé, ShelfAware atteint un taux de succès de localisation globale de 97 % et maintient un taux de suivi de 66 % dans des conditions d'occultation variées (chariot, dispositif portable, obstruction dynamique). Dans un second test mené dans un supermarché opérationnel de 325 m², le système s'appuie sur un pipeline de vision à vocabulaire ouvert et surpasse significativement les approches géométriques seules ainsi que les méthodes sémantiques à points de repère fixes. L'ensemble tourne sur du matériel vision bas coût, sans capteur LiDAR.
Ce qui est notable ici, c'est moins la performance brute que l'approche architecturale. La grande majorité des systèmes de localisation sémantique traitent les objets comme des landmarks discrets et fixes : un objet identifié = une position dans la carte. ShelfAware modélise à la place la sémantique de manière distributionnelle, comme une évidence statistique sur des catégories, ce qui le rend résilient aux changements de stock, aux réorganisations et au désordre dynamique. Pour un intégrateur déployant des AMR (autonomous mobile robots) en grande distribution ou en logistique de dernier kilomètre, cela signifie une localisation sans infrastructure additionnelle (pas de QR codes, pas de balises UWB), avec un hardware limité au seul RGB-D ou monoculaire.
L'article s'inscrit dans un effort de recherche plus large visant à combler le fossé entre les environnements de laboratoire et les déploiements réels dans des espaces peuplés et changeants. Les approches concurrentes incluent les méthodes SLAM visuelles (ORB-SLAM3, OpenVINS) et les systèmes sémantiques basés sur des réseaux de neurones comme Nice-SLAM ou Semantic-NeRF, qui offrent de meilleures représentations mais exigent des ressources computationnelles bien supérieures. ShelfAware opte pour un compromis pragmatique : représentation légère, généralisation par le vocabulaire ouvert (CLIP ou équivalent), et intégration native dans MCL. Il s'agit d'une contribution académique préprint, pas d'un produit commercialisé : aucun déploiement industriel ni partenariat industriel n'est annoncé à ce stade. Des acteurs comme Simbe Robotics ou Badger Technologies, positionnés sur la robotique de retail avec infrastructure propriétaire, constituent le référentiel concurrentiel naturel face auquel une telle approche sans infrastructure prendrait de la valeur.
Dans nos dossiers




