Aller au contenu principal
RecherchearXiv cs.RO4h

ShelfAware : localisation sémantique en temps réel dans des environnements quasi-statiques avec des capteurs bas coût

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (2512.09065v2) ShelfAware, un filtre particulaire sémantique conçu pour la localisation globale de robots mobiles dans des environnements dits quasi-statiques : des espaces dont la géométrie générale est stable mais dont les contenus changent continuellement, comme les rayons d'un supermarché ou les allées d'un entrepôt logistique. Le système fusionne une vraisemblance de profondeur avec une similarité sémantique centrée sur les catégories d'objets, et génère des hypothèses de pose via des propositions inverses précalculées intégrées dans un cadre Monte Carlo Localization (MCL). Évalué dans un environnement de vente fictif rigoureusement contrôlé, ShelfAware atteint un taux de succès de localisation globale de 97 % et maintient un taux de suivi de 66 % dans des conditions d'occultation variées (chariot, dispositif portable, obstruction dynamique). Dans un second test mené dans un supermarché opérationnel de 325 m², le système s'appuie sur un pipeline de vision à vocabulaire ouvert et surpasse significativement les approches géométriques seules ainsi que les méthodes sémantiques à points de repère fixes. L'ensemble tourne sur du matériel vision bas coût, sans capteur LiDAR.

Ce qui est notable ici, c'est moins la performance brute que l'approche architecturale. La grande majorité des systèmes de localisation sémantique traitent les objets comme des landmarks discrets et fixes : un objet identifié = une position dans la carte. ShelfAware modélise à la place la sémantique de manière distributionnelle, comme une évidence statistique sur des catégories, ce qui le rend résilient aux changements de stock, aux réorganisations et au désordre dynamique. Pour un intégrateur déployant des AMR (autonomous mobile robots) en grande distribution ou en logistique de dernier kilomètre, cela signifie une localisation sans infrastructure additionnelle (pas de QR codes, pas de balises UWB), avec un hardware limité au seul RGB-D ou monoculaire.

L'article s'inscrit dans un effort de recherche plus large visant à combler le fossé entre les environnements de laboratoire et les déploiements réels dans des espaces peuplés et changeants. Les approches concurrentes incluent les méthodes SLAM visuelles (ORB-SLAM3, OpenVINS) et les systèmes sémantiques basés sur des réseaux de neurones comme Nice-SLAM ou Semantic-NeRF, qui offrent de meilleures représentations mais exigent des ressources computationnelles bien supérieures. ShelfAware opte pour un compromis pragmatique : représentation légère, généralisation par le vocabulaire ouvert (CLIP ou équivalent), et intégration native dans MCL. Il s'agit d'une contribution académique préprint, pas d'un produit commercialisé : aucun déploiement industriel ni partenariat industriel n'est annoncé à ce stade. Des acteurs comme Simbe Robotics ou Badger Technologies, positionnés sur la robotique de retail avec infrastructure propriétaire, constituent le référentiel concurrentiel naturel face auquel une telle approche sans infrastructure prendrait de la valeur.

À lire aussi

VLM-GLoc : localisation globale sémantique robuste par Monte Carlo enrichi d'un modèle vision-langage dans des environnements encombrés quasi-statiques
1arXiv cs.RO 

VLM-GLoc : localisation globale sémantique robuste par Monte Carlo enrichi d'un modèle vision-langage dans des environnements encombrés quasi-statiques

Des chercheurs présentent VLM-GLoc, une méthode de localisation globale pour robots mobiles qui intègre des modèles vision-langage (VLM) à vocabulaire ouvert au sein d'un pipeline Monte Carlo Localization (MCL) hiérarchique. Publiés sur arXiv (2605.30506), les résultats portent sur deux environnements réels : une épicerie de 325 m² et un laboratoire de 344 m², testés avec deux plateformes distinctes, un smartphone et un robot quadrupède. Sur ces bancs d'essai, VLM-GLoc atteint respectivement 70 % et 74 % de succès en localisation globale, surpassant nettement les baselines géométriques classiques et les pipelines visuels spécialisés au domaine. Le verrou adressé est concret : dans un entrepôt ou un couloir d'hôpital, les capteurs LiDAR et les descripteurs géométriques butent sur l'aliasing, c'est-à-dire l'incapacité à distinguer des espaces structurellement similaires. VLM-GLoc contourne ce problème en substituant les descripteurs spécialisés par un VLM à vocabulaire ouvert, capable de produire des représentations textuelles riches pour chaque observation caméra. L'innovation principale est un mécanisme de "proposition sémantique inverse" : plutôt que d'initialiser les particules MCL de façon aléatoire, le système les amorce via une requête texte-vers-carte, accélérant la convergence dans des espaces larges. Le VLM joue également un rôle de filtre implicite sur les objets flous ou transitoires, et intègre un raisonnement sur la permanence des éléments pour guider l'augmentation de données. La localisation Monte Carlo est une technique éprouvée depuis les années 2000, mais son couplage avec des VLMs à vocabulaire ouvert reste récent. Les approches concurrentes incluent NetVLAD, SuperPoint/SuperGlue pour la reconnaissance de lieu, et les méthodes de localisation neurale à base de NeRF. L'avantage opérationnel de VLM-GLoc réside dans l'absence d'apprentissage supervisé spécifique au domaine, ce qui facilite le déploiement sur de nouveaux sites sans retraining coûteux. Les taux de 70-74 % demeurent cependant insuffisants pour des applications industrielles critiques : les auteurs ne précisent ni les conditions d'échec ni les marges d'erreur de position acceptées, ce qui invite à la prudence avant tout passage en production. La prochaine étape naturelle serait une validation dans des environnements plus dynamiques et avec des VLMs de dernière génération.

RecherchePaper
1 source
De zéro à l'autonomie en temps réel : adaptation en ligne de la dynamique dans des environnements non structurés
2arXiv cs.RO 

De zéro à l'autonomie en temps réel : adaptation en ligne de la dynamique dans des environnements non structurés

Une équipe de chercheurs propose, dans un préprint arXiv (réf. 2509.12516 v2, septembre 2025), une méthode d'adaptation en ligne des dynamiques robotiques capable de passer de zéro connaissance préalable à un contrôle sûr en quelques secondes. L'algorithme combine des encodeurs de fonctions ("function encoders") avec les moindres carrés récursifs (RLS) : les coefficients de l'encodeur sont traités comme des états latents mis à jour en continu depuis l'odométrie du robot en streaming. L'estimation s'effectue en temps constant, sans boucle interne à base de gradients, ce qui la distingue structurellement des approches de méta-apprentissage. Les expériences portent sur trois configurations : un système de Van der Pol pour valider le comportement algorithmique, un simulateur Unity pour la navigation tout-terrain haute fidélité, et un robot Clearpath Jackal en conditions réelles, notamment sur la glace d'une patinoire locale. Dans toutes ces configurations, la méthode réduit le nombre de collisions par rapport aux baselines statiques et de méta-apprentissage. L'enjeu opérationnel est direct : les transitions abruptes de terrain, comme du bitume vers de la glace ou du gravier vers de la boue, déstabilisent les planificateurs de trajectoire si le modèle dynamique ne se met pas à jour assez vite. Là où des approches comme MAML nécessitent de nombreux pas de gradient pour converger vers un nouveau régime dynamique, ce système extrait une représentation exploitable à partir de quelques secondes de données odométriques. La validation sur glace physique, environnement à très faible coefficient de frottement, renforce la crédibilité de la démonstration au-delà du seul simulateur et constitue un argument sérieux contre le "dynamics gap" souvent reproché aux méthodes d'adaptation sim-to-real. Cette recherche s'inscrit dans un courant actif autour de l'adaptation rapide pour robots mobiles, en concurrence directe avec RMA (Rapid Motor Adaptation, ETH Zürich) pour les quadrupèdes et les travaux de Berkeley sur l'adaptation contextuelle via réseaux d'encodage. Le Clearpath Jackal, plateforme différentielle de référence dans la recherche académique, facilite la reproductibilité des résultats. L'article ne mentionne aucun déploiement industriel ni partenariat commercial, mais la complexité temporelle constante de l'algorithme le rend compatible avec des contraintes embarquées réelles. La prochaine étape logique serait une validation sur flottes AMR en environnement logistique ou sur des quadrupèdes exposés à des changements de surface similaires.

RecherchePaper
1 source
COVER : planification de mouvement en temps fixe avec cartes à couverture vérifiée en environnements semi-statiques
3arXiv cs.RO 

COVER : planification de mouvement en temps fixe avec cartes à couverture vérifiée en environnements semi-statiques

Des chercheurs ont publié sur arXiv (référence 2510.03875v2) un framework baptisé COVER (Coverage-VErified Roadmaps), conçu pour résoudre des requêtes de planification de mouvement dans un budget temps fixe, sur un manipulateur 7-DOF effectuant des tâches de pick-and-place dans des environnements de type table rase et étagères. Le principe repose sur des environnements dits semi-statiques : la majorité de l'espace de travail reste identique entre les tâches, tandis qu'un sous-ensemble d'obstacles change de position. COVER décompose l'espace des configurations possibles de chaque obstacle mobile de façon indépendante, construit des roadmaps (graphes de chemins) de façon incrémentale, et vérifie formellement la faisabilité de ces graphes dans chaque partition. Pour les régions vérifiées, la résolution d'une requête est garantie dans un temps borné. Les benchmarks montrent une couverture de l'espace-problème plus large et un taux de succès par requête supérieur aux approches antérieures, notamment face à des obstacles de tailles hétérogènes. L'enjeu industriel est direct : les planificateurs généralistes comme RRT ou ses variantes ne garantissent pas de temps de réponse borné, ce qui bloque leur usage dans les applications temps-réel (lignes d'assemblage, cellules de palettisation, cobots en cadence synchronisée). COVER apporte une garantie formelle de couverture, absente des travaux précédents, sans discrétiser les configurations d'obstacles en un ensemble fini prédéfini. C'est ce dernier point qui étend l'applicabilité aux scénarios industriels réels, où les positions d'obstacles varient continûment et ne tombent pas dans des cases prédéterminées. Pour un intégrateur, la différence est concrète : un planificateur qui "essaie" n'a pas la même valeur contractuelle qu'un planificateur qui "garantit" dans X millisecondes. La planification de mouvement certifiée dans des environnements changeants est un problème ouvert depuis des années, à la frontière entre la robotique manipulation et la vérification formelle. Les approches par probabilistic roadmaps (PRM) offrent performance mais pas de garanties ; les méthodes exactes sont trop coûteuses en temps de calcul pour être embarquées. COVER se positionne entre ces deux extrêmes en exploitant la structure semi-statique propre à la majorité des environnements industriels. Les concurrents implicites sont les planificateurs adaptatifs comme STOMP, TrajOpt, ou les approches d'apprentissage par imitation (pi-zero de Physical Intelligence, GR00T N2 de NVIDIA), qui résolvent la planification par inférence neuronale mais sans garantie formelle de complétude. La prochaine étape naturelle serait d'étendre COVER à des environnements avec obstacles dynamiques ou à des manipulateurs montés sur bases mobiles, ce que l'article ne couvre pas encore.

RecherchePaper
1 source
Localisation SLAM multi-session par texture au sol en environnements peu dynamiques
4arXiv cs.RO 

Localisation SLAM multi-session par texture au sol en environnements peu dynamiques

Des chercheurs ont publié sur arXiv (identifiant 2605.19701) une étude portant sur le SLAM multi-session par texture de sol dans des environnements à faible dynamique de changement. Le SLAM (Simultaneous Localization and Mapping) basé sur la texture du sol utilise uniquement les patterns visuels du plancher comme repère cartographique, sans marqueurs physiques ni infrastructure dédiée. L'article évalue trois techniques pour améliorer la précision d'estimation de trajectoire dans des environnements où le sol évolue lentement entre sessions : usure de surface, phénomènes météorologiques, variations saisonnières. Parmi ces approches, l'utilisation de la divergence de Kullback-Leibler (KLD), une mesure de dissimilarité entre distributions de probabilité, comme score de similarité et comme biais influençant la confiance dans la détection de bouclage de trajectoire (loop closure), s'est révélée la plus performante. L'équipe met également à disposition un dataset public contenant des images multi-sessions de sol avec variations entre sessions et des données de pose haute précision pour évaluation comparative. La gestion multi-session est un prérequis opérationnel souvent sous-estimé dans les déploiements longue durée de robots mobiles autonomes (AMR) en environnements peu texturés : entrepôts à sols lisses, couloirs hospitaliers, zones de production industrielle. Un robot contraint de reconstruire intégralement sa carte après chaque redémarrage, maintenance ou changement saisonnier génère des interruptions de service et des coûts opérationnels qui compromettent la viabilité à l'échelle. La capacité à détecter des correspondances fiables entre sessions malgré une évolution lente du terrain constitue un pas concret vers des systèmes SLAM "lifelong" exploitables en production, et la KLD semble offrir ici un avantage mesurable sur les métriques de similarité classiques. Le SLAM par texture de sol s'est développé comme alternative aux systèmes LiDAR et aux réseaux de marqueurs au sol dans des contextes où l'infrastructure est coûteuse ou non autorisée, mais les travaux antérieurs restaient limités aux opérations mono-session. Les systèmes AMR commerciaux de référence, notamment ceux d'Exotec pour la logistique française ou les plateformes de navigation d'entrepôt fondées sur LiDAR 2D, s'appuient encore sur des capteurs actifs ou des repères fixes. Cette publication s'inscrit dans l'effort croissant de la communauté SLAM pour traiter les environnements "low-dynamic", zone intermédiaire entre statique et hautement dynamique qui représente pourtant la majorité des déploiements industriels réels. Le dataset public est la contribution la plus directement réutilisable, ouvrant la voie à un benchmark standardisé entre méthodes concurrentes.

UELe dataset public et la méthode KLD offrent une piste concrète pour les équipes R&D travaillant sur des AMR longue durée en environnements industriels européens (entrepôts logistiques, couloirs hospitaliers), en réduisant les interruptions de service liées aux reconfigurations cartographiques multi-sessions.

RecherchePaper
1 source