Meridian : correspondance de primitives…

Organisation robotique de bureau : une approche multi-primitive pour manipuler des objets hétérogènes via les contraintes environnementales

40

1arXiv cs.RO

Organisation robotique de bureau : une approche multi-primitive pour manipuler des objets hétérogènes via les contraintes environnementales

Une équipe de recherche a déposé sur arXiv (référence 2605.02135, mai 2025) un framework de manipulation pour robots de service dédié à l'organisation de bureaux, capable de traiter simultanément des objets rigides et déformables posés à plat sur une surface. Le système repose sur trois primitives de manipulation exploitant l'environnement physique : un saisissement par contact direct pour les petits objets, un push-grasp assisté par le bord de la table pour les objets rigides plans, et un geste de levering (soulèvement par effet de levier) pour les objets déformables plans comme des feuilles de papier ou des pochettes. Un pipeline de perception géométrique, entraîné sur des datasets augmentés d'objets de bureau peu courants, assure l'estimation de pose et la détection des contraintes physiques disponibles, notamment les arêtes de table. Un planificateur de tâches orchestre ces primitives pour des séquences multi-objets incluant collecte et empilement. Les expériences en conditions réelles démontrent la robustesse de l'approche, et le code source ainsi que les vidéos sont publiés en accès libre. L'intérêt principal de ce travail est l'exploitation systématique des contraintes environnementales comme ressource de manipulation plutôt que comme obstacle, une inversion de perspective qui améliore la robustesse sans nécessiter de hardware dédié tel que ventouses ou pinces spécialisées. La gestion des objets déformables, longtemps considérée comme un verrou pour les robots de service, est ici abordée sans apprentissage end-to-end, ce qui favorise la traçabilité et le débogage en contexte d'intégration industrielle. Pour un intégrateur ou un COO logistique, ce type de framework à primitives explicites est plus directement industrialisable que les approches VLA (Vision-Language-Action) dont la robustesse en déploiement réel à grande échelle reste discutée dans la littérature. Ce travail s'inscrit dans le courant du task-and-motion planning (TAMP), qui cherche à combiner la robustesse des primitives classiques avec la flexibilité perceptive nécessaire aux environnements non structurés, en alternative aux méthodes d'imitation ou de reinforcement learning pur. Il se positionne sans atteindre encore leur généralisabilité sur de larges catalogues d'objets, ce qui constitue la limite principale de l'approche. Les acteurs actifs sur la manipulation fine de bureau incluent Google DeepMind avec ses travaux RT-2 et π0, Physical Intelligence, et côté académique des labos comme ETH Zurich ou CMU ; aucun acteur francophone ou européen n'est directement impliqué dans ce papier. Les suites naturelles seraient d'étendre ces primitives à des objets tridimensionnels non plans et d'évaluer le passage à l'échelle sur des manipulateurs commerciaux comme le Kinova Gen3 ou le Franka Research 3.

RecherchePaper

1 source

ShelfAware : localisation sémantique en temps réel dans des environnements quasi-statiques avec des capteurs bas coût

38

2arXiv cs.RO

ShelfAware : localisation sémantique en temps réel dans des environnements quasi-statiques avec des capteurs bas coût

Des chercheurs ont publié sur arXiv (2512.09065v2) ShelfAware, un filtre particulaire sémantique conçu pour la localisation globale de robots mobiles dans des environnements dits quasi-statiques : des espaces dont la géométrie générale est stable mais dont les contenus changent continuellement, comme les rayons d'un supermarché ou les allées d'un entrepôt logistique. Le système fusionne une vraisemblance de profondeur avec une similarité sémantique centrée sur les catégories d'objets, et génère des hypothèses de pose via des propositions inverses précalculées intégrées dans un cadre Monte Carlo Localization (MCL). Évalué dans un environnement de vente fictif rigoureusement contrôlé, ShelfAware atteint un taux de succès de localisation globale de 97 % et maintient un taux de suivi de 66 % dans des conditions d'occultation variées (chariot, dispositif portable, obstruction dynamique). Dans un second test mené dans un supermarché opérationnel de 325 m², le système s'appuie sur un pipeline de vision à vocabulaire ouvert et surpasse significativement les approches géométriques seules ainsi que les méthodes sémantiques à points de repère fixes. L'ensemble tourne sur du matériel vision bas coût, sans capteur LiDAR. Ce qui est notable ici, c'est moins la performance brute que l'approche architecturale. La grande majorité des systèmes de localisation sémantique traitent les objets comme des landmarks discrets et fixes : un objet identifié = une position dans la carte. ShelfAware modélise à la place la sémantique de manière distributionnelle, comme une évidence statistique sur des catégories, ce qui le rend résilient aux changements de stock, aux réorganisations et au désordre dynamique. Pour un intégrateur déployant des AMR (autonomous mobile robots) en grande distribution ou en logistique de dernier kilomètre, cela signifie une localisation sans infrastructure additionnelle (pas de QR codes, pas de balises UWB), avec un hardware limité au seul RGB-D ou monoculaire. L'article s'inscrit dans un effort de recherche plus large visant à combler le fossé entre les environnements de laboratoire et les déploiements réels dans des espaces peuplés et changeants. Les approches concurrentes incluent les méthodes SLAM visuelles (ORB-SLAM3, OpenVINS) et les systèmes sémantiques basés sur des réseaux de neurones comme Nice-SLAM ou Semantic-NeRF, qui offrent de meilleures représentations mais exigent des ressources computationnelles bien supérieures. ShelfAware opte pour un compromis pragmatique : représentation légère, généralisation par le vocabulaire ouvert (CLIP ou équivalent), et intégration native dans MCL. Il s'agit d'une contribution académique préprint, pas d'un produit commercialisé : aucun déploiement industriel ni partenariat industriel n'est annoncé à ce stade. Des acteurs comme Simbe Robotics ou Badger Technologies, positionnés sur la robotique de retail avec infrastructure propriétaire, constituent le référentiel concurrentiel naturel face auquel une telle approche sans infrastructure prendrait de la valeur.

RecherchePaper

1 source

Localisation SLAM multi-session par texture au sol en environnements peu dynamiques

42

3arXiv cs.RO

Localisation SLAM multi-session par texture au sol en environnements peu dynamiques

Des chercheurs ont publié sur arXiv (identifiant 2605.19701) une étude portant sur le SLAM multi-session par texture de sol dans des environnements à faible dynamique de changement. Le SLAM (Simultaneous Localization and Mapping) basé sur la texture du sol utilise uniquement les patterns visuels du plancher comme repère cartographique, sans marqueurs physiques ni infrastructure dédiée. L'article évalue trois techniques pour améliorer la précision d'estimation de trajectoire dans des environnements où le sol évolue lentement entre sessions : usure de surface, phénomènes météorologiques, variations saisonnières. Parmi ces approches, l'utilisation de la divergence de Kullback-Leibler (KLD), une mesure de dissimilarité entre distributions de probabilité, comme score de similarité et comme biais influençant la confiance dans la détection de bouclage de trajectoire (loop closure), s'est révélée la plus performante. L'équipe met également à disposition un dataset public contenant des images multi-sessions de sol avec variations entre sessions et des données de pose haute précision pour évaluation comparative. La gestion multi-session est un prérequis opérationnel souvent sous-estimé dans les déploiements longue durée de robots mobiles autonomes (AMR) en environnements peu texturés : entrepôts à sols lisses, couloirs hospitaliers, zones de production industrielle. Un robot contraint de reconstruire intégralement sa carte après chaque redémarrage, maintenance ou changement saisonnier génère des interruptions de service et des coûts opérationnels qui compromettent la viabilité à l'échelle. La capacité à détecter des correspondances fiables entre sessions malgré une évolution lente du terrain constitue un pas concret vers des systèmes SLAM "lifelong" exploitables en production, et la KLD semble offrir ici un avantage mesurable sur les métriques de similarité classiques. Le SLAM par texture de sol s'est développé comme alternative aux systèmes LiDAR et aux réseaux de marqueurs au sol dans des contextes où l'infrastructure est coûteuse ou non autorisée, mais les travaux antérieurs restaient limités aux opérations mono-session. Les systèmes AMR commerciaux de référence, notamment ceux d'Exotec pour la logistique française ou les plateformes de navigation d'entrepôt fondées sur LiDAR 2D, s'appuient encore sur des capteurs actifs ou des repères fixes. Cette publication s'inscrit dans l'effort croissant de la communauté SLAM pour traiter les environnements "low-dynamic", zone intermédiaire entre statique et hautement dynamique qui représente pourtant la majorité des déploiements industriels réels. Le dataset public est la contribution la plus directement réutilisable, ouvrant la voie à un benchmark standardisé entre méthodes concurrentes.

UELe dataset public et la méthode KLD offrent une piste concrète pour les équipes R&D travaillant sur des AMR longue durée en environnements industriels européens (entrepôts logistiques, couloirs hospitaliers), en réduisant les interruptions de service liées aux reconfigurations cartographiques multi-sessions.

RecherchePaper

1 source

49

4arXiv cs.RO

OASIS-Map : détection de changements au niveau des objets en cartographie multi-sessions par mise en correspondance sémantique

Des chercheurs d'Oxford (Oxford Robotics Institute, groupe Dynamic Robot Systems) présentent OASIS-Map, un système de cartographie multi-session conçu pour détecter et suivre les changements d'objets dans des environnements semi-statiques revisités par un robot au fil du temps. Publié sur arXiv (2607.14899v1), le système établit des correspondances sémantiques denses au niveau des patchs entre observations successives, permettant d'associer un même objet d'une visite à l'autre même en cas de vue partielle, d'occlusion ou de segmentation imparfaite, puis de repérer précisément ce qui a changé dans la scène : objets apparus, disparus, déplacés ou remplacés. L'équipe a testé OASIS-Map sur trois scénarios réels distincts : des réarrangements d'objets dans le jeu de données 3RScan, le remplacement de véhicules visuellement similaires dans un parking, et des changements à grande échelle dans un marché extérieur. Les résultats mesurés donnent un score F1 de 0,783 pour la détection de changement dans le scénario du parking (remplacement de voitures) et un F1 de 0,667 pour l'association d'objets déplacés sur 3RScan. Ce travail cible un problème concret pour la robotique d'inspection long terme : une carte statique devient rapidement obsolète dès que l'environnement évolue en l'absence du robot, un défi central pour les déploiements en entrepôt, en parking ou en espace commercial où les objets bougent en permanence. La difficulté technique majeure n'est pas de détecter qu'un changement a eu lieu, mais d'associer correctement les objets entre deux visites malgré des angles de vue différents ou des occlusions partielles, ce que les méthodes fondées sur la géométrie seule ou la sémantique de catégorie peinent à faire de façon fiable. Un F1 de 0,667 sur l'association d'objets déplacés montre que le problème reste loin d'être résolu à l'échelle, ce qui tempère l'idée que la correspondance sémantique multi-session serait déjà mature pour un déploiement industriel sans supervision. OASIS-Map s'inscrit dans une lignée de recherches sur la cartographie sémantique orientée objets et le change detection pour la robotique persistante, un axe où la littérature s'appuyait jusqu'ici surtout sur la géométrie brute ou des catégories sémantiques génériques plutôt que sur une correspondance fine au niveau des patchs. Les auteurs annoncent la mise à disposition d'une page projet (dynamic.robots.ox.ac.uk/projects/oasis-map) mais ne précisent pas de calendrier de déploiement pilote ni de partenariat industriel ; il s'agit pour l'instant d'un travail de recherche validé sur des cas d'usage réels mais circonscrits, sans indication de commercialisation à court terme.

UERecherche menée par un laboratoire universitaire britannique (Oxford Robotics Institute), sans entreprise ni réglementation française ou européenne impliquée, mais les cas d'usage ciblés (entrepôt, parking, commerce) concernent des environnements industriels également présents en Europe.

RecherchePaper

1 source

Meridian : correspondance de primitives métriques-sémantiques pour la géolocalisation multi-vue hors environnements urbains

À lire aussi

Organisation robotique de bureau : une approche multi-primitive pour manipuler des objets hétérogènes via les contraintes environnementales

ShelfAware : localisation sémantique en temps réel dans des environnements quasi-statiques avec des capteurs bas coût

Localisation SLAM multi-session par texture au sol en environnements peu dynamiques

OASIS-Map : détection de changements au niveau des objets en cartographie multi-sessions par mise en correspondance sémantique