RecherchearXiv cs.RO 2 juin 2026

Représentation hiérarchique des objets pour la perception spatiale des robots : points, maillages et superquadriques

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.01545) un pipeline de représentation hiérarchique des objets pour la perception spatiale des robots, baptisé Hickory et disponible en open source. Le système organise la scène en quatre couches progressives : données brutes de capteurs RGB-D, nuages de points partiels, maillages 3D denses, puis primitives analytiques appelées superquadriques, des formes géométriques paramétriques capables de modéliser objets convexes et concaves avec un nombre réduit de paramètres. Cette architecture s'intègre dans le cadre des 3D Scene Graphs (3DSG), représentations hiérarchiques combinant informations métriques, sémantiques et topologiques utilisées pour l'autonomie longue durée des robots. Les expériences ont été conduites sur quatre jeux de données de référence (HOPE, ReplicaCAD, Kimera-Multi, NUS Campus Dataset), le dernier étant collecté avec un robot quadrupède Unitree B2 en environnement extérieur réel.

L'apport concret réside dans deux lacunes comblées simultanément. Premièrement, les méthodes existantes de 3DSG utilisent des représentations géométriques simplistes, boîtes englobantes ou nuages de points partiels, insuffisantes pour la planification de trajectoire en environnement dense et encombré. Les superquadriques permettent ici une vérification analytique des collisions, plus rapide et plus précise que les méthodes volumétriques classiques. Deuxièmement, sur la tâche d'alignement de cartes (map alignment), critique pour la re-localisation multi-robot, le pipeline surpasse ROMAN, l'état de l'art actuel basé sur les objets. Pour un intégrateur déployant une flotte d'AMR en entrepôt, ou un équipementier embarquant de la navigation autonome, c'est un signal que la couche de représentation peut devenir un point de différenciation concret.

Le travail s'inscrit dans une tendance de fond : enrichir les cartes métriques-sémantiques au-delà du simple voxel ou du bounding box. Des projets comme Khronos (MIT SPARK Lab) ou les travaux de Kimera ont posé les fondations des 3DSG ; Hickory pousse la granularité au niveau objet avec une couche analytique exploitable directement par un planificateur de mouvement. Les concurrents directs sur le créneau de la représentation objet compacte incluent les approches par ellipsoïdes (EllipsoidSLAM) et les Neural Radiance Fields objets (NeRF-based SLAM), mais ces derniers restent coûteux en inférence. Le code est public sur GitHub (perceptica-robotics/Hickory), ce qui facilite l'évaluation par des équipes tiers, à vérifier en conditions réelles de déploiement sur des scènes non contrôlées.

Dans nos dossiers

Unitree arXiv cs.RO

À lire aussi

1arXiv cs.RO

ObsGraph : représentation hiérarchique des observations pour le raisonnement incarné et l'exploration

Des chercheurs ont soumis le 24 juin 2026 sur arXiv (identifiant 2606.24068) un système baptisé ObsGraph, une représentation hiérarchique de scène centrée sur l'observation, destinée aux agents robotiques déployés dans des environnements complexes et inconnus. L'architecture repose sur trois couches emboîtées : les pièces (rooms), qui fournissent des ancres sémantiques grossières à l'échelle d'une zone ; les vues (views), qui préservent la co-visibilité contextuelle des objets dans un même champ ; et les objets (objects), qui stockent les détails fins nécessaires à l'exécution des tâches. Sur cette représentation, ObsGraph exécute une récupération d'information hiérarchique contrainte par un budget computationnel, du plus grossier au plus précis, puis utilise les résultats obtenus pour structurer dynamiquement la stratégie d'exploration : activation de l'exploration au niveau pièce, raffinement de vue, ou exploration de frontière (frontier exploration). La contribution centrale est le couplage serré entre représentation, récupération et exploration adaptative, là où la majorité des approches existantes traitent ces trois composantes de manière découplée. En pratique, ce que l'agent a déjà observé détermine directement où il cherche ensuite, réduisant l'exploration redondante. Les expériences sur des benchmarks d'embodied reasoning et d'exploration montrent des améliorations en taux de réussite et en efficacité, mais les auteurs ne publient pas de chiffres précis dans le résumé de la pré-publication, ce qui limite l'évaluation indépendante à ce stade. Pour un intégrateur ou un COO industriel, ce type de système pointe vers des agents capables de naviguer dans un entrepôt ou un atelier non cartographié avec un budget d'exploration réduit, un point critique pour les déploiements en environnements non structurés. Ce travail s'inscrit dans la dynamique plus large de l'embodied AI, où l'enjeu est de faire raisonner des agents sur des scènes inédites sans carte préexistante. Les approches concurrentes incluent les semantic maps, les topological graphs, et les modèles VLA (Vision-Language-Action) qui intègrent raisonnement et contrôle moteur dans un même réseau de neurones. ObsGraph se positionne comme une couche mémoire et représentation complémentaire à ces modèles d'action, et non comme un système de contrôle moteur à part entière. Il s'agit pour l'instant d'un preprint arXiv sans déploiement réel ni partenariat industriel annoncé ; la prochaine étape logique serait une intégration avec des frameworks robotiques comme ROS 2 ou des systèmes VLA déjà validés en conditions réelles, afin de mesurer le gain effectif au-delà des benchmarks académiques.

RecherchePaper

1 source

2arXiv cs.RO

Panorama des représentations de mémoire spatiale pour la navigation robotique efficace

Une étude publiée sur arXiv (2604.16482) recense 88 travaux couvrant 52 systèmes de navigation robotique entre 1989 et 2025, des grilles d'occupation classiques jusqu'aux représentations neurales implicites. Le problème central : à mesure qu'un robot explore de grands espaces, sa mémoire spatiale croît sans borne, épuisant les ressources des plateformes embarquées typiques (8 à 16 Go de mémoire partagée, moins de 30 W de consommation). Les auteurs introduisent un coefficient α, défini comme le rapport entre la mémoire RAM ou GPU consommée en opération (Mpeak) et la taille de la carte sauvegardée sur disque (Mmap). Un profilage indépendant sur GPU NVIDIA A100 révèle que α varie de deux ordres de grandeur selon les méthodes neurales seules : Point-SLAM affiche α = 2,3, tandis que NICE-SLAM atteint α = 215, sa carte de 47 Mo réclamant 10 Go à l'exécution. Les méthodes 3DGS (Gaussian Splatting 3D) obtiennent la meilleure précision absolue pour des cartes de 90 à 254 Mo sur le benchmark Replica, et les graphes de scènes offrent une abstraction sémantique à coût prévisible. Ce résultat remet en cause une hypothèse courante dans la communauté SLAM : la taille de la carte publiée dans un papier n'est pas un indicateur fiable de la faisabilité réelle sur matériel cible. Un système qui semble léger au sens du checkpoint disque peut exiger des ressources mémoire prohibitives au runtime, rendant son déploiement impossible sur une unité de calcul edge standard. L'absence de métrique unifiée sur la consommation mémoire dynamique explique en partie pourquoi des méthodes prometteuses en laboratoire peinent à franchir le seuil de la mise en production industrielle, notamment sur les robots mobiles autonomes (AMR) ou les manipulateurs avec vision embarquée. L'étude propose un protocole standardisé articulé autour du taux de croissance mémoire, de la latence de requête, des courbes mémoire-complétude et de la dégradation du débit, quatre indicateurs absents des benchmarks actuels. Le champ de la mémoire spatiale pour la navigation autonome a connu une accélération avec l'arrivée des représentations neurales implicites (NeRF, 3DGS) autour de 2020-2022, qui ont amélioré la qualité de reconstruction mais ignoré la contrainte mémoire runtime. Des acteurs comme iSLAM, Point-SLAM ou NICE-SLAM ont publié des cartes compactes sans fournir de mesures de consommation dynamique, créant un angle mort dans l'évaluation comparative. Sur le plan concurrentiel, les intégrateurs industriels qui évaluent des solutions SLAM pour des environnements larges (entrepôts, usines) devront désormais exiger le coefficient α comme critère de qualification, en plus du RMSE de localisation. La prochaine étape logique annoncée par les auteurs est un algorithme de budgétisation α-aware permettant d'évaluer la faisabilité de déploiement sur hardware cible avant toute implémentation, un outil directement actionnable pour les équipes d'intégration.

RecherchePaper

1 source

3arXiv cs.RO

OctoSense : apprentissage auto-supervisé pour la perception multimodale des robots

Une équipe de recherche a publié sur arXiv (arXiv:2606.17317) OctoSense, une plateforme matérielle open-source de perception multimodale accompagnée d'un dataset de 59 heures de données embarquées synchronisées. Le rig intègre une paire de caméras RGB stéréo, une caméra à événements, un LiDAR, une caméra thermique, une centrale inertielle (IMU), un GPS RTK et des données de proprioception issues d'un bus CAN automobile et d'un robot quadrupède. Les données ont été collectées dans des environnements variés, à différentes heures du jour et de la nuit, y compris en conditions de dégradation sensorielle sévère. Sur ce dataset, les auteurs démontrent une architecture de foundation model baptisée "late-fusion masked autoencoder" : des tokeniseurs spécifiques par modalité gèrent les différences de résolution spatiotemporelle, de fréquence et de latence entre capteurs, puis les tokens sont mis en cache à l'inférence pour traiter les nouvelles mesures au fil de leur arrivée. Le temps de calcul de représentation atteint 6,68 ms sur GPU NVIDIA RTX 5090 et 112 ms sur module embarqué Jetson Orin NX. Ce résultat est notable pour les intégrateurs robotiques car il démontre qu'un modèle auto-supervisé entraîné sur des données réelles hétérogènes surpasse les foundation models vision-only (entraînés sur images seules) sur quatre tâches critiques : estimation du flot optique, reconstruction de profondeur, segmentation sémantique et estimation de l'ego-motion (translation, rotation, angle de braquage). L'absence de labels supervisés dans le pipeline d'entraînement réduit significativement le coût de constitution des datasets pour les équipes qui déploient sur des plateformes mobiles. La robustesse nocturne et en conditions dégradées adresse directement un point de friction récurrent dans les déploiements AMR en entrepôts logistiques et en robotique outdoor. OctoSense s'inscrit dans la tendance des foundation models perceptifs pour la robotique, un espace très actif depuis les travaux de type CLIP/DINOv2 et plus récemment les VLA (Vision-Language-Action models) poussés par Physical Intelligence (Pi-0) et NVIDIA (GR00T). Contrairement à ces approches centrées sur la manipulation ou la navigation en langage naturel, OctoSense cible la représentation sensorielle bas-niveau sur plateforme embarquée contrainte. Le projet est entièrement open-source (code, dataset et vidéos supplémentaires disponibles), ce qui le distingue des stacks propriétaires des acteurs commerciaux. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade ; il s'agit d'un preprint de recherche sans validation externe. La prochaine étape naturelle serait une évaluation sur des benchmarks robotiques standardisés (OpenX-Embodiment, CARLA) pour confirmer la généralisation hors-distribution.

RecherchePaper

1 source

4arXiv cs.RO

STORM : représentation par slots centrée objet et sensible à la tâche pour la manipulation robotique

Des chercheurs ont publié STORM (Slot-based Task-aware Object-centric Representation for robotic Manipulation), un module d'adaptation léger conçu pour augmenter les modèles visuels de fondation figés avec des représentations centrées sur les objets. Plutôt que de réentraîner de grands backbones visuels, coûteux en calcul et en données étiquetées, STORM insère un ensemble restreint de "slots", des vecteurs appris qui capturent chaque objet de la scène de manière distincte. L'entraînement se déroule en deux phases : un préentraînement visuo-sémantique qui stabilise les slots via des embeddings de langage, puis une adaptation conjointe avec la politique de manipulation. Les expériences, menées sur des benchmarks de découverte d'objets et des tâches de manipulation simulée, montrent des gains de robustesse face aux distracteurs visuels et une meilleure performance de contrôle par rapport à l'utilisation directe des features figées ou à l'entraînement end-to-end de représentations object-centriques. L'enjeu est structurel pour la robotique de manipulation. Les modèles visuels de fondation comme DINOv2 ou SigLIP fournissent des features perceptuelles puissantes, mais leurs représentations denses traitent la scène comme une grille de pixels sans distinguer explicitement les objets. Pour une tâche du type "saisir la boîte rouge parmi plusieurs objets", cette absence de structure oblige le réseau de politique à apprendre lui-même la décomposition de la scène, ce qui nuit à la généralisation hors distribution. STORM contourne ce problème sans toucher au backbone. Le résultat valide l'hypothèse que l'adaptation multi-phase (stabilisation sémantique d'abord, alignement tâche ensuite) évite la dégénérescence des slots, phénomène où plusieurs slots capturent le même objet ou des régions non pertinentes pour la tâche. La ligne de recherche sur les représentations object-centriques remonte à Slot Attention (Locatello et al., 2020, DeepMind) et à MONet. L'originalité de STORM est d'ancrer ces slots dans la sémantique linguistique et de les greffer sur des fondations pré-entraînées plutôt que de repartir de zéro. Dans un écosystème où les VLA (Vision-Language-Action models) comme pi0 de Physical Intelligence ou OpenVLA cherchent à intégrer langage et action de bout en bout, STORM propose une alternative modulaire et économe. Les résultats restent limités à la simulation, ce qui laisse entière la question du sim-to-real gap. Les prochaines étapes logiques incluent la validation sur robots physiques et le test face à des perturbations visuelles plus agressives que les benchmarks actuels.

RecherchePaper

1 source