Segmentation de pièces fondée sur l'occupation…

Graphes de scène 3D fonctionnels, hiérarchiques et holistiques, à vocabulaire ouvert pour espaces intérieurs

33

1arXiv cs.RO

Graphes de scène 3D fonctionnels, hiérarchiques et holistiques, à vocabulaire ouvert pour espaces intérieurs

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.15753) une méthode pour construire des graphes de scènes 3D fonctionnels et hiérarchiques dans des espaces intérieurs, à vocabulaire ouvert. Ces graphes représentent l'environnement sous forme de noeuds objets, d'éléments interactifs et d'arêtes de relations fonctionnelles, permettant à un robot de comprendre non seulement ce qui est présent dans une pièce, mais comment les objets peuvent interagir entre eux. La contribution principale est l'extension des benchmarks existants en y intégrant des objets denses posés sur des surfaces planes (tabletop), ainsi que des relations fonctionnelles multi-niveaux explicites. Le pipeline proposé repose sur un ancrage visuel 2D (visual grounding) couplé à une optimisation de graphes 3D, combinant accumulation d'évidence, régularisation par entropie et lissage temporel pour résoudre l'association entre instances et déterminer les connexions fonctionnelles de chaque noeud. Une étape finale de structuration hiérarchique globale permet de récupérer la structure en niveaux du graphe complet. L'intérêt de cette approche pour la manipulation robotique est concret. Les travaux antérieurs sur les graphes de scènes se concentraient sur les meubles de grande taille, laissant de côté la granularité fine nécessaire pour les tâches impliquant des objets de bureau ou de cuisine. Introduire des objets petits, denses et visuellement similaires (tasses, stylos, boîtes) crée trois défis techniques distincts: confusion entre instances lors de la fusion inter-images, incertitude d'attribution sous des points de vue dynamiques, et absence d'ancrage visuel dans le raisonnement relationnel. Le pipeline open-vocabulary présenté aborde ces trois points sans catégories prédéfinies, ce qui représente un avantage pratique pour des déploiements en environnements variés. Les expériences reportées montrent une inférence fiable sur des scènes réelles exigeantes, bien que le résumé soumis ne détaille pas de métriques quantitatives précises, ce qui rend difficile toute comparaison directe avec l'état de l'art. Les graphes de scènes sémantiques pour la robotique sont étudiés depuis une dizaine d'années, mais leur adoption pratique a été freinée par des benchmarks limités aux grandes structures, peu représentatifs des scénarios de manipulation réelle. Ce travail s'inscrit dans une tendance plus large vers la perception embodied à vocabulaire ouvert, en concurrence directe avec les approches basées sur les champs de radiance neuronaux (NeRF, 3DGS) ou la segmentation 3D ouverte comme OpenMask3D et ConceptFusion. Ce type de représentation est fondamental pour les systèmes de planification de tâches et les robots de service opérant en environnement non structuré. Aucune timeline de déploiement industriel n'est mentionnée: il s'agit d'un preprint de recherche académique, pas d'un produit commercialisé ni d'un partenariat industriel annoncé.

RecherchePaper

1 source

T-FunS3D : segmentation fonctionnelle 3D hiérarchique à vocabulaire ouvert guidée par les tâches

36

2arXiv cs.RO

T-FunS3D : segmentation fonctionnelle 3D hiérarchique à vocabulaire ouvert guidée par les tâches

Une équipe de recherche présente sur arXiv (identifiant 2606.05975, juin 2026) T-FunS3D, une méthode de segmentation 3D fonctionnelle à vocabulaire ouvert, pilotée par la tâche. Le système prend en entrée un nuage de points 3D et des images RGB-D posées d'une scène intérieure, à partir desquels il construit un graphe de scène à vocabulaire ouvert en extrayant les instances visuelles et leurs embeddings. Lorsqu'une description de tâche en langage naturel est fournie (par exemple "ouvrir le tiroir"), T-FunS3D interroge ce graphe pour identifier les instances pertinentes, puis localise leurs composants fonctionnels précis (poignée, loquet, bouton) via un modèle vision-langage (VLM). Évalué sur le jeu de données de référence SceneFun3D, le système affiche des performances comparables à l'état de l'art en segmentation fonctionnelle 3D, tout en réduisant le temps d'exécution et la consommation mémoire par rapport aux approches exhaustives. L'enjeu est structurant pour la perception robotique en manipulation. Les méthodes existantes de segmentation 3D à vocabulaire ouvert s'arrêtent généralement au niveau objet : elles savent qu'une tasse est présente, pas où se trouve l'anse. Les approches de segmentation scénique exhaustive, elles, traitent l'intégralité de la scène indépendamment de la tâche, ce qui les rend prohibitives en temps de calcul et en mémoire pour un déploiement embarqué. T-FunS3D adopte une logique hiérarchique et sélective, seuls les objets pertinents pour la tâche courante étant analysés au niveau partie, un compromis plus réaliste pour une exécution temps réel sur un robot physique. Ce type de perception "actionnnable" est un prérequis non résolu à l'échelle pour les architectures vision-langage-action (VLA) aujourd'hui au coeur de la robotique de manipulation. La méthode s'inscrit dans un effort plus large autour de la représentation sémantique des scènes pour la robotique, dont SceneFun3D constitue le banc d'essai de référence. La tendance à intégrer des VLMs comme raisonneurs sémantiques dans la boucle de perception, plutôt que comme générateurs d'actions directs, gagne du terrain dans des travaux concurrents tels que RoboPoint ou les approches fondées sur ConceptGraphs. T-FunS3D se différencie par son architecture en graphe de scène et sa focalisation explicite sur les composants fonctionnels plutôt que sur les objets entiers. Il s'agit d'une contribution académique sans annonce de déploiement industriel. Les suites naturelles incluent l'extension à des scènes dynamiques, des objets articulés complexes et l'intégration directe dans des pipelines VLA de bout en bout.

RecherchePaper

1 source

ObsGraph : représentation hiérarchique des observations pour le raisonnement incarné et l'exploration

33

3arXiv cs.RO

ObsGraph : représentation hiérarchique des observations pour le raisonnement incarné et l'exploration

Des chercheurs ont soumis le 24 juin 2026 sur arXiv (identifiant 2606.24068) un système baptisé ObsGraph, une représentation hiérarchique de scène centrée sur l'observation, destinée aux agents robotiques déployés dans des environnements complexes et inconnus. L'architecture repose sur trois couches emboîtées : les pièces (rooms), qui fournissent des ancres sémantiques grossières à l'échelle d'une zone ; les vues (views), qui préservent la co-visibilité contextuelle des objets dans un même champ ; et les objets (objects), qui stockent les détails fins nécessaires à l'exécution des tâches. Sur cette représentation, ObsGraph exécute une récupération d'information hiérarchique contrainte par un budget computationnel, du plus grossier au plus précis, puis utilise les résultats obtenus pour structurer dynamiquement la stratégie d'exploration : activation de l'exploration au niveau pièce, raffinement de vue, ou exploration de frontière (frontier exploration). La contribution centrale est le couplage serré entre représentation, récupération et exploration adaptative, là où la majorité des approches existantes traitent ces trois composantes de manière découplée. En pratique, ce que l'agent a déjà observé détermine directement où il cherche ensuite, réduisant l'exploration redondante. Les expériences sur des benchmarks d'embodied reasoning et d'exploration montrent des améliorations en taux de réussite et en efficacité, mais les auteurs ne publient pas de chiffres précis dans le résumé de la pré-publication, ce qui limite l'évaluation indépendante à ce stade. Pour un intégrateur ou un COO industriel, ce type de système pointe vers des agents capables de naviguer dans un entrepôt ou un atelier non cartographié avec un budget d'exploration réduit, un point critique pour les déploiements en environnements non structurés. Ce travail s'inscrit dans la dynamique plus large de l'embodied AI, où l'enjeu est de faire raisonner des agents sur des scènes inédites sans carte préexistante. Les approches concurrentes incluent les semantic maps, les topological graphs, et les modèles VLA (Vision-Language-Action) qui intègrent raisonnement et contrôle moteur dans un même réseau de neurones. ObsGraph se positionne comme une couche mémoire et représentation complémentaire à ces modèles d'action, et non comme un système de contrôle moteur à part entière. Il s'agit pour l'instant d'un preprint arXiv sans déploiement réel ni partenariat industriel annoncé ; la prochaine étape logique serait une intégration avec des frameworks robotiques comme ROS 2 ou des systèmes VLA déjà validés en conditions réelles, afin de mesurer le gain effectif au-delà des benchmarks académiques.

RecherchePaper

1 source

Robotique physique et navigation sémantique par graphe de scène 3D hiérarchique et planification bayésienne

36

4arXiv cs.RO

Robotique physique et navigation sémantique par graphe de scène 3D hiérarchique et planification bayésienne

Une équipe de recherche propose un nouveau système de navigation sémantique en zero-shot pour agents robotiques évoluant dans des environnements inconnus, capable de combiner compréhension du langage naturel et planification à long terme. Le cœur de la méthode est un graphe de scène 3D hiérarchique (Hierarchical 3D Scene Graph, HSG), construit et mis à jour en continu pendant l'exploration, qui organise l'environnement en plusieurs niveaux de granularité : objets, zones et régions. Ce graphe sert de représentation compacte de l'état global, sur laquelle s'appuie un module de planification fondé sur des croyances (belief-based planning) qui combine les a priori sémantiques issus de modèles de fondation avec les preuves accumulées lors de l'exploration. Le système effectue des simulations à horizon fini directement sur le HSG pour estimer le gain attendu de chaque macro-action candidate avant de décider où aller. Testée sur plusieurs tâches et jeux de données en simulation haute fidélité, l'approche améliore en moyenne le taux de réussite (SR) de 9,4% et le score SPL (réussite pondérée par la longueur du chemin) de 5,0% par rapport aux meilleures méthodes existantes, avec des gains plus marqués sur les trajectoires longue distance. L'intérêt de ce travail est de s'attaquer à un défaut connu des agents de navigation actuels : lorsqu'ils reposent uniquement sur des modèles de fondation sans mémoire structurée du monde, ils ont tendance à adopter des stratégies gloutonnes fondées sur l'observation locale, ce qui produit une exploration inefficace et des comportements myopes, en particulier sur de longues distances. En donnant à l'agent une carte sémantique persistante et hiérarchisée plutôt qu'un simple flux d'observations, la méthode réduit les retours en arrière redondants et permet des décisions cohérentes à l'échelle globale. C'est un signal utile pour la robotique mobile autonome (entrepôts, robots de service) où la navigation longue portée dans des lieux jamais vus reste un point faible des architectures purement réactives. Ce travail s'inscrit dans la lignée des recherches récentes qui exploitent les modèles de fondation pour doter les robots de connaissances sémantiques riches, mais cherche à corriger leur principale limite, l'absence de représentation globale structurée. Contrairement aux approches concurrentes qui traitent la scène comme une simple carte topologique plate, le HSG introduite ici multiplie les niveaux d'abstraction. Les résultats, uniquement obtenus en simulation, ouvrent la voie à des tests en conditions réelles, où le passage du simulateur au monde physique reste l'obstacle habituel de ce type de recherche.

RecherchePaper

1 source

Segmentation de pièces fondée sur l'occupation pour les graphes de scène 3D hiérarchiques

À lire aussi

Graphes de scène 3D fonctionnels, hiérarchiques et holistiques, à vocabulaire ouvert pour espaces intérieurs

T-FunS3D : segmentation fonctionnelle 3D hiérarchique à vocabulaire ouvert guidée par les tâches

ObsGraph : représentation hiérarchique des observations pour le raisonnement incarné et l'exploration

Robotique physique et navigation sémantique par graphe de scène 3D hiérarchique et planification bayésienne