Aller au contenu principal
Segmentation de pièces fondée sur l'occupation pour les graphes de scène 3D hiérarchiques
RecherchearXiv cs.RO2h

Segmentation de pièces fondée sur l'occupation pour les graphes de scène 3D hiérarchiques

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche a publié sur arXiv (réf. 2606.13727, juin 2026) un pipeline baptisé OccuSG, conçu pour construire des graphes de scènes 3D hiérarchiques (3DSG) pour robots d'intérieur en ancrant la couche « pièce » à des régions de libre espace extraites d'une décomposition d'occupancy. Contrairement aux approches existantes qui s'appuient sur des clusters de lieux, des plans de murs ou des sorties de segmentation directe (sans critère géométrique commun permettant de comparer leurs résultats), OccuSG attribue à chaque nœud-pièce un contour polygonal explicite. Le pipeline a été évalué sur 12 scènes du jeu de données Matterport3D, en faisant correspondre les polygones prédits aux instances de pièces annotées, et comparé à Hydra, méthode de référence fondée sur la connectivité par lieux.

Les graphes de scènes 3D hiérarchiques constituent une couche d'abstraction critique pour les robots naviguant en environnement résidentiel ou tertiaire : ils relient la perception au niveau objet (détection, segmentation) au raisonnement à l'échelle d'une pièce (navigation sémantique, planification de tâches). OccuSG affiche un rappel nettement supérieur à Hydra (davantage d'instances de pièces correctement retrouvées), mais au prix d'une précision plus faible, se traduisant en pratique par des pièces fantômes ou mal délimitées. Pour un intégrateur robotique ou un développeur AMR, le compromis est net : meilleure couverture sémantique, fidélité géométrique moindre. Les deux méthodes échouent par ailleurs à restituer des frontières de pièces précises au niveau des murs, un problème ouvert que les auteurs reconnaissent explicitement.

La recherche sur les 3DSG pour robots d'intérieur est dominée depuis plusieurs années par Kimera et Hydra, développés au MIT dans le groupe de Luca Carlone, références académiques incontournables du domaine. OccuSG adopte une voie différente en privilégiant la géométrie d'occupancy plutôt que la topologie de connectivité pour représenter la pièce. Il s'agit d'un preprint arXiv et non d'un produit déployé : les expériences sont limitées à Matterport3D, un corpus de scans intérieurs statiques qui ne reflète pas les conditions dynamiques d'un robot réel. Le code est publié sur GitHub (crcz25/OccuSG), facilitant la reproduction indépendante. Les prolongements naturels incluent des évaluations sur flux temps réel et l'intégration dans des pipelines robotiques complets comme Hydra ou Kimera.

Dans nos dossiers

À lire aussi

Graphes de scène 3D fonctionnels, hiérarchiques et holistiques, à vocabulaire ouvert pour espaces intérieurs
1arXiv cs.RO 

Graphes de scène 3D fonctionnels, hiérarchiques et holistiques, à vocabulaire ouvert pour espaces intérieurs

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.15753) une méthode pour construire des graphes de scènes 3D fonctionnels et hiérarchiques dans des espaces intérieurs, à vocabulaire ouvert. Ces graphes représentent l'environnement sous forme de noeuds objets, d'éléments interactifs et d'arêtes de relations fonctionnelles, permettant à un robot de comprendre non seulement ce qui est présent dans une pièce, mais comment les objets peuvent interagir entre eux. La contribution principale est l'extension des benchmarks existants en y intégrant des objets denses posés sur des surfaces planes (tabletop), ainsi que des relations fonctionnelles multi-niveaux explicites. Le pipeline proposé repose sur un ancrage visuel 2D (visual grounding) couplé à une optimisation de graphes 3D, combinant accumulation d'évidence, régularisation par entropie et lissage temporel pour résoudre l'association entre instances et déterminer les connexions fonctionnelles de chaque noeud. Une étape finale de structuration hiérarchique globale permet de récupérer la structure en niveaux du graphe complet. L'intérêt de cette approche pour la manipulation robotique est concret. Les travaux antérieurs sur les graphes de scènes se concentraient sur les meubles de grande taille, laissant de côté la granularité fine nécessaire pour les tâches impliquant des objets de bureau ou de cuisine. Introduire des objets petits, denses et visuellement similaires (tasses, stylos, boîtes) crée trois défis techniques distincts: confusion entre instances lors de la fusion inter-images, incertitude d'attribution sous des points de vue dynamiques, et absence d'ancrage visuel dans le raisonnement relationnel. Le pipeline open-vocabulary présenté aborde ces trois points sans catégories prédéfinies, ce qui représente un avantage pratique pour des déploiements en environnements variés. Les expériences reportées montrent une inférence fiable sur des scènes réelles exigeantes, bien que le résumé soumis ne détaille pas de métriques quantitatives précises, ce qui rend difficile toute comparaison directe avec l'état de l'art. Les graphes de scènes sémantiques pour la robotique sont étudiés depuis une dizaine d'années, mais leur adoption pratique a été freinée par des benchmarks limités aux grandes structures, peu représentatifs des scénarios de manipulation réelle. Ce travail s'inscrit dans une tendance plus large vers la perception embodied à vocabulaire ouvert, en concurrence directe avec les approches basées sur les champs de radiance neuronaux (NeRF, 3DGS) ou la segmentation 3D ouverte comme OpenMask3D et ConceptFusion. Ce type de représentation est fondamental pour les systèmes de planification de tâches et les robots de service opérant en environnement non structuré. Aucune timeline de déploiement industriel n'est mentionnée: il s'agit d'un preprint de recherche académique, pas d'un produit commercialisé ni d'un partenariat industriel annoncé.

RecherchePaper
1 source
T-FunS3D : segmentation fonctionnelle 3D hiérarchique à vocabulaire ouvert guidée par les tâches
2arXiv cs.RO 

T-FunS3D : segmentation fonctionnelle 3D hiérarchique à vocabulaire ouvert guidée par les tâches

Une équipe de recherche présente sur arXiv (identifiant 2606.05975, juin 2026) T-FunS3D, une méthode de segmentation 3D fonctionnelle à vocabulaire ouvert, pilotée par la tâche. Le système prend en entrée un nuage de points 3D et des images RGB-D posées d'une scène intérieure, à partir desquels il construit un graphe de scène à vocabulaire ouvert en extrayant les instances visuelles et leurs embeddings. Lorsqu'une description de tâche en langage naturel est fournie (par exemple "ouvrir le tiroir"), T-FunS3D interroge ce graphe pour identifier les instances pertinentes, puis localise leurs composants fonctionnels précis (poignée, loquet, bouton) via un modèle vision-langage (VLM). Évalué sur le jeu de données de référence SceneFun3D, le système affiche des performances comparables à l'état de l'art en segmentation fonctionnelle 3D, tout en réduisant le temps d'exécution et la consommation mémoire par rapport aux approches exhaustives. L'enjeu est structurant pour la perception robotique en manipulation. Les méthodes existantes de segmentation 3D à vocabulaire ouvert s'arrêtent généralement au niveau objet : elles savent qu'une tasse est présente, pas où se trouve l'anse. Les approches de segmentation scénique exhaustive, elles, traitent l'intégralité de la scène indépendamment de la tâche, ce qui les rend prohibitives en temps de calcul et en mémoire pour un déploiement embarqué. T-FunS3D adopte une logique hiérarchique et sélective, seuls les objets pertinents pour la tâche courante étant analysés au niveau partie, un compromis plus réaliste pour une exécution temps réel sur un robot physique. Ce type de perception "actionnnable" est un prérequis non résolu à l'échelle pour les architectures vision-langage-action (VLA) aujourd'hui au coeur de la robotique de manipulation. La méthode s'inscrit dans un effort plus large autour de la représentation sémantique des scènes pour la robotique, dont SceneFun3D constitue le banc d'essai de référence. La tendance à intégrer des VLMs comme raisonneurs sémantiques dans la boucle de perception, plutôt que comme générateurs d'actions directs, gagne du terrain dans des travaux concurrents tels que RoboPoint ou les approches fondées sur ConceptGraphs. T-FunS3D se différencie par son architecture en graphe de scène et sa focalisation explicite sur les composants fonctionnels plutôt que sur les objets entiers. Il s'agit d'une contribution académique sans annonce de déploiement industriel. Les suites naturelles incluent l'extension à des scènes dynamiques, des objets articulés complexes et l'intégration directe dans des pipelines VLA de bout en bout.

RecherchePaper
1 source
PhysGraph : un graphe de scène 3D intégrant la physique pour la perception et le raisonnement
3arXiv cs.RO 

PhysGraph : un graphe de scène 3D intégrant la physique pour la perception et le raisonnement

Une équipe de recherche a publié PhysGraph en juin 2026 sur arXiv (référence 2606.08655), un cadre algorithmique qui construit des graphes de scène 3D physiquement ancrés à partir d'images RGB-D, caméras couleur couplées à un capteur de profondeur. Là où la plupart des systèmes de perception 3D se limitent à identifier sémantiquement les objets (reconnaissance, segmentation, récupération), PhysGraph modélise simultanément leurs propriétés physiques et cinématiques : masse, matériaux, et articulations (degrés de liberté, points de pivot). Le pipeline décompose chaque objet en parties fonctionnelles distinctes, associe les instances d'objets entre plusieurs prises de vue, puis infère via un raisonnement visuel les propriétés mécaniques de chaque composant. Évalué sur des jeux de données synthétiques et réels, le système revendique des résultats state-of-the-art en segmentation sémantique, en estimation de masse multi-objet, et en prédiction d'articulations. L'enjeu dépasse la taxonomie académique. Pour la manipulation robotique en environnement industriel ou domestique, savoir qu'un objet est « un tiroir » n'est pas suffisant, le robot doit connaître son axe de rotation, la force nécessaire à son ouverture, et la localisation des poignées préhensibles. PhysGraph cible précisément ce gap en produisant des représentations exploitables pour la planification de tâches et la prédiction d'affordances sous contraintes physiques. L'application de transfert réel-vers-simulation (real-to-sim) est stratégiquement critique : convertir automatiquement une scène réelle en environnement simulé fidèle réduit le coût de génération de données d'entraînement pour les robots apprenants. Il convient cependant de nuancer : l'abstract ne précise ni les latences de traitement ni les conditions opérationnelles testées, ce qui rend difficile l'évaluation de la viabilité temps-réel. Ce travail s'inscrit dans un espace de recherche dense autour des graphes de scène 3D ouverts, ConceptGraphs, OpenMask3D, et les travaux sur la manipulation d'objets articulés alimentés par les datasets PartNet et SAPIEN font figure de références directes. La prédiction d'articulations reste l'un des problèmes les plus ouverts de la robotique incarnée, aux côtés du fossé sim-to-real. Aucun partenaire industriel ni déploiement pilote n'est mentionné : PhysGraph en est au stade de contribution de recherche, sans timeline de productisation annoncée. Les prochaines étapes naturelles seraient la validation sur des manipulateurs réels en boucle fermée et la publication du code.

RecherchePaper
1 source
Graphes de scènes spatio-temporels prédictifs pour scènes semi-statiques
4arXiv cs.RO 

Graphes de scènes spatio-temporels prédictifs pour scènes semi-statiques

Une équipe de chercheurs publie dans un preprint arXiv (réf. 2605.00121, mai 2025) une méthode de représentation spatio-temporelle-sémantique permettant à un robot de prédire l'état futur d'un environnement qui change de manière structurée entre les observations. La méthode repose sur deux composants : un filtre bayésien nommé Perpetua\, chargé d'inférer les états successifs de l'environnement, et une structure de graphe de scène 3D baptisée PredictiveGraphs, dans laquelle les nœuds représentent des objets et les arêtes encodent des relations spatio-sémantiques via des instances de Perpetua\. L'exemple illustratif donné est celui d'une tasse se déplaçant cycliquement entre placard, plan de travail et évier selon une routine quotidienne. La validation expérimentale couvre simulations et tests en environnement réel, où un espace domestique a subi des changements semi-statiques à raison d'une perturbation toutes les deux heures sur une période de trois semaines. L'enjeu opérationnel est significatif pour les robots déployés dans des environnements non contrôlés comme les entrepôts, les hôpitaux ou les domiciles. La grande majorité des représentations spatiales actuelles, des NeRF sémantiques aux graphes de scène 3D comme Hydra ou SceneGraphFusion, sont statiques ou réactives : elles gèrent les changements détectés en direct mais ne prévoient pas les états futurs. PredictiveGraphs s'attaque au "semi-static gap" : l'objet n'est pas présent au moment de l'observation, mais le robot doit pouvoir le localiser pour une tâche ultérieure. Dans les conditions de test, la méthode surpasse les approches de référence y compris face à des shifts de distribution, autrement dit lorsque les habitudes d'utilisation des objets dévient du schéma appris. Cette robustesse est une propriété critique pour des déploiements industriels où les routines humaines évoluent dans le temps. Les graphes de scène 3D pour la robotique ont connu un essor marqué depuis les travaux fondateurs de Rosinol et al. au MIT SPARK Lab en 2020 et le système open-source Hydra. Le raisonnement temporel sur ces structures reste néanmoins peu exploré : quelques travaux récents ont esquissé la piste via du SLAM probabiliste ou des représentations dynamiques partielles, sans modélisation explicite des cycles comportementaux récurrents. PredictiveGraphs occupe ce créneau. Ce preprint ne mentionne ni partenariat industriel ni calendrier de déploiement, et les expériences restent à l'échelle d'un appartement. La suite logique impliquerait une validation en environnement plus large, entrepôt ou établissement de soin, territoire où des acteurs européens comme Enchanted Tools avec son robot Mirokaï, ou des intégrateurs AMR opérant en espace contraint, commencent à chercher exactement ce type de raisonnement prédictif sur la disposition des objets.

UEImpact indirect : des robots opérant en espaces semi-contrôlés, comme le Mirokaï d'Enchanted Tools (France) ou les AMR européens en entrepôt, sont précisément les cibles applicatives identifiées, mais aucun partenariat ni transfert technologique n'est engagé à ce stade.

RecherchePaper
1 source