Aller au contenu principal
T-FunS3D : segmentation fonctionnelle 3D hiérarchique à vocabulaire ouvert guidée par les tâches
RecherchearXiv cs.RO2h

T-FunS3D : segmentation fonctionnelle 3D hiérarchique à vocabulaire ouvert guidée par les tâches

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche présente sur arXiv (identifiant 2606.05975, juin 2026) T-FunS3D, une méthode de segmentation 3D fonctionnelle à vocabulaire ouvert, pilotée par la tâche. Le système prend en entrée un nuage de points 3D et des images RGB-D posées d'une scène intérieure, à partir desquels il construit un graphe de scène à vocabulaire ouvert en extrayant les instances visuelles et leurs embeddings. Lorsqu'une description de tâche en langage naturel est fournie (par exemple "ouvrir le tiroir"), T-FunS3D interroge ce graphe pour identifier les instances pertinentes, puis localise leurs composants fonctionnels précis (poignée, loquet, bouton) via un modèle vision-langage (VLM). Évalué sur le jeu de données de référence SceneFun3D, le système affiche des performances comparables à l'état de l'art en segmentation fonctionnelle 3D, tout en réduisant le temps d'exécution et la consommation mémoire par rapport aux approches exhaustives.

L'enjeu est structurant pour la perception robotique en manipulation. Les méthodes existantes de segmentation 3D à vocabulaire ouvert s'arrêtent généralement au niveau objet : elles savent qu'une tasse est présente, pas où se trouve l'anse. Les approches de segmentation scénique exhaustive, elles, traitent l'intégralité de la scène indépendamment de la tâche, ce qui les rend prohibitives en temps de calcul et en mémoire pour un déploiement embarqué. T-FunS3D adopte une logique hiérarchique et sélective, seuls les objets pertinents pour la tâche courante étant analysés au niveau partie, un compromis plus réaliste pour une exécution temps réel sur un robot physique. Ce type de perception "actionnnable" est un prérequis non résolu à l'échelle pour les architectures vision-langage-action (VLA) aujourd'hui au coeur de la robotique de manipulation.

La méthode s'inscrit dans un effort plus large autour de la représentation sémantique des scènes pour la robotique, dont SceneFun3D constitue le banc d'essai de référence. La tendance à intégrer des VLMs comme raisonneurs sémantiques dans la boucle de perception, plutôt que comme générateurs d'actions directs, gagne du terrain dans des travaux concurrents tels que RoboPoint ou les approches fondées sur ConceptGraphs. T-FunS3D se différencie par son architecture en graphe de scène et sa focalisation explicite sur les composants fonctionnels plutôt que sur les objets entiers. Il s'agit d'une contribution académique sans annonce de déploiement industriel. Les suites naturelles incluent l'extension à des scènes dynamiques, des objets articulés complexes et l'intégration directe dans des pipelines VLA de bout en bout.

À lire aussi

Graphes de scène 3D fonctionnels, hiérarchiques et holistiques, à vocabulaire ouvert pour espaces intérieurs
1arXiv cs.RO 

Graphes de scène 3D fonctionnels, hiérarchiques et holistiques, à vocabulaire ouvert pour espaces intérieurs

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.15753) une méthode pour construire des graphes de scènes 3D fonctionnels et hiérarchiques dans des espaces intérieurs, à vocabulaire ouvert. Ces graphes représentent l'environnement sous forme de noeuds objets, d'éléments interactifs et d'arêtes de relations fonctionnelles, permettant à un robot de comprendre non seulement ce qui est présent dans une pièce, mais comment les objets peuvent interagir entre eux. La contribution principale est l'extension des benchmarks existants en y intégrant des objets denses posés sur des surfaces planes (tabletop), ainsi que des relations fonctionnelles multi-niveaux explicites. Le pipeline proposé repose sur un ancrage visuel 2D (visual grounding) couplé à une optimisation de graphes 3D, combinant accumulation d'évidence, régularisation par entropie et lissage temporel pour résoudre l'association entre instances et déterminer les connexions fonctionnelles de chaque noeud. Une étape finale de structuration hiérarchique globale permet de récupérer la structure en niveaux du graphe complet. L'intérêt de cette approche pour la manipulation robotique est concret. Les travaux antérieurs sur les graphes de scènes se concentraient sur les meubles de grande taille, laissant de côté la granularité fine nécessaire pour les tâches impliquant des objets de bureau ou de cuisine. Introduire des objets petits, denses et visuellement similaires (tasses, stylos, boîtes) crée trois défis techniques distincts: confusion entre instances lors de la fusion inter-images, incertitude d'attribution sous des points de vue dynamiques, et absence d'ancrage visuel dans le raisonnement relationnel. Le pipeline open-vocabulary présenté aborde ces trois points sans catégories prédéfinies, ce qui représente un avantage pratique pour des déploiements en environnements variés. Les expériences reportées montrent une inférence fiable sur des scènes réelles exigeantes, bien que le résumé soumis ne détaille pas de métriques quantitatives précises, ce qui rend difficile toute comparaison directe avec l'état de l'art. Les graphes de scènes sémantiques pour la robotique sont étudiés depuis une dizaine d'années, mais leur adoption pratique a été freinée par des benchmarks limités aux grandes structures, peu représentatifs des scénarios de manipulation réelle. Ce travail s'inscrit dans une tendance plus large vers la perception embodied à vocabulaire ouvert, en concurrence directe avec les approches basées sur les champs de radiance neuronaux (NeRF, 3DGS) ou la segmentation 3D ouverte comme OpenMask3D et ConceptFusion. Ce type de représentation est fondamental pour les systèmes de planification de tâches et les robots de service opérant en environnement non structuré. Aucune timeline de déploiement industriel n'est mentionnée: il s'agit d'un preprint de recherche académique, pas d'un produit commercialisé ni d'un partenariat industriel annoncé.

RecherchePaper
1 source
FUS3DMaps : cartographie sémantique à vocabulaire ouvert par fusion 3D de couches voxel et instance
2arXiv cs.RO 

FUS3DMaps : cartographie sémantique à vocabulaire ouvert par fusion 3D de couches voxel et instance

Une équipe de recherche a publié le 6 mai 2026 sur arXiv (référence 2605.03669) FUS3DMaps, une méthode de cartographie sémantique 3D à vocabulaire ouvert conçue pour permettre à des robots de localiser spatialement des concepts arbitraires sans ensemble de classes prédéfini. Le système fonctionne en ligne et maintient simultanément deux couches sémantiques dans une même carte de voxels partagée : une couche dense, qui projette directement les embeddings de pixels sur la carte 3D, et une couche instance-level, qui segmente les vues, encode les régions correspondant à des objets distincts, puis les associe en 3D. Les expériences menées sur des benchmarks établis de segmentation sémantique 3D montrent que FUS3DMaps atteint une précision compétitive à l'échelle de bâtiments multi-étages, un niveau de scalabilité rarement démontré pour ce type d'approche sans entraînement supervisé. Le code et les données complémentaires sont annoncés en accès ouvert. Ce qui distingue FUS3DMaps des méthodes existantes est la fusion sémantique inter-couches (cross-layer fusion), qui combine les forces complémentaires des deux représentations : la couche dense couvre l'intégralité du champ visuel sans nécessiter de segmentation préalable, mais souffre d'un manque de précision à l'échelle ; la couche instance-level est précise sur les objets individuels mais dépend de l'association 2D-3D. En fusionnant les embeddings des deux couches au niveau voxel, la méthode améliore la qualité de chacune. Pour garantir la scalabilité, la fusion dense et inter-couches est restreinte à une fenêtre spatiale glissante, évitant l'explosion mémoire dans les grands environnements. Pour les intégrateurs de robotique mobile ou les développeurs de systèmes de navigation en environnement ouvert, c'est une piste concrète vers des robots capables de répondre à des requêtes en langage naturel sur des espaces non balisés. La cartographie sémantique à vocabulaire ouvert est un champ en plein essor depuis l'émergence des vision-language models (VLM) comme CLIP. Les approches actuelles se divisent en deux familles : les méthodes instance-level (LSeg, OpenScene, EmbodiedScan) et les méthodes dense (ConceptFusion, OpenFusion), chacune avec ses compromis entre précision et scalabilité. FUS3DMaps tente de réconcilier les deux dans un pipeline unifié, sans fine-tuning. À noter que l'article est une prépublication arXiv, sans validation par les pairs à ce stade, et que les démonstrations vidéo et le code sont encore annoncés comme "à venir". Aucune entreprise industrielle ou partenaire de déploiement n'est mentionné : il s'agit d'une contribution de recherche académique, pas d'un produit commercialisé.

RechercheActu
1 source
VoxAfford : fusion multi-échelle voxel-token pour la détection d'affordances 3D à vocabulaire ouvert
3arXiv cs.RO 

VoxAfford : fusion multi-échelle voxel-token pour la détection d'affordances 3D à vocabulaire ouvert

Une équipe de chercheurs publie VoxAfford (Voxel-enhanced Affordance Detection), une méthode de détection d'affordance 3D en vocabulaire ouvert, disponible en preprint sur arXiv (identifiant 2605.01365, mai 2025). L'affordance 3D désigne la localisation automatique des zones d'interaction sur un objet - où saisir, pousser, verser - à partir d'une description textuelle libre et non prédéfinie. Sur les benchmarks de référence, VoxAfford affiche une amélioration d'environ 8% en mIoU (mean Intersection over Union) par rapport aux meilleures méthodes existantes. Des expériences sur robot réel valident un transfert zero-shot vers des objets inédits, c'est-à-dire non présents dans les données d'entraînement. Le problème central adressé touche directement la robotique de manipulation : les grands modèles de langage multimodaux (MLLMs) utilisés pour générer des masques de segmentation produisent des tokens sémantiquement riches mais spatialement appauvris, parce que leur génération autorégressive modélise des dépendances séquentielles plutôt que des relations de voisinage géométrique dans l'espace 3D. VoxAfford contourne ce goulot d'étranglement en injectant des caractéristiques géométriques multi-échelles issues d'un encodeur 3D VQVAE (Vector Quantized Variational AutoEncoder) pré-entraîné et figé, directement dans les tokens de sortie après génération. Un mécanisme de cross-attention interroge les motifs géométriques à chaque échelle de voxel en utilisant la sémantique d'affordance comme requête, tandis qu'une porte de compatibilité apprise dose l'injection. Les tokens enrichis sont ensuite agrégés en un prompt d'affordance spatialement cohérent, propagé avec les features par point pour produire le masque final. Les 8% de gain en mIoU sont présentés sans détail sur les conditions exactes de benchmark, un point à nuancer avant toute comparaison directe avec d'autres travaux. La détection d'affordance en vocabulaire ouvert constitue un verrou central pour les robots manipulateurs devant opérer en langage naturel dans des environnements non structurés, problématique partagée par les plateformes humanoïdes (Figure, Unitree, Boston Dynamics) comme par les bras industriels programmés via instruction vocale. Les approches précédentes, notamment celles étendant les MLLMs avec des tokens de sortie spéciaux, butaient précisément sur cette dichotomie sémantique-géométrique que VoxAfford tente de combler. L'architecture s'inscrit dans la tendance des modèles VLA (Vision-Language-Action) qui cherchent à réconcilier compréhension linguistique et précision spatiale - un défi que des acteurs comme Physical Intelligence (pi0), Google DeepMind (GR00T N2) et 1X affrontent également dans leurs pipelines de manipulation. La validation en robot réel avec transfert zero-shot, et non uniquement en simulation, renforce la crédibilité des résultats face au sim-to-real gap fréquemment reproché aux méthodes d'IA incarnée. Aucun acteur français ou européen n'est mentionné dans cette publication ; les suites naturelles incluent l'intégration dans des pipelines de manipulation sur des plateformes comme les bras Franka Robotics ou Universal Robots.

UEImpact indirect à terme : intégration possible sur des plateformes européennes (Franka Robotics DE, Universal Robots DK), mais aucune contribution ou institution FR/UE impliquée dans la publication.

RecherchePaper
1 source
Planification des tâches et des mouvements robotiques par invite hiérarchique à double module LLM
4arXiv cs.RO 

Planification des tâches et des mouvements robotiques par invite hiérarchique à double module LLM

Des chercheurs ont publié le 12 mai 2026 sur arXiv (référence 2605.08330) un framework de planification tâche-et-mouvement pour robots de service, reposant sur deux modules LLM distincts organisés en hiérarchie. Le premier module, dit "agent de haut niveau", interprète des commandes en langage naturel et génère des séquences d'actions via un prompt de style ReAct, en s'appuyant sur des outils de perception et de manipulation (pick, place, release). Le second module, dédié au raisonnement spatial de bas niveau, prend en charge les instructions de placement précis, par exemple "pose la tasse à côté de l'assiette", en calculant les positions 3D à partir de la géométrie des objets et de la configuration de la scène. La détection d'objets et l'estimation de pose sont assurées par YOLOX-GDRNet. Sur 24 scénarios de test couvrant des commandes spatiales simples, des instructions de haut niveau et des requêtes infaisables, le système affiche un taux de succès global de 86 %. Cette architecture en deux étages répond à un problème bien connu en robotique de service : un LLM généraliste gère mal simultanément la logique séquentielle des tâches et le raisonnement géométrique fin. Séparer ces deux fonctions réduit la surface d'erreur et rend le système plus robuste aux ambiguïtés spatiales, un point de friction majeur dans les scénarios d'assistance à domicile ou hospitaliers. Le taux de 86 % est encourageant, mais il convient de nuancer : 24 scénarios constituent une base d'évaluation très réduite, et les conditions de test en laboratoire restent éloignées de la variabilité d'un environnement réel non structuré. Aucun robot physique n'est mentionné, le module d'exécution motrice étant décrit comme un "stub", ce qui signifie que les résultats restent pour l'instant purement simulés ou partiellement maquettés. Ce travail s'inscrit dans le prolongement des approches LLM-to-robot popularisées par SayCan de Google (2022) et les travaux RT-2 et OpenVLA, qui ont démontré qu'un modèle de langage peut servir de planificateur de haut niveau pour un robot. La spécificité ici est le découplage explicite du raisonnement spatial dans un sous-module dédié, plutôt que de tout faire porter au modèle principal, une direction cohérente avec les limites documentées des VLA (Vision-Language-Action models) sur les tâches de placement précis. Aucun partenaire industriel ni calendrier de déploiement n'est communiqué ; l'étape suivante logique serait une validation sur robot réel dans un contexte de service structuré.

RechercheOpinion
1 source