FUS3DMaps : cartographie sémantique à vocabulaire ouver…

VoxAfford : fusion multi-échelle voxel-token pour la détection d'affordances 3D à vocabulaire ouvert

46

1arXiv cs.RO

VoxAfford : fusion multi-échelle voxel-token pour la détection d'affordances 3D à vocabulaire ouvert

Une équipe de chercheurs publie VoxAfford (Voxel-enhanced Affordance Detection), une méthode de détection d'affordance 3D en vocabulaire ouvert, disponible en preprint sur arXiv (identifiant 2605.01365, mai 2025). L'affordance 3D désigne la localisation automatique des zones d'interaction sur un objet - où saisir, pousser, verser - à partir d'une description textuelle libre et non prédéfinie. Sur les benchmarks de référence, VoxAfford affiche une amélioration d'environ 8% en mIoU (mean Intersection over Union) par rapport aux meilleures méthodes existantes. Des expériences sur robot réel valident un transfert zero-shot vers des objets inédits, c'est-à-dire non présents dans les données d'entraînement. Le problème central adressé touche directement la robotique de manipulation : les grands modèles de langage multimodaux (MLLMs) utilisés pour générer des masques de segmentation produisent des tokens sémantiquement riches mais spatialement appauvris, parce que leur génération autorégressive modélise des dépendances séquentielles plutôt que des relations de voisinage géométrique dans l'espace 3D. VoxAfford contourne ce goulot d'étranglement en injectant des caractéristiques géométriques multi-échelles issues d'un encodeur 3D VQVAE (Vector Quantized Variational AutoEncoder) pré-entraîné et figé, directement dans les tokens de sortie après génération. Un mécanisme de cross-attention interroge les motifs géométriques à chaque échelle de voxel en utilisant la sémantique d'affordance comme requête, tandis qu'une porte de compatibilité apprise dose l'injection. Les tokens enrichis sont ensuite agrégés en un prompt d'affordance spatialement cohérent, propagé avec les features par point pour produire le masque final. Les 8% de gain en mIoU sont présentés sans détail sur les conditions exactes de benchmark, un point à nuancer avant toute comparaison directe avec d'autres travaux. La détection d'affordance en vocabulaire ouvert constitue un verrou central pour les robots manipulateurs devant opérer en langage naturel dans des environnements non structurés, problématique partagée par les plateformes humanoïdes (Figure, Unitree, Boston Dynamics) comme par les bras industriels programmés via instruction vocale. Les approches précédentes, notamment celles étendant les MLLMs avec des tokens de sortie spéciaux, butaient précisément sur cette dichotomie sémantique-géométrique que VoxAfford tente de combler. L'architecture s'inscrit dans la tendance des modèles VLA (Vision-Language-Action) qui cherchent à réconcilier compréhension linguistique et précision spatiale - un défi que des acteurs comme Physical Intelligence (pi0), Google DeepMind (GR00T N2) et 1X affrontent également dans leurs pipelines de manipulation. La validation en robot réel avec transfert zero-shot, et non uniquement en simulation, renforce la crédibilité des résultats face au sim-to-real gap fréquemment reproché aux méthodes d'IA incarnée. Aucun acteur français ou européen n'est mentionné dans cette publication ; les suites naturelles incluent l'intégration dans des pipelines de manipulation sur des plateformes comme les bras Franka Robotics ou Universal Robots.

UEImpact indirect à terme : intégration possible sur des plateformes européennes (Franka Robotics DE, Universal Robots DK), mais aucune contribution ou institution FR/UE impliquée dans la publication.

RecherchePaper

1 source

FreeOcc : prédiction d'occupation en vocabulaire ouvert sans entraînement pour l'IA incarnée

44

2arXiv cs.RO

FreeOcc : prédiction d'occupation en vocabulaire ouvert sans entraînement pour l'IA incarnée

Une équipe de chercheurs a publié début 2026 FreeOcc (arXiv:2604.28115), un framework de prédiction d'occupance 3D à vocabulaire ouvert fonctionnant sans aucune phase d'entraînement. Le système traite des séquences d'images monoculaires ou RGB-D et produit une carte voxelisée dense sans annotations 3D, sans poses caméra de référence et sans supervision au niveau du voxel. Son pipeline en quatre étapes enchaîne un backbone SLAM pour l'estimation des poses, une représentation 3D par Gaussian splatting géométriquement cohérent, l'association de sémantiques à vocabulaire ouvert via des modèles vision-langage (VLM) off-the-shelf, puis une projection probabiliste gaussiennes-vers-voxels. Sur le benchmark EmbodiedOcc-ScanNet, FreeOcc dépasse de plus du double les scores IoU et mIoU des meilleures méthodes auto-supervisées existantes, et transfère en zéro-shot vers des environnements inconnus sur le nouveau benchmark ReplicaOcc publié par les mêmes auteurs, surpassant à la fois les baselines supervisées et auto-supervisées. La prédiction d'occupance sémantique 3D est un prérequis fondamental pour la navigation, la manipulation et la planification dans les systèmes robotiques incarnés. La principale friction jusqu'ici était le coût prohibitif des annotations 3D : des jeux de données comme ScanNet exigent des dizaines de milliers de labels voxel par scène, rendant la généralisation hors domaine structurellement difficile. En s'appuyant intégralement sur des VLMs pré-entraînés (de type CLIP) pour la sémantique et sur le SLAM pour la géométrie, FreeOcc supprime ce goulot d'étranglement et ouvre la voie à des systèmes de perception adaptables sans pipeline de labeling continu. Le transfert zéro-shot est particulièrement stratégique pour les intégrateurs : un robot déployé dans un nouvel environnement n'a besoin ni de cycle d'annotation ni de fine-tuning. Les métriques restent néanmoins mesurées en conditions benchmark contrôlées, sans validation terrain annoncée à ce stade. FreeOcc s'inscrit dans la convergence entre Gaussian splatting, popularisé par 3DGS en 2023, et les grands modèles vision-langage pour produire des cartes sémantiques 3D sans supervision dédiée. Les méthodes supervisées concurrentes, parmi lesquelles OccNet, SurroundOcc et MonoScene, nécessitent des milliers d'heures d'annotation et généralisent mal hors de leur domaine d'entraînement. Il s'agit ici d'un preprint de recherche sans partenariat industriel déclaré ni timeline produit ; la prochaine étape naturelle serait une validation sur des plateformes mobiles réelles (AMR, bras manipulateurs) dans des conditions d'éclairage et de dynamisme non contrôlées.

RecherchePaper

1 source

GIST : extraction de connaissances multimodales et ancrage spatial par topologie sémantique intelligente

39

3arXiv cs.RO

GIST : extraction de connaissances multimodales et ancrage spatial par topologie sémantique intelligente

Des chercheurs ont publié GIST (Grounded Intelligent Semantic Topology), un pipeline de traitement multimodal capable de transformer un nuage de points 3D capturé avec un équipement grand public en une carte de navigation sémantiquement annotée. Le système construit d'abord une carte d'occupation 2D, en extrait la topologie spatiale, puis y superpose une couche sémantique légère par sélection intelligente de keyframes. Quatre modules sont démontrés en aval : un moteur de recherche sémantique capable d'inférer des alternatives catégorielles quand la correspondance exacte échoue, un localisateur one-shot atteignant 1,04 mètre d'erreur de translation moyenne (top-5), un classificateur de zones segmentant le plan de sol en régions sémantiques de haut niveau, et un générateur d'instructions de navigation en langage naturel ancré visuellement dans des repères contextuels. Une évaluation in situ sur cinq participants affiche un taux de succès de navigation de 80 % en s'appuyant uniquement sur des instructions verbales. L'intérêt pour les intégrateurs industriels réside dans l'approche bas coût : GIST ne requiert pas de LiDAR haute précision, mais exploite un nuage de points mobile grand public, ce qui abaisse significativement le seuil d'entrée pour des déploiements en entrepôt, hôpital ou grande surface. La robustesse à la distribution longue des sémantiques visuelles, problème classique dans les environnements retail denses où les rayonnages changent fréquemment, est explicitement adressée, là où les VLMs (Vision-Language Models) courants échouent sur le grounding spatial en environnement encombré. Cela dit, l'évaluation reste exploratoire (N=5), et les résultats ne constituent pas une validation à l'échelle industrielle. Le papier s'inscrit dans un courant de recherche actif autour de la navigation sémantique pour l'IA incarnée, en concurrence directe avec des approches comme les semantic maps dérivées de NeRF ou les pipelines SLAM enrichis par LLM. Côté Europe, des acteurs comme Enchanted Tools (robots hospitaliers) ou Exotec (systèmes AMR pour entrepôts) pourraient trouver dans ce type de représentation topologique une brique utile pour la localisation fine et la génération d'instructions opérateur. L'article est disponible en preprint sur arXiv (2604.15495) et n'a pas encore été soumis à évaluation par les pairs au moment de sa publication.

UEDes acteurs français comme Enchanted Tools (robots hospitaliers) et Exotec (AMR entrepôts) pourraient exploiter ce type de cartographie sémantique bas coût pour améliorer la localisation fine et la génération d'instructions opérateur, sans investissement LiDAR haute précision.

RecherchePaper

1 source

Localisation de robots par correspondance hiérarchique de graphes de scène avec apprentissage automatique et cartes préalables

42

4arXiv cs.RO

Localisation de robots par correspondance hiérarchique de graphes de scène avec apprentissage automatique et cartes préalables

Une équipe de recherche a publié fin avril 2026 sur arXiv (réf. 2604.27821) un pipeline différentiable bout-en-bout pour la localisation de robots en environnement intérieur, sans recours à une correction manuelle de dérive SLAM. La méthode repose sur la mise en correspondance de deux représentations complémentaires : un graphe de scène construit en temps réel à partir des capteurs du robot (LiDAR), et un graphe dérivé hors-ligne d'un BIM (Building Information Model), la maquette numérique architecturale du bâtiment. L'algorithme exploite explicitement la hiérarchie sémantique des deux graphes, en faisant correspondre simultanément des nœuds de haut niveau (pièces, zones) et de bas niveau (surfaces murales). Entraîné exclusivement sur des plans d'étage synthétiques, le modèle dépasse la méthode combinatoire de référence en score F1 sur des environnements LiDAR réels, tout en s'exécutant environ dix fois plus rapidement. Ce résultat est significatif pour les intégrateurs de robots mobiles autonomes (AMR) déployés en environnements industriels ou tertiaires équipés de BIM. Le problème de la dérive SLAM à longue durée d'opération reste un frein opérationnel réel, et les approches combinatoires actuelles deviennent prohibitives dès que le graphe dépasse quelques centaines de nœuds. Le fait que la généralisation zéro-shot fonctionne, c'est-à-dire que le modèle n'a jamais vu de données LiDAR réelles à l'entraînement, suggère que la représentation hiérarchique capture des invariants structurels suffisamment robustes. C'est une hypothèse forte, et les auteurs la valident sur des environnements réels, ce qui distingue ce travail de nombreux papiers SLAM qui s'arrêtent à la simulation. Le matching de graphes de scène pour la localisation robotique est un champ en pleine consolidation depuis deux à trois ans, porté notamment par des travaux issus de MIT, ETH Zurich et CMU sur la représentation spatiale sémantique. L'intégration des BIM comme prior de localisation est particulièrement pertinente dans le contexte industriel européen, où les bâtiments neufs sont systématiquement modélisés. Aucun déploiement commercial n'est annoncé, il s'agit d'un article de recherche fondamentale. Les suites naturelles incluent l'extension aux environnements dynamiques (objets mobiles non présents dans le BIM) et l'intégration dans des stacks SLAM open-source comme Kimera ou Hydra, qui structurent déjà leurs cartes sous forme de graphes hiérarchiques.

UELa généralisation zéro-shot sur des maquettes BIM est particulièrement pertinente pour le marché industriel européen où les bâtiments neufs sont systématiquement modélisés, offrant aux intégrateurs AMR européens une piste technique concrète pour éliminer la dérive SLAM en opération longue durée.

RecherchePaper

1 source

FUS3DMaps : cartographie sémantique à vocabulaire ouvert par fusion 3D de couches voxel et instance

À lire aussi

VoxAfford : fusion multi-échelle voxel-token pour la détection d'affordances 3D à vocabulaire ouvert

FreeOcc : prédiction d'occupation en vocabulaire ouvert sans entraînement pour l'IA incarnée

GIST : extraction de connaissances multimodales et ancrage spatial par topologie sémantique intelligente

Localisation de robots par correspondance hiérarchique de graphes de scène avec apprentissage automatique et cartes préalables