Aller au contenu principal
VoxAfford : fusion multi-échelle voxel-token pour la détection d'affordances 3D à vocabulaire ouvert
RecherchearXiv cs.RO7sem

VoxAfford : fusion multi-échelle voxel-token pour la détection d'affordances 3D à vocabulaire ouvert

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie VoxAfford (Voxel-enhanced Affordance Detection), une méthode de détection d'affordance 3D en vocabulaire ouvert, disponible en preprint sur arXiv (identifiant 2605.01365, mai 2025). L'affordance 3D désigne la localisation automatique des zones d'interaction sur un objet - où saisir, pousser, verser - à partir d'une description textuelle libre et non prédéfinie. Sur les benchmarks de référence, VoxAfford affiche une amélioration d'environ 8% en mIoU (mean Intersection over Union) par rapport aux meilleures méthodes existantes. Des expériences sur robot réel valident un transfert zero-shot vers des objets inédits, c'est-à-dire non présents dans les données d'entraînement.

Le problème central adressé touche directement la robotique de manipulation : les grands modèles de langage multimodaux (MLLMs) utilisés pour générer des masques de segmentation produisent des tokens sémantiquement riches mais spatialement appauvris, parce que leur génération autorégressive modélise des dépendances séquentielles plutôt que des relations de voisinage géométrique dans l'espace 3D. VoxAfford contourne ce goulot d'étranglement en injectant des caractéristiques géométriques multi-échelles issues d'un encodeur 3D VQVAE (Vector Quantized Variational AutoEncoder) pré-entraîné et figé, directement dans les tokens de sortie après génération. Un mécanisme de cross-attention interroge les motifs géométriques à chaque échelle de voxel en utilisant la sémantique d'affordance comme requête, tandis qu'une porte de compatibilité apprise dose l'injection. Les tokens enrichis sont ensuite agrégés en un prompt d'affordance spatialement cohérent, propagé avec les features par point pour produire le masque final. Les 8% de gain en mIoU sont présentés sans détail sur les conditions exactes de benchmark, un point à nuancer avant toute comparaison directe avec d'autres travaux.

La détection d'affordance en vocabulaire ouvert constitue un verrou central pour les robots manipulateurs devant opérer en langage naturel dans des environnements non structurés, problématique partagée par les plateformes humanoïdes (Figure, Unitree, Boston Dynamics) comme par les bras industriels programmés via instruction vocale. Les approches précédentes, notamment celles étendant les MLLMs avec des tokens de sortie spéciaux, butaient précisément sur cette dichotomie sémantique-géométrique que VoxAfford tente de combler. L'architecture s'inscrit dans la tendance des modèles VLA (Vision-Language-Action) qui cherchent à réconcilier compréhension linguistique et précision spatiale - un défi que des acteurs comme Physical Intelligence (pi0), Google DeepMind (GR00T N2) et 1X affrontent également dans leurs pipelines de manipulation. La validation en robot réel avec transfert zero-shot, et non uniquement en simulation, renforce la crédibilité des résultats face au sim-to-real gap fréquemment reproché aux méthodes d'IA incarnée. Aucun acteur français ou européen n'est mentionné dans cette publication ; les suites naturelles incluent l'intégration dans des pipelines de manipulation sur des plateformes comme les bras Franka Robotics ou Universal Robots.

Impact France/UE

Impact indirect à terme : intégration possible sur des plateformes européennes (Franka Robotics DE, Universal Robots DK), mais aucune contribution ou institution FR/UE impliquée dans la publication.

À lire aussi

FUS3DMaps : cartographie sémantique à vocabulaire ouvert par fusion 3D de couches voxel et instance
1arXiv cs.RO 

FUS3DMaps : cartographie sémantique à vocabulaire ouvert par fusion 3D de couches voxel et instance

Une équipe de recherche a publié le 6 mai 2026 sur arXiv (référence 2605.03669) FUS3DMaps, une méthode de cartographie sémantique 3D à vocabulaire ouvert conçue pour permettre à des robots de localiser spatialement des concepts arbitraires sans ensemble de classes prédéfini. Le système fonctionne en ligne et maintient simultanément deux couches sémantiques dans une même carte de voxels partagée : une couche dense, qui projette directement les embeddings de pixels sur la carte 3D, et une couche instance-level, qui segmente les vues, encode les régions correspondant à des objets distincts, puis les associe en 3D. Les expériences menées sur des benchmarks établis de segmentation sémantique 3D montrent que FUS3DMaps atteint une précision compétitive à l'échelle de bâtiments multi-étages, un niveau de scalabilité rarement démontré pour ce type d'approche sans entraînement supervisé. Le code et les données complémentaires sont annoncés en accès ouvert. Ce qui distingue FUS3DMaps des méthodes existantes est la fusion sémantique inter-couches (cross-layer fusion), qui combine les forces complémentaires des deux représentations : la couche dense couvre l'intégralité du champ visuel sans nécessiter de segmentation préalable, mais souffre d'un manque de précision à l'échelle ; la couche instance-level est précise sur les objets individuels mais dépend de l'association 2D-3D. En fusionnant les embeddings des deux couches au niveau voxel, la méthode améliore la qualité de chacune. Pour garantir la scalabilité, la fusion dense et inter-couches est restreinte à une fenêtre spatiale glissante, évitant l'explosion mémoire dans les grands environnements. Pour les intégrateurs de robotique mobile ou les développeurs de systèmes de navigation en environnement ouvert, c'est une piste concrète vers des robots capables de répondre à des requêtes en langage naturel sur des espaces non balisés. La cartographie sémantique à vocabulaire ouvert est un champ en plein essor depuis l'émergence des vision-language models (VLM) comme CLIP. Les approches actuelles se divisent en deux familles : les méthodes instance-level (LSeg, OpenScene, EmbodiedScan) et les méthodes dense (ConceptFusion, OpenFusion), chacune avec ses compromis entre précision et scalabilité. FUS3DMaps tente de réconcilier les deux dans un pipeline unifié, sans fine-tuning. À noter que l'article est une prépublication arXiv, sans validation par les pairs à ce stade, et que les démonstrations vidéo et le code sont encore annoncés comme "à venir". Aucune entreprise industrielle ou partenaire de déploiement n'est mentionné : il s'agit d'une contribution de recherche académique, pas d'un produit commercialisé.

RechercheActu
1 source
AFUN : vers un modèle fondation d'affordances pour la compréhension fonctionnelle
2arXiv cs.RO 

AFUN : vers un modèle fondation d'affordances pour la compréhension fonctionnelle

Une équipe de recherche a publié le 2 juin 2026 sur arXiv (réf. 2606.02551) un modèle baptisé AFUN, conçu pour la compréhension fonctionnelle des affordances en robotique. À partir d'une unique observation RGB-D et d'une instruction en langage naturel, AFUN produit simultanément deux sorties : un masque fonctionnel conditionné par la tâche (où interagir) et une courbe de mouvement 3D post-contact (comment interagir). Les auteurs ont construit un pipeline de données standardisé à grande échelle, fusionnant des sources hétérogènes : données robotiques, humaines, issues de simulations et de scans réels, converties en un schéma d'affordance commun incluant des labels de langue, des masques et des mouvements 3D centrés sur les objets. Sur 8 jeux de test issus de 4 benchmarks, AFUN surpasse tous les modèles de référence avec un gain de +23,9 / +26,3 en gIoU/cIoU moyen pour la segmentation d'affordances, une amélioration du hit-rate de 12,7 à 61,3 % pour la prédiction du point de contact, et les meilleures performances sur les trois jeux de test pour la prédiction de mouvement 3D. L'enjeu dépasse la performance brute. Le verrou historique en manipulation robotique n'est pas le bras mais la décision : savoir où poser la pince et comment la déplacer ensuite dans un environnement non structuré. Les approches existantes traitent ces deux problèmes séparément, soit en localisant une région d'intérêt sans spécifier le geste, soit en prédisant un mouvement avec une généralisation limitée. AFUN adresse les deux en une seule passe, et surtout le fait sans finetuning spécifique à l'embodiment cible, ce qui constitue un argument fort pour des intégrateurs cherchant à déployer sur plusieurs plateformes matérielles. Le déploiement zero-shot en environnement réel démontré dans le papier soulage une contrainte d'adaptation qui représente souvent plusieurs semaines d'ingénierie. Le problème de l'affordance est étudié depuis les années 1980 (Gibson), mais sa formalisation computationnelle pour la robotique reste un chantier ouvert. Dans l'écosystème actuel, des modèles comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) intègrent des capacités d'affordance dans des pipelines VLA (Vision-Language-Action) plus larges, tandis que des travaux académiques comme AnyGrasp ou UniDexGrasp 3.0 ciblent la préhension spécifiquement. AFUN se positionne comme fondation explicable et modulaire, avec une page projet publique, mais reste à ce stade un preprint non encore évalué par les pairs : les métriques annoncées devront être validées sur des plateformes robotiques variées et en conditions industrielles avant de conclure à une percée opérationnelle.

UELes équipes R&D et intégrateurs européens travaillant sur des déploiements multi-plateformes pourraient bénéficier de la capacité zero-shot d'AFUN, mais aucun acteur français ou européen n'est impliqué.

RechercheOpinion
1 source
T-FunS3D : segmentation fonctionnelle 3D hiérarchique à vocabulaire ouvert guidée par les tâches
3arXiv cs.RO 

T-FunS3D : segmentation fonctionnelle 3D hiérarchique à vocabulaire ouvert guidée par les tâches

Une équipe de recherche présente sur arXiv (identifiant 2606.05975, juin 2026) T-FunS3D, une méthode de segmentation 3D fonctionnelle à vocabulaire ouvert, pilotée par la tâche. Le système prend en entrée un nuage de points 3D et des images RGB-D posées d'une scène intérieure, à partir desquels il construit un graphe de scène à vocabulaire ouvert en extrayant les instances visuelles et leurs embeddings. Lorsqu'une description de tâche en langage naturel est fournie (par exemple "ouvrir le tiroir"), T-FunS3D interroge ce graphe pour identifier les instances pertinentes, puis localise leurs composants fonctionnels précis (poignée, loquet, bouton) via un modèle vision-langage (VLM). Évalué sur le jeu de données de référence SceneFun3D, le système affiche des performances comparables à l'état de l'art en segmentation fonctionnelle 3D, tout en réduisant le temps d'exécution et la consommation mémoire par rapport aux approches exhaustives. L'enjeu est structurant pour la perception robotique en manipulation. Les méthodes existantes de segmentation 3D à vocabulaire ouvert s'arrêtent généralement au niveau objet : elles savent qu'une tasse est présente, pas où se trouve l'anse. Les approches de segmentation scénique exhaustive, elles, traitent l'intégralité de la scène indépendamment de la tâche, ce qui les rend prohibitives en temps de calcul et en mémoire pour un déploiement embarqué. T-FunS3D adopte une logique hiérarchique et sélective, seuls les objets pertinents pour la tâche courante étant analysés au niveau partie, un compromis plus réaliste pour une exécution temps réel sur un robot physique. Ce type de perception "actionnnable" est un prérequis non résolu à l'échelle pour les architectures vision-langage-action (VLA) aujourd'hui au coeur de la robotique de manipulation. La méthode s'inscrit dans un effort plus large autour de la représentation sémantique des scènes pour la robotique, dont SceneFun3D constitue le banc d'essai de référence. La tendance à intégrer des VLMs comme raisonneurs sémantiques dans la boucle de perception, plutôt que comme générateurs d'actions directs, gagne du terrain dans des travaux concurrents tels que RoboPoint ou les approches fondées sur ConceptGraphs. T-FunS3D se différencie par son architecture en graphe de scène et sa focalisation explicite sur les composants fonctionnels plutôt que sur les objets entiers. Il s'agit d'une contribution académique sans annonce de déploiement industriel. Les suites naturelles incluent l'extension à des scènes dynamiques, des objets articulés complexes et l'intégration directe dans des pipelines VLA de bout en bout.

RecherchePaper
1 source
Apprentissage de correspondances fines par perception croisée pour l'estimation de pose 6D à vocabulaire ouvert
4arXiv cs.RO 

Apprentissage de correspondances fines par perception croisée pour l'estimation de pose 6D à vocabulaire ouvert

Des chercheurs ont publié sur arXiv (arXiv:2601.13565, janvier 2026) un framework baptisé FiCoP (Fine-grained Correspondence Pose Estimation) pour l'estimation de pose 6D en vocabulaire ouvert, soit la capacité d'un robot à localiser et orienter dans l'espace des objets arbitraires et inconnus guidé uniquement par du langage naturel. L'approche repose sur deux modules complémentaires : un module CPGP (Cross-Perspective Global Perception) qui fusionne des vues duales de l'objet pour établir un consensus structurel via raisonnement contextuel et injection sémantique texte-guidée, et un Patch Correlation Predictor (PCP) qui génère une carte d'association bloc-à-bloc servant de filtre spatial pour forcer une correspondance fine et robuste au bruit de fond. Sur les benchmarks REAL275 et Toyota-Light, FiCoP améliore le taux de rappel moyen de 8,0 % et 6,1 % respectivement par rapport à l'état de l'art. Le code sera rendu public sur GitHub (zjjqinyu/FiCoP). Le problème central que FiCoP résout est la confusion entre l'objet cible et les distracteurs de fond lors du matching global non contraint, défaut structurel des approches existantes qui tentent d'associer des features d'ancrage à l'intégralité de l'image requête. En passant à une correspondance par patches spatialement contrainte, après isolation préalable de la région d'intérêt via un disentanglement objet-centrique, FiCoP réduit l'ambiguité sans sacrifier la généralisation à des objets inconnus. Pour les intégrateurs et les équipes de manipulation industrielle, cela ouvre la voie à des systèmes de pick-and-place pilotés par description textuelle, sans pipeline d'entraînement objet-spécifique, gain significatif pour les applications à haute variété de SKUs. FiCoP s'inscrit dans la famille des méthodes de correspondance 2D-3D sans modèle CAD, en compétition directe avec GigaPose, FoundPose ou les pipelines VLA intégrant la perception 3D en aval. Les benchmarks utilisés, REAL275 et Toyota-Light, restent des environnements de table contrôlés, ce qui laisse entière la question du sim-to-real gap pour un déploiement industriel réel. À noter : les résultats ne sont pas comparés aux datasets adversariaux du BOP Challenge 2024, ce qui tempère la portée des gains annoncés. La mise à disposition du code devrait permettre une validation communautaire rapide sur des configurations plus adversariales.

RecherchePaper
1 source