AFUN : vers un modèle fondation d'affordances pour la compréhension fonctionnelle
Une équipe de recherche a publié le 2 juin 2026 sur arXiv (réf. 2606.02551) un modèle baptisé AFUN, conçu pour la compréhension fonctionnelle des affordances en robotique. À partir d'une unique observation RGB-D et d'une instruction en langage naturel, AFUN produit simultanément deux sorties : un masque fonctionnel conditionné par la tâche (où interagir) et une courbe de mouvement 3D post-contact (comment interagir). Les auteurs ont construit un pipeline de données standardisé à grande échelle, fusionnant des sources hétérogènes : données robotiques, humaines, issues de simulations et de scans réels, converties en un schéma d'affordance commun incluant des labels de langue, des masques et des mouvements 3D centrés sur les objets. Sur 8 jeux de test issus de 4 benchmarks, AFUN surpasse tous les modèles de référence avec un gain de +23,9 / +26,3 en gIoU/cIoU moyen pour la segmentation d'affordances, une amélioration du hit-rate de 12,7 à 61,3 % pour la prédiction du point de contact, et les meilleures performances sur les trois jeux de test pour la prédiction de mouvement 3D.
L'enjeu dépasse la performance brute. Le verrou historique en manipulation robotique n'est pas le bras mais la décision : savoir où poser la pince et comment la déplacer ensuite dans un environnement non structuré. Les approches existantes traitent ces deux problèmes séparément, soit en localisant une région d'intérêt sans spécifier le geste, soit en prédisant un mouvement avec une généralisation limitée. AFUN adresse les deux en une seule passe, et surtout le fait sans finetuning spécifique à l'embodiment cible, ce qui constitue un argument fort pour des intégrateurs cherchant à déployer sur plusieurs plateformes matérielles. Le déploiement zero-shot en environnement réel démontré dans le papier soulage une contrainte d'adaptation qui représente souvent plusieurs semaines d'ingénierie.
Le problème de l'affordance est étudié depuis les années 1980 (Gibson), mais sa formalisation computationnelle pour la robotique reste un chantier ouvert. Dans l'écosystème actuel, des modèles comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) intègrent des capacités d'affordance dans des pipelines VLA (Vision-Language-Action) plus larges, tandis que des travaux académiques comme AnyGrasp ou UniDexGrasp 3.0 ciblent la préhension spécifiquement. AFUN se positionne comme fondation explicable et modulaire, avec une page projet publique, mais reste à ce stade un preprint non encore évalué par les pairs : les métriques annoncées devront être validées sur des plateformes robotiques variées et en conditions industrielles avant de conclure à une percée opérationnelle.
Les équipes R&D et intégrateurs européens travaillant sur des déploiements multi-plateformes pourraient bénéficier de la capacité zero-shot d'AFUN, mais aucun acteur français ou européen n'est impliqué.




