Aller au contenu principal
RecherchearXiv cs.RO4h

AFUN : vers un modèle fondation d'affordances pour la compréhension fonctionnelle

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche a publié le 2 juin 2026 sur arXiv (réf. 2606.02551) un modèle baptisé AFUN, conçu pour la compréhension fonctionnelle des affordances en robotique. À partir d'une unique observation RGB-D et d'une instruction en langage naturel, AFUN produit simultanément deux sorties : un masque fonctionnel conditionné par la tâche (où interagir) et une courbe de mouvement 3D post-contact (comment interagir). Les auteurs ont construit un pipeline de données standardisé à grande échelle, fusionnant des sources hétérogènes : données robotiques, humaines, issues de simulations et de scans réels, converties en un schéma d'affordance commun incluant des labels de langue, des masques et des mouvements 3D centrés sur les objets. Sur 8 jeux de test issus de 4 benchmarks, AFUN surpasse tous les modèles de référence avec un gain de +23,9 / +26,3 en gIoU/cIoU moyen pour la segmentation d'affordances, une amélioration du hit-rate de 12,7 à 61,3 % pour la prédiction du point de contact, et les meilleures performances sur les trois jeux de test pour la prédiction de mouvement 3D.

L'enjeu dépasse la performance brute. Le verrou historique en manipulation robotique n'est pas le bras mais la décision : savoir où poser la pince et comment la déplacer ensuite dans un environnement non structuré. Les approches existantes traitent ces deux problèmes séparément, soit en localisant une région d'intérêt sans spécifier le geste, soit en prédisant un mouvement avec une généralisation limitée. AFUN adresse les deux en une seule passe, et surtout le fait sans finetuning spécifique à l'embodiment cible, ce qui constitue un argument fort pour des intégrateurs cherchant à déployer sur plusieurs plateformes matérielles. Le déploiement zero-shot en environnement réel démontré dans le papier soulage une contrainte d'adaptation qui représente souvent plusieurs semaines d'ingénierie.

Le problème de l'affordance est étudié depuis les années 1980 (Gibson), mais sa formalisation computationnelle pour la robotique reste un chantier ouvert. Dans l'écosystème actuel, des modèles comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) intègrent des capacités d'affordance dans des pipelines VLA (Vision-Language-Action) plus larges, tandis que des travaux académiques comme AnyGrasp ou UniDexGrasp 3.0 ciblent la préhension spécifiquement. AFUN se positionne comme fondation explicable et modulaire, avec une page projet publique, mais reste à ce stade un preprint non encore évalué par les pairs : les métriques annoncées devront être validées sur des plateformes robotiques variées et en conditions industrielles avant de conclure à une percée opérationnelle.

Impact France/UE

Les équipes R&D et intégrateurs européens travaillant sur des déploiements multi-plateformes pourraient bénéficier de la capacité zero-shot d'AFUN, mais aucun acteur français ou européen n'est impliqué.

À lire aussi

VoxAfford : fusion multi-échelle voxel-token pour la détection d'affordances 3D à vocabulaire ouvert
1arXiv cs.RO 

VoxAfford : fusion multi-échelle voxel-token pour la détection d'affordances 3D à vocabulaire ouvert

Une équipe de chercheurs publie VoxAfford (Voxel-enhanced Affordance Detection), une méthode de détection d'affordance 3D en vocabulaire ouvert, disponible en preprint sur arXiv (identifiant 2605.01365, mai 2025). L'affordance 3D désigne la localisation automatique des zones d'interaction sur un objet - où saisir, pousser, verser - à partir d'une description textuelle libre et non prédéfinie. Sur les benchmarks de référence, VoxAfford affiche une amélioration d'environ 8% en mIoU (mean Intersection over Union) par rapport aux meilleures méthodes existantes. Des expériences sur robot réel valident un transfert zero-shot vers des objets inédits, c'est-à-dire non présents dans les données d'entraînement. Le problème central adressé touche directement la robotique de manipulation : les grands modèles de langage multimodaux (MLLMs) utilisés pour générer des masques de segmentation produisent des tokens sémantiquement riches mais spatialement appauvris, parce que leur génération autorégressive modélise des dépendances séquentielles plutôt que des relations de voisinage géométrique dans l'espace 3D. VoxAfford contourne ce goulot d'étranglement en injectant des caractéristiques géométriques multi-échelles issues d'un encodeur 3D VQVAE (Vector Quantized Variational AutoEncoder) pré-entraîné et figé, directement dans les tokens de sortie après génération. Un mécanisme de cross-attention interroge les motifs géométriques à chaque échelle de voxel en utilisant la sémantique d'affordance comme requête, tandis qu'une porte de compatibilité apprise dose l'injection. Les tokens enrichis sont ensuite agrégés en un prompt d'affordance spatialement cohérent, propagé avec les features par point pour produire le masque final. Les 8% de gain en mIoU sont présentés sans détail sur les conditions exactes de benchmark, un point à nuancer avant toute comparaison directe avec d'autres travaux. La détection d'affordance en vocabulaire ouvert constitue un verrou central pour les robots manipulateurs devant opérer en langage naturel dans des environnements non structurés, problématique partagée par les plateformes humanoïdes (Figure, Unitree, Boston Dynamics) comme par les bras industriels programmés via instruction vocale. Les approches précédentes, notamment celles étendant les MLLMs avec des tokens de sortie spéciaux, butaient précisément sur cette dichotomie sémantique-géométrique que VoxAfford tente de combler. L'architecture s'inscrit dans la tendance des modèles VLA (Vision-Language-Action) qui cherchent à réconcilier compréhension linguistique et précision spatiale - un défi que des acteurs comme Physical Intelligence (pi0), Google DeepMind (GR00T N2) et 1X affrontent également dans leurs pipelines de manipulation. La validation en robot réel avec transfert zero-shot, et non uniquement en simulation, renforce la crédibilité des résultats face au sim-to-real gap fréquemment reproché aux méthodes d'IA incarnée. Aucun acteur français ou européen n'est mentionné dans cette publication ; les suites naturelles incluent l'intégration dans des pipelines de manipulation sur des plateformes comme les bras Franka Robotics ou Universal Robots.

UEImpact indirect à terme : intégration possible sur des plateformes européennes (Franka Robotics DE, Universal Robots DK), mais aucune contribution ou institution FR/UE impliquée dans la publication.

RecherchePaper
1 source
Évolution continue des compétences dans un modèle vision-langage-action (VLA)
2arXiv cs.RO 

Évolution continue des compétences dans un modèle vision-langage-action (VLA)

Des chercheurs ont publié Stellar VLA (arXiv:2511.18085v3), un cadre d'apprentissage continu par imitation (continual imitation learning, CIL) pour les modèles Vision-Langage-Action (VLA). La méthode propose deux variantes progressives : T-Stellar, fondée sur une modélisation plate centrée sur les tâches, et TS-Stellar, organisée en structure hiérarchique tâche-compétence. Les expériences menées sur le benchmark LIBERO, référence standard pour les tâches de manipulation robotique, montrent que les deux variantes surpassent les baselines VLA et CIL actuelles, avec seulement 1 % de rejeu de données. Une validation en conditions réelles sur une plateforme bi-bras, avec des configurations de scènes et d'embodiments distincts, confirme que le transfert de connaissances entre tâches reste effectif au-delà du simulateur. Le principal apport de Stellar VLA est d'adresser un frein structurel au déploiement des grands modèles VLA : les méthodes CIL existantes nécessitent des paramètres additionnels ou des modules externes, ce qui les rend difficilement scalables lorsque le modèle de base est déjà massif. En optimisant conjointement des représentations de tâches et un espace de connaissances partagé, Stellar VLA introduit un mécanisme de routage expert guidé par la sémantique, sélectionnant les K embeddings les plus proches pour orienter le modèle vers la compétence pertinente, sans alourdir l'architecture. Pour les équipes qui déploient des robots polyvalents en production, cela ouvre la voie à l'apprentissage incrémental de nouvelles tâches avec un coût de fine-tuning réduit. TS-Stellar se distingue notamment sur les manipulations hiérarchiques complexes, et les visualisations publiées illustrent une rétention robuste des compétences acquises ainsi qu'une capacité de découverte automatique de nouvelles tâches. Les VLA constituent un axe de recherche en accélération depuis 2023, portés par Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA (UC Berkeley) ou encore RT-2 (Google DeepMind), qui cherchent à généraliser la manipulation robotique via un préentraînement multimodal massif. La question du catastrophic forgetting, c'est-à-dire la perte des compétences antérieures lors de l'apprentissage d'une nouvelle tâche, reste un verrou non résolu à l'échelle industrielle. Stellar VLA se positionne comme une surcouche légère applicable à des VLA existants, sans retraining complet. Le projet est documenté sur stellarvla.github.io ; aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication, qui reste à ce stade un travail de recherche académique.

RechercheOpinion
1 source
Évaluation de la compréhension des collisions dans les modèles vision-langage pour une collaboration homme-robot sécurisée
3arXiv cs.RO 

Évaluation de la compréhension des collisions dans les modèles vision-langage pour une collaboration homme-robot sécurisée

Une équipe de chercheurs a publié TouchSafeBench (arXiv:2605.31196), un benchmark pour évaluer ce qu'ils nomment le "collision grounding" dans les modèles de vision-langage (VLM) : la capacité à relier des observations visuelles à la géométrie du robot, la disposition de la scène et la proximité humaine pour déduire un contact présent ou imminent. Construit dans le simulateur Habitat 3.0 de Meta, il comprend 2 940 épisodes de coprésence indoor simulés, couvrant navigation sociale et réorganisation spatiale, avec des observations RGB-D multi-vues synchronisées, des cartes de trajectoire top-down et des labels de contact dérivés directement du simulateur. Trois VLMs orientés robotique ou frontier models ont été testés sur neuf représentations visuelles, autour de deux tâches : classifier l'état de sécurité courant et anticiper une collision imminente avant tout contact physique. Le meilleur score moyen Macro-F1 obtenu reste inférieur à 50 %. Ce chiffre souligne une limite fondamentale : la fluidité visuelle n'implique pas la responsabilité physique. Un modèle capable de décrire précisément une scène peut échouer à détecter si un bras robotique effleure un opérateur. Pour les intégrateurs travaillant sur la collaboration homme-robot, le signal est sans ambiguité : les VLMs actuels ne peuvent pas jouer le rôle de moniteurs de sécurité sans couche d'abstraction géométrique explicite. L'étude montre également que le contact robot-scène (obstacles, mobilier) est systématiquement plus difficile à détecter que la proximité humaine, contredisant l'intuition courante. Plus frappant encore : la profondeur RGB-D n'est pas automatiquement convertie en évidence de collision corps-robot, faute de représentation morphologique intégrée dans ces modèles. Ces résultats arrivent au moment où les architectures vision-langage-action (VLA) comme RT-2, OpenVLA ou pi0 de Physical Intelligence s'imposent dans les pipelines robotiques, en pariant sur la généralisation sémantique des VLMs pour piloter manipulateurs et robots mobiles. TouchSafeBench constitue un contrepoids empirique à cet enthousiasme : la généralisation linguistique ne résout pas la conscience géométrique nécessaire à la sécurité fonctionnelle. La plateforme sous-jacente, Habitat 3.0, est développée par Meta AI Research et fait référence en navigation sociale simulée. Le benchmark sera publié à l'acceptation de l'article. Les auteurs identifient comme prochaine étape des représentations liant explicitement point de vue caméra, morphologie du robot et géométrie métrique, potentiellement via des approches hybrides VLM et modèles cinématiques.

UELes intégrateurs européens développant des cobots sous contraintes AI Act doivent intégrer que les VLMs actuels ne sont pas des moniteurs de sécurité fiables sans couche d'abstraction géométrique explicite, ce qui impacte directement les architectures VLA en cours de déploiement industriel.

RecherchePaper
1 source
CompassAD : localisation d'affordance 3D guidée par l'intention parmi des objets fonctionnellement concurrents
4arXiv cs.RO 

CompassAD : localisation d'affordance 3D guidée par l'intention parmi des objets fonctionnellement concurrents

Des chercheurs proposent CompassAD, un benchmark et une architecture (CompassNet) pour adresser un angle mort des systèmes robotiques actuels : choisir le bon objet parmi plusieurs qui partagent la même affordance. Le cas prototype est simple : face à l'instruction "coupe le gâteau", un robot doit identifier le couteau plutôt que des ciseaux posés à côté, bien que les deux permettent de couper. Le benchmark comprend 30 paires d'objets confusables, 16 types d'affordances, 6 422 compositions de scènes et plus de 88 000 paires requête-réponse. CompassNet repose sur deux modules : l'Instance-bounded Cross Injection (ICI), qui confine l'alignement langage-géométrie aux limites de chaque instance d'objet pour éviter toute fuite sémantique entre objets voisins, et le Bi-level Contrastive Refinement (BCR), qui renforce la discrimination entre surfaces cibles et confusables à deux niveaux de granularité. Le système produit un masque d'affordance point-par-point sur le bon objet dans un nuage de points multi-objets, conditionné par une instruction en langage naturel implicite. Une validation sur bras manipulateur réel est présentée comme preuve de transfert physique. L'intérêt est que la quasi-totalité des méthodes d'affordance 3D existantes évaluent des objets isolés avec le nom de catégorie fourni explicitement dans la requête. CompassAD impose une contrainte plus proche du déploiement réel : une intention formulée en langage naturel, sans étiquette d'objet prédéfinie. Pour un intégrateur ou un décideur industriel, cela vise des systèmes capables de raisonner sur le contexte de tâche sans pipeline de labellisation rigide. La nuance s'impose cependant : 30 paires d'objets et un environnement de laboratoire constituent une base étroite. La robustesse en scènes industrielles denses, avec occlusions et objets multiples non contrôlés, reste à démontrer. L'affordance grounding en robotique s'est structuré autour de travaux comme Where2Act (2021) ou LASO, qui opèrent sur objets isolés avec requêtes explicites. Les architectures vision-langage-action (VLA) des grands labos comme DeepMind, Meta ou Stanford intègrent progressivement la résolution d'ambiguïtés contextuelles, mais sans benchmark dédié aux scènes multi-objets confusables. CompassAD comble en partie ce vide méthodologique. La publication, déposée sur arXiv (2604.02060v2) en version révisée, n'implique pas d'acteur industriel ou FR/EU visible. Les prochaines étapes logiques seraient une extension à des scènes plus denses et une évaluation sur plateformes mobiles manipulatrices, au-delà du bras fixe utilisé dans les expériences publiées.

RecherchePaper
1 source