
Affordance2Action : ancrage des affordances guidé par la tâche pour la manipulation en temps réel
Une équipe de chercheurs publie sur arXiv (identifiant 2606.04172) le framework Affordance2Action (A2A), centré sur un problème concret de la manipulation robotique : identifier en temps réel quelle partie précise d'un objet est fonctionnellement exploitable pour accomplir une tâche donnée, dans une scène encombrée et ambigüe. Le coeur du travail est A2A-Bench, un benchmark de manipulation couvrant à la fois les correspondances instruction-région unique et multi-région, c'est-à-dire les cas où un seul verbe d'action peut pointer vers une ou plusieurs zones fonctionnelles selon la disposition de la scène. Pour construire ce dataset à grande échelle, les auteurs ont développé A2A-AffordGen, un pipeline assisté par agents qui enchaîne filtrage par modèle de langage, segmentation interactive de parties, raffinement par masquage d'instance, génération d'instructions de raisonnement et vérification humaine. Le code et les datasets seront rendus publics.
Ce travail expose une lacune structurelle des benchmarks existants en affordance : la plupart se concentrent sur la préhension d'objet isolé, s'appuient sur des scènes synthétiques, ou supposent une correspondance univoque entre instruction et région. A2A révèle des écarts significatifs dans trois catégories de baseline (segmentation générique, grounding fondé sur des VLMs et distillation d'affordance) sur des scènes réelles et multi-objets. Pour un intégrateur ou un responsable d'automatisation, ce résultat indique que les approches actuelles basées sur des VLMs généralistes (type CLIP ou LLaVA) sous-performent dès que la scène sort des cas standards. La capacité à localiser des régions fonctionnelles ambigües en temps réel reste un verrou non résolu pour le déploiement de bras manipulateurs en environnement non structuré.
L'affordance grounding en robotique s'inscrit dans une longue tradition de recherche remontant aux travaux de Gibson sur les affordances écologiques, réinterprétés pour la manipulation depuis les années 2010. Les approches concurrentes incluent des méthodes de grounding fondées sur des modèles de vision-langage (CLIP, SAM couplé à LLM) et des politiques de type VLA (Vision-Language-Action), comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui nécessitent elles aussi une localisation précise des régions d'interaction. A2A se positionne comme un cadre d'évaluation et de supervision plutôt que comme une politique de contrôle complète. La prochaine étape logique serait une validation sur robots physiques à plus grande échelle : le papier démontre des résultats en manipulation conditionnée par les affordances, mais la portée reste expérimentale à ce stade de preprint.




