
La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances
Une équipe de chercheurs présente A4D, un système de planification robotique qui raisonne sur ce que les objets permettent de faire plutôt que sur leur apparence visuelle. Publié sur arXiv (ref. 2606.05533), le système encode les observations visuelles dans un espace latent dit "fonctionnel", structuré autour d'affordances comme "déplaçable" ou "saisissable", au lieu de regrouper les objets par similitude visuelle. Les performances annoncées : 94 % de précision sur les affordances connues, soit plus de 15 points au-dessus des approches de l'état de l'art, une montée de 70 % à plus de 90 % de précision sur des affordances inédites avec moins de 10 % des données d'entraînement initiales, et une inférence 100 fois plus rapide. Un mécanisme de découverte automatique d'affordances permet au système de s'adapter aux scénarios non vus en étendant dynamiquement cet espace latent.
Le problème que cible A4D est central en manipulation robotique : la généralisation à des objets nouveaux. Les systèmes actuels échouent dès qu'un robot rencontre un objet visuellement différent de ceux vus à l'entraînement, même si sa fonction est identique. Raisonner par fonction plutôt que par apparence permettrait aux robots industriels et de service de s'adapter sans cycle de réentraînement complet, ce qui représente un verrou majeur pour le déploiement en environnements non structurés. L'efficacité en données est ici particulièrement notable : atteindre 90 % de précision sur de nouvelles catégories avec moins de 10 % du dataset original réduit drastiquement le coût d'intégration pour un nouvel environnement de travail. Ces résultats restent toutefois issus d'évaluations de laboratoire, et la robustesse en conditions industrielles réelles n'est pas encore documentée.
Le concept d'affordance en robotique est hérité de la psychologie écologique de James Gibson (années 1970), mais son opérationnalisation dans des systèmes de planification automatisée reste un défi ouvert depuis deux décennies. Les approches concurrentes incluent les Vision-Language-Action models (VLA) type pi0 de Physical Intelligence ou OpenVLA, qui misent sur des modèles fondation massifs pour la généralisation, et les méthodes de représentation basées sur des descripteurs sémantiques. A4D se positionne comme une alternative plus légère et interprétable. Le code, les vidéos et les données sont disponibles sur le site du projet ; aucun partenariat industriel ni déploiement pilote n'est annoncé à ce stade.




