GRAFT : transfert d'affordances à base de graphes par correspondance de parties
Des chercheurs ont publié sur arXiv (identifiant 2606.25241) GRAFT, un cadre de transfert d'affordance par correspondance de parties pour la manipulation robotique d'objets inconnus. Le principe : à partir d'un seul exemple par objet stocké dans un buffer de démonstrations, GRAFT permet à un robot de manipuler des instances qu'il n'a jamais vues, sans réentraînement. Chaque objet est représenté sous forme de graphe structuré par parties fonctionnelles, avec deux niveaux de descripteurs : des descripteurs au niveau des parties pour retrouver l'instance la plus proche fonctionnellement et géométriquement dans le buffer, puis des descripteurs au niveau des sommets pour localiser les points de contact précis à propager sur le nouvel objet.
Ce que GRAFT apporte de concret, c'est la prise en compte explicite de la géométrie, là où les approches précédentes de transfert d'affordance s'appuyaient uniquement sur la similarité sémantique. Retrouver qu'une cafetière et une théière appartiennent à la même catégorie ne suffit pas si leurs anses diffèrent morphologiquement : le point de préhension optimal change, et un robot guidé uniquement par sémantique rate la saisie. En combinant alignement fonctionnel et correspondance géométrique fine des parties, GRAFT vise à réduire les échecs sur les variantes d'un même objet. Pour des intégrateurs en cellule flexible ou des équipes de bin-picking, cela signifie théoriquement moins de démonstrations à collecter pour couvrir la diversité d'un flux de pièces réel.
La généralisation à de nouveaux objets avec peu d'exemples est un frein majeur en manipulation depuis des années : les méthodes d'imitation classiques requièrent typiquement des dizaines à des centaines de démonstrations par objet. Des approches récentes comme AnyGrasp, GraspNet ou les méthodes par affordance visuelle fondées sur CLIP (F3RM, CLIP-Fields) cherchent à réduire ce coût via des fondations vision-langage. GRAFT prend le pari inverse, en misant sur la correspondance structurelle de parties plutôt que sur le langage. Il s'agit d'une pré-publication arXiv sans institution mentionnée dans l'abstract et sans résultats quantitatifs accessibles sans lire le papier complet : les benchmarks de référence (YCB, OCID, RLBench) et les comparaisons avec les baselines restent à consulter dans le corps du travail avant toute conclusion sur les performances réelles.
Dans nos dossiers




