Web2Grasp : apprendre la préhension fonctionnelle à partir d'images web d'interactions main-objet
Des chercheurs ont présenté sur arXiv (réf. 2505.05517) Web2Grasp, une méthode qui permet à des mains robotiques multi-doigts d'apprendre des saisies fonctionnelles à partir d'images web montrant des interactions main-objet humaines (HOI, hand-object interaction). Un modèle de reconstruction 3D pré-entraîné extrait des maillages HOI depuis des images RGB brutes ; un filtrage géométrique couplé à une simulation physique dans IsaacGym élimine ensuite les saisies infaisables et ne conserve que celles résistant à une perturbation externe. En simulation, le système atteint 75,8 % de réussite sur des objets tirés du dataset web et généralise à des objets non vus lors de l'entraînement. En conditions réelles, testé sur les mains robotiques LEAP Hand et Inspire Hand, il affiche 77,5 % de réussite sur 12 objets incluant des géométries difficiles : seringue, flacon spray, couteau et pince longue (tongs).
L'enjeu dépasse la simple prise en main : le "functional grasping" signifie que le robot saisit l'objet comme un humain l'utiliserait (couteau par le manche, spray par le corps), contrairement aux "power grasps" génériques qui dominent encore la littérature de manipulation robotique. La quasi-totalité des approches existantes nécessite des démonstrations en domaine spécifique, coûteuses à collecter objet par objet ; Web2Grasp court-circuite ce goulot en exploitant les images web comme supervision faible à coût quasi nul. Les 77,5 % en conditions réelles sur des formes atypiques sont encourageants, mais les conditions exactes d'évaluation (orientation initiale, variabilité d'éclairage, nombre d'essais par objet) ne sont pas précisées dans le résumé, ce qui invite à consulter le papier complet avant toute conclusion sur la robustesse industrielle.
La préhension fonctionnelle reste un problème ouvert : les datasets annotés manuellement comme DexYCB ou ContactPose sont onéreux à produire à grande échelle. L'exploitation d'interactions "in the wild" s'inscrit dans la tendance des VLA (vision-language-action models) comme Pi-0 ou OpenVLA, qui cherchent à réduire la dépendance aux démonstrations robotiques coûteuses. Web2Grasp s'oppose directement à des approches comme DexGraspNet ou UniDexGrasp, ainsi qu'aux pipelines basés sur la téléopération (travaux Dex-Pilot, Apple Research), en supprimant entièrement le besoin de démonstrations effectuées sur robot. La suite logique serait l'intégration dans des pipelines de manipulation complets (pick-and-place, assemblage orienté tâche) ; le site projet actif à web2grasp.github.io indique que les développements se poursuivent.
Dans nos dossiers




