
GraspFoM : vers une préhension robotique guidée par la reconstruction et les modèles fondation 3D
Une équipe de chercheurs a publié le 10 juin 2026 sur arXiv (référence 2606.08440) GraspFoM, un framework unifié de saisie robotique qui exploite des fondations 3D pré-entraînées, plus précisément SAM3D, pour construire une représentation latente 3D partagée entre deux tâches simultanées : la reconstruction géométrique de l'objet et la prédiction de poses de préhension. L'architecture centrale repose sur un diffuseur de raisonnement de pose tronqué à initialisation par ancres, qui génère des poses continues et multimodales sans dépendre de candidats discrets préétablis, une distinction technique importante par rapport aux pipelines classiques. GraspFoM produit en sortie à la fois des poses de saisie et des reconstructions 3D haute fidélité au format maillage polygonal et 3D Gaussian Splatting (3DGS). Les auteurs rapportent des résultats de pointe sur les benchmarks de reconstruction et de saisie, avec un surcoût en paramètres entraînables qualifié de "limité" mais sans chiffre précis publié.
Ce travail adresse un verrou réel dans la manipulation robotique : la saisie sous observation partielle, c'est-à-dire quand la caméra ne voit qu'une fraction de l'objet. Les approches existantes utilisent la géométrie 3D comme étape intermédiaire jetable, sans la capitaliser comme prior réutilisable. GraspFoM rompt avec cette logique en faisant co-évoluer reconstruction et grasping dans un espace latent commun : la reconstruction ancre la géométrie, la supervision de saisie affine ce latent vers les zones de prise pertinentes. Le scorer reconstruction-aware et le residual latent updater formalisent cette rétroaction mutuelle. Pour les intégrateurs en manipulation industrielle ou logistique, cela suggère une meilleure robustesse sur des objets partiellement occultés, sans multiplication des modules ou des paramètres, ce qui est un argument d'efficacité réelle si les expériences réelles confirment les benchmarks.
Les fondations 3D comme SAM3D s'inscrivent dans une vague de transferts de connaissances entre vision 2D et représentations 3D, parallèle à l'essor des VLA (Vision-Language-Action models) pour la manipulation généraliste. GraspFoM se positionne différemment des approches purement end-to-end comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA : il mise sur la reconstruction explicite plutôt que sur l'imitation à grande échelle. Les concurrents académiques proches incluent GraspNeRF, Contact-GraspNet et des travaux récents combinant diffusion et géométrie 3D. À ce stade, GraspFoM reste un preprint non validé en conditions réelles, les expériences rapportées étant réalisées sur simulateur ou bancs de test contrôlés. Aucun partenaire industriel ni déploiement pilote n'est mentionné, et aucune timeline de commercialisation n'est communiquée.




