Estimation de pose et de forme d'objets pour la saisie : est-ce que ça fonctionne ?
Une étude publiée en preprint sur arXiv (2605.26944, mai 2026) s'attaque à une question centrale de la manipulation robotique : les méthodes modulaires, qui estiment d'abord la pose et la forme 3D d'un objet avant de générer des préhensions par échantillonnage antipolaire, surpassent-elles les approches bout-en-bout qui synthétisent directement des poses de saisie ? Le cadre expérimental se limite aux pinces à mâchoires parallèles, aux préhensions à 7 degrés de liberté (7-DOF), et à une entrée monoculaire RGB(-D). Trois pipelines modulaires sont évalués : deux s'appuient sur des modèles encodeur-décodeur (SAM3D, LRM, CRISP), le troisième sur des modèles de reconstruction par diffusion (InstantMesh, Zero123, SceneComplete), tous capables de reconstruire des formes 3D de façon catégorie-agnostique. Ces pipelines sont comparés à une méthode bout-en-bout de référence représentant l'état de l'art.
Les résultats sont sans ambiguïté : les méthodes modulaires surpassent la baseline bout-en-bout dans l'intégralité des expériences, y compris sur les petits objets où l'approche bout-en-bout échoue complètement. Ce constat remet en question l'hypothèse dominante selon laquelle les architectures bout-en-bout s'imposent naturellement en manipulation. La qualité des préhensions reste cependant conditionnée à la précision de l'estimation de pose et de forme : dans les scènes encombrées (cluttered scenes), les performances se dégradent, exposant une limite structurelle des méthodes actuelles de reconstruction 3D monoculaire. Les auteurs montrent par ailleurs que ces pipelines modulaires peuvent être augmentés avec des modèles vision-langage (VLM) pour produire des préhensions conditionnées par des instructions en langage naturel depuis une seule image RGB-D, avec des performances comparables à la baseline LERF-TOGO.
Ces travaux s'inscrivent dans une dynamique plus large de reconstruction 3D open-set portée par des modèles génératifs larges. Les approches encodeur-décodeur comme SAM3D ou LRM, et les modèles par diffusion comme InstantMesh ou Zero123, ont démontré une généralisation hors-distribution qui rend la reconstruction catégorie-agnostique exploitable en robotique industrielle. Côté positionnement concurrentiel, les méthodes bout-en-bout comme GraspNet restent des références, mais ce preprint suggère qu'un paradigme modulaire combinant estimation de forme et échantillonnage géométrique peut les surpasser dès lors que la reconstruction est suffisamment précise. La robustesse en scènes encombrées reste le défi ouvert majeur pour les équipes de recherche et les intégrateurs industriels.
Dans nos dossiers




