
ShapeGrasp : complétion de forme et préhension visuo-haptiques simultanées pour une manipulation robotique améliorée
ShapeGrasp est un pipeline de manipulation robotique itératif présenté en mai 2025 sur arXiv (2605.02347), qui couple reconstruction de forme 3D implicite avec planification de saisie par simulation physique. À partir d'une seule image RGB-D, le système infère la forme complète d'un objet partiellement occulté (nuage de points ou maillage triangulaire), génère des candidats de saisie par simulation de corps rigides, puis exécute la prise jugée optimale. Après chaque tentative, les contacts tactiles enregistrés et le volume occupé par le préhenseur sont fusionnés pour affiner le modèle 3D de l'objet. En cas d'échec, le système re-estime la pose et re-planifie depuis la forme mise à jour. Validé sur deux robots distincts et deux types de préhenseurs, l'approche atteint 84 % de taux de succès avec un préhenseur à trois doigts et 91 % avec un préhenseur à deux doigts, tout en améliorant la qualité de reconstruction 3D sur l'ensemble des métriques retenues.
La manipulation d'objets inconnus ou partiellement visibles reste un verrou majeur en robotique industrielle. La plupart des systèmes de grasping actuels reposent sur une estimation visuelle initiale figée, sans correction post-tentative. ShapeGrasp introduit une boucle de raffinement perceptif où chaque échec enrichit la représentation géométrique de l'objet, reproduisant ainsi la stratégie d'exploration tactile humaine face à un objet non familier. Les auteurs affirment qu'il s'agit de la première approche à mettre à jour une représentation de forme après une saisie réelle, et non en simulation, ce qui comble un écart important entre résultats de labo et conditions opérationnelles réelles. Pour les intégrateurs industriels, cette correction itérative réduit la dépendance aux modèles CAO préalables et aux conditions d'éclairage maîtrisées, deux contraintes structurantes dans les environnements de production variables.
La complétion de forme pour la manipulation robotique croise vision 3D (réseaux d'occupation implicite, PointNet) et perception tactile (capteurs GelSight, Digit). Des systèmes concurrents comme Contact-GraspNet ou GraspNeRF opèrent sur des représentations visuelles statiques, sans exploitation du retour haptique post-saisie. ShapeGrasp s'inscrit dans une tendance plus large de systèmes multimodaux couplant vision et proprioception, visible également dans les plateformes humanoïdes récentes (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA). Le travail est actuellement un preprint arXiv non encore soumis à une conférence majeure du domaine (ICRA, IROS, RSS), et les conditions expérimentales détaillées, notamment les familles d'objets testés, les vitesses de cycle et les contraintes d'environnement, n'ont pas encore été publiées dans leur intégralité.




