
SECOND-Grasp : préhension dextérique guidée par le contact sémantique
Des chercheurs ont publié en mai 2025 sur arXiv (2605.13117) SECOND-Grasp (SEmantic CONtact-guided Dexterous Grasping), un cadre unifié permettant à des mains robotiques multi-doigts d'adapter leurs stratégies de préhension à des consignes en langage naturel tout en garantissant la stabilité physique du contact. Le pipeline enchaîne un raisonnement vision-langage pour identifier les zones de contact probables, une segmentation multi-vues, puis un module baptisé SGCR (Semantic-Geometric Consistency Refinement) qui raffine ces prédictions par cohérence inter-vues et suppression des régions géométriquement invalides, produisant des cartes de contact 3D exploitables. Ces cartes alimentent un apprentissage de politique via cinématique inverse, entraîné sur le dataset DexGraspNet. Sur des catégories d'objets vus en entraînement, le système atteint 98,2 % de taux de succès au levage ; sur des catégories non vues, 97,7 % ; la préhension guidée par l'intention progresse de 12,8 % et 26,2 % respectivement face aux baselines, validé sur Shadow Hand et Allegro Hand.
Le résultat le plus significatif est précisément cette quasi-absence de dégradation entre catégories vues et non vues : cela suggère que le couplage sémantique-géométrique produit des représentations suffisamment abstraites pour généraliser hors distribution, un verrou classique du dexterous grasping. L'intégration native du langage dans la planification de contact, plutôt qu'en couche de sélection aval, place SECOND-Grasp dans la lignée des architectures VLA appliquées à la manipulation fine, comme Pi-0 (Physical Intelligence) ou les travaux récents de DeepMind. Pour un décideur industriel, la promesse est lisible : un système capable de comprendre où et comment saisir selon une tâche verbalisée, sans ré-entraînement par catégorie d'objet. Les métriques restent toutefois issues de benchmarks contrôlés ; le transfert sim-to-real en environnement industriel non structuré n'est pas encore démontré.
Le dexterous grasping est un chantier ouvert depuis les années 1990, longtemps fragmenté entre approches analytiques (calcul de wrench space) et méthodes data-driven. L'essor des modèles vision-langage a rouvert la question en conditionnant la préhension par le langage naturel. Les concurrents directs dans cet espace incluent GraspGPT, FoundationGrasp et les travaux de Stanford sur DexArt. En Europe, Enchanted Tools (robot Miroki) explore la manipulation expressive mais n'a pas publié de résultats comparables sur le grasping structuré. La prochaine étape naturelle pour SECOND-Grasp serait une validation sur plateforme physique en scène non contrôlée, potentiellement intégrée dans un pipeline humanoïde ou sur bras industriel polyvalent.
Dans nos dossiers




