
Préhension universelle pour humanoïdes
Des chercheurs ont publié HUG (Human Universal Grasping), un modèle de flow-matching qui génère des saisies robotiques diversifiées à partir d'une unique image RGB-D capturée par caméra stéréo. Pour l'entraîner, ils ont constitué 1M-HUGs, un dataset égocentrique de 1 million de frames (27,8 heures, 41 bâtiments) capturées via smart glasses, couvrant 6 707 instances d'objets distincts. Le modèle fusionne données RGB et profondeur pour prédire une saisie paramétrée par la translation et la rotation du poignet ainsi que la pose MANO de la main, retargetable zero-shot vers différentes mains robotiques. Sur HUG-Bench, un benchmark de 90 objets répartis en cinq catégories géométriques avec des maillages 3D à l'échelle métrique, HUG surpasse les baselines état de l'art de +23% et +34% sur 30 objets réels testés dans plusieurs environnements domestiques.
L'argument central est méthodologique : plutôt que de passer par la télé-opération ou la démonstration robotique, les auteurs exploitent les données humaines natives, disponibles à très grande échelle et sans infrastructure spécialisée. La capacité de retargeting zero-shot vers des mains mécaniques hétérogènes est l'argument industriel clé : si elle tient hors conditions de lab, elle réduit significativement le coût d'adaptation d'un modèle de manipulation à un nouveau hardware. Ces résultats sont toutefois à nuancer : le papier est un preprint arXiv non encore évalué par les pairs, et les performances annoncées ont été mesurées sur un benchmark construit par les auteurs eux-mêmes, sans audit indépendant à ce stade.
HUG s'inscrit dans une lignée de travaux sur la généralisation de la saisie incluant GraspNet, Contact-GraspNet et les approches par diffusion comme DexDiffuser, et adopte une logique de capture égocentrique proche des pipelines de Stanford (Mobile ALOHA) ou Berkeley (DROID dataset), qui visent à décorréler la collecte de données du hardware robotique cible. Le code, les données, le benchmark et les checkpoints sont publiés en open source sur grasping.io. Les prochaines validations logiques concerneraient des bras industriels (UR, Franka) sur des scénarios de bin-picking ou d'assemblage non structuré, où la généralisation de la saisie reste un verrou majeur pour l'intégration à grande échelle.
Dans nos dossiers




