GraspGen-X : préhension à 6 degrés de liberté par diffusion pour morphologies robotiques variées
GraspGen-X est un modèle de préhension robotique 6-DOF (six degrés de liberté) publié sur arXiv le 2 juin 2026, conçu pour opérer en cross-embodiment : contrairement aux approches précédentes limitées à des préhenseurs spécifiques, il généralise simultanément à de nouveaux objets, de nouvelles scènes, et de nouvelles morphologies de préhenseurs. Le modèle étend les générateurs de préhension basés sur la diffusion en conditionnant la génération sur une représentation du préhenseur encodée via une heuristique de "volume balayé" (swept-volume), qui capture la géométrie du préhenseur pendant son mouvement d'approche. L'entraînement s'appuie sur un dataset massif de 2 milliards de préhensions générées avec des préhenseurs procéduraux synthétiques.
Dans les expériences en simulation, GraspGen-X obtient les meilleures performances en généralisation zéro-shot vers des préhenseurs réels inédits, surpassant les méthodes de référence. Le modèle constitue également un bon point de départ pour le fine-tuning sur de nouveaux préhenseurs, ce qui réduit le coût d'adaptation. Pour les intégrateurs robotiques, c'est un signal concret : la perspective d'un module de préhension unique déployable sur plusieurs plateformes (bras industriels, manipulateurs collaboratifs, mains anthropomorphes) sans réentraînement complet compresse significativement les coûts d'intégration. La capacité à transférer du simulateur vers le réel sur des préhenseurs jamais vus à l'entraînement adresse directement le sim-to-real gap en manipulation, longtemps identifié comme verrou pour les architectures VLA (Vision-Language-Action) appliquées à la saisie d'objets.
La recherche en 6-DOF grasping s'est longtemps structurée autour d'approches liées à des géométries de préhenseur fixes, de GraspNet à GQ-CNN en passant par les travaux de Columbia et du MIT sur la synthèse de prises. Les modèles de diffusion pour la préhension ont émergé récemment comme alternative générative, mais restaient mono-embodiment. GraspGen-X s'inscrit dans la tendance plus large des modèles fondationnels pour la robotique, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui visent la généralisation multi-tâches et multi-plateformes. Le papier reste pour l'instant une preuve de concept académique sans déploiement industriel annoncé; la prochaine étape naturelle serait une validation à plus grande échelle sur des préhenseurs physiques variés et l'intégration dans des pipelines de manipulation complets.
Dans nos dossiers




