
DexHoldem : jouer au Texas Hold'em avec un système à IA incarnée dextérique
Une équipe de chercheurs a publié DexHoldem, un benchmark système conçu pour évaluer les robots dextres sur du matériel physique réel. Structuré autour de la manipulation de cartes Texas Hold'em, il mobilise une ShadowHand (24 degrés de liberté) et propose 1 470 démonstrations téléopérées couvrant 14 primitives de manipulation : distribution, tri, retournement de cartes et autres gestes imposant précision et continuité de scène. Sur l'exécution des primitives, le modèle pi-0.5 de Physical Intelligence obtient le meilleur taux de complétion brute à 61,2 %, et s'aligne avec pi-0 sur le taux de succès "préservant la scène" à 47,5 %. Sur la perception agentique, Claude Opus 4.7 d'Anthropic décroche la meilleure précision stricte au niveau du problème complet à 34,3 %, tandis que GPT-5.5 d'OpenAI atteint la meilleure précision champ par champ à 66,8 %.
Ces résultats exposent une fracture structurelle dans les pipelines VLA actuels : reconnaître 66,8 % des éléments visuels individuellement ne garantit pas de reconstituer l'état global de la scène, indispensable au routage décisionnel. Pour un intégrateur ou un décideur industriel, cela signifie qu'un modèle performant sur des primitives isolées peut s'effondrer en boucle fermée dès que les erreurs de perception et d'exécution s'accumulent. Les trois études de cas en boucle complète du benchmark le confirment : attentes, replanifications, demandes d'aide humaine et réexécutions émergent comme comportements nécessaires à la robustesse. DexHoldem formalise ainsi une contrainte rarement évaluée dans la littérature : laisser la scène utilisable pour les décisions suivantes, et non simplement compléter chaque primitive en isolation.
La ShadowHand, produite par Shadow Robot Company (Royaume-Uni), est une référence académique de longue date dans la manipulation dextre. Le benchmark s'inscrit dans la vague des évaluations système intégrées qui émergent en 2025 face à la multiplication des VLA, dont pi-0, pi-0.5, GR00T N2 de NVIDIA ou encore Helix de Figure. En choisissant le poker comme cadre d'évaluation, les auteurs imposent une perception structurée, une séquence longue et une contrainte d'état partagé entre actions successives, trois propriétés que les benchmarks à primitives isolées ne capturent pas. Le jeu de données de 1 470 démonstrations et le code du benchmark sont disponibles en open source sur dexholdem.github.io, ce qui le rend directement exploitable pour calibrer des pipelines dextres sur des conditions réelles reproductibles.
La ShadowHand de Shadow Robot Company (Royaume-Uni) constitue la plateforme matérielle du benchmark, et le dataset open source de 1 470 démonstrations est directement exploitable par les équipes de recherche en manipulation dextre des universités et laboratoires européens.
Dans nos dossiers




