
UniDexTok : un tokeniseur unifié pour mains dextériques à partir de données réelles
Une équipe de chercheurs a publié mi-juin 2026 sur arXiv (arXiv:2606.10683) un travail intitulé UniDexTok, proposant une représentation unifiée pour les états de mains dextres hétérogènes, humaines et robotiques. Le coeur du système est le Unified Dexterous Hand Model (UDHM), une interface sémantique partagée à 22 degrés de liberté (DoF) qui normalise les états articulaires de n'importe quelle main dans un espace commun. Sur cette base, UniDexTok est un tokenizer d'états appris exclusivement depuis des données réelles, sans recours au retargeting ni à la simulation. Les gains de précision par rapport à la baseline UniHM sont significatifs : l'erreur angulaire moyenne par articulation (MPJAE) chute de 15,63° à 0,16° (réduction de 98,98 %), et l'erreur de position par articulation (MPJPE) passe de 18,51 mm à 0,18 mm (réduction de 99,03 %), ramenant la reconstruction de l'échelle centimétrique à une précision sub-millimétrique.
La portée industrielle de ce résultat tient moins aux chiffres absolus qu'à ce qu'ils rendent possible : un entraînement cross-embodiment sans pipeline de retargeting, qui a longtemps constitué un goulot d'étranglement dans la constitution de datasets pour mains dextres. Jusqu'ici, les données capturées sur une Shadow Hand, une Allegro ou une LEAP Hand étaient difficilement réutilisables pour un autre robot, faute de représentation commune. UniDexTok permet de les agréger : les expériences montrent que des données provenant d'autres embodiments améliorent la reconstruction sur l'embodiment cible, validant le principe de transfert cross-morphologie. Le système affiche également des capacités zero-shot et few-shot lors de l'introduction de nouvelles mains, ce qui réduit le coût d'intégration pour les intégrateurs qui déploient plusieurs plateformes en parallèle.
La manipulation dextre reste l'un des défis les plus ouverts de la robotique humanoïde, avec une fragmentation des efforts entre labos (Dexterous Manipulation Group chez CMU, OpenAI Dactyl suspendu, Physical Intelligence avec Pi-0) et industriels (Tesla Optimus, Figure, Unitree). Les approches précédentes comme UniHM avaient posé la question de la représentation unifiée mais avec des erreurs de reconstruction trop élevées pour être exploitables en contrôle fin. UniDexTok s'inscrit dans un mouvement plus large vers des politiques robotiques génériques multi-embodiments, analogue à ce que les VLA (Vision-Language-Action models) tentent du côté de la perception. Les auteurs n'annoncent pas de déploiement industriel ni de partenariat ; il s'agit d'une contribution de recherche fondamentale, dont l'intégration dans des pipelines de formation de politiques reste à démontrer en conditions réelles.
Dans nos dossiers




