
Apprentissage d'une manipulation dextérique robuste en main à partir de capteurs articulaires avec un transformeur proprioceptif
Des chercheurs publient sur arXiv (2605.21330, mai 2026) le Proprioceptive Transformer (PT), une architecture de contrôle pour la manipulation dextre en main fondée exclusivement sur les capteurs articulaires, sans vision ni retour tactile. Testée sur la main ténosynoviale ORCA, l'approche réalise une rotation continue de cube à une vitesse 3,1 fois supérieure aux méthodes de référence, et estime la position de l'objet avec une erreur quadratique moyenne (RMSE) inférieure de 23,4 % à celle d'un perceptron multicouche (MLP). La politique de contrôle est obtenue par distillation enseignant-élève : une politique enseignante est d'abord entraînée par apprentissage par renforcement avec accès privilégié à l'état de l'objet, puis ses connaissances sont distillées vers le PT, qui opère uniquement sur l'historique de positions et de vitesses articulaires.
Ce résultat questionne une hypothèse largement répandue dans le domaine : la nécessité d'une perception externe pour fermer la boucle d'estimation d'état lors de manipulations en main. Les encodeurs articulaires sont présents sur toutes les mains robotiques, y compris les architectures ténosynoviales où la transmission élastique complique l'estimation de la posture réelle des doigts. Que le Transformer extraie implicitement des informations extrinsèques à partir de patterns temporels proprioceptifs constitue une validation partielle du sim-to-real appliqué à la manipulation dextre, un problème longtemps considéré non résolu à l'échelle réelle. La robustesse sur des objets de géométrie variable ou sous charge perturbée reste à démontrer : le preprint ne rapporte de résultats que sur le cube, et les métriques de vitesse de rotation manquent de contexte sur les conditions expérimentales exactes.
La manipulation dextre en main est un problème ouvert depuis les années 1990, relancé par OpenAI Dactyl (2019) qui combinait vision externe et simulation massivement distribuée. Les approches concurrentes recourent aujourd'hui à des capteurs tactiles haute résolution (Shadow Hand avec BioTac, Leap Hand, GelSight sur Allegro) ou à des pipelines vision-langage-action de type Pi-0 ou GR00T N2. L'ORCA hand, plateforme académique à actionnement par tendons, reste moins présente dans les benchmarks publiés que l'Allegro ou la Shadow Hand, ce qui limite la comparaison directe avec l'état de l'art. Le preprint ne mentionne ni partenaires industriels ni calendrier de transfert : il s'agit d'une contribution de recherche fondamentale, sans déploiement annoncé.
Dans nos dossiers




