Apprentissage de la manipulation dextérique via guidage par couple de contact issu de démonstrations humaines
Wandercraft, Exotec, Pollen et Enchanted Tools ne sont pas mentionnés dans le papier, donc aucune mention forcée. Voici l'article :
Une équipe de recherche publie CHORD (Contact Wrench Guidance from Human Demonstration in Robotic Dexterous Manipulation), un framework d'apprentissage par renforcement pour la manipulation dextre à long horizon d'objets rigides et articulés, dans un preprint arXiv daté du 2 juillet 2026 (arXiv:2607.00033v1). L'idée centrale consiste à représenter les mouvements humains et robotiques non pas par des trajectoires articulaires brutes, mais par les forces et couples (wrench) qu'ils induisent sur l'objet manipulé, ce qui permet de comparer directement leur effet plutôt que leur cinématique. Les chercheurs ont construit un benchmark de simulation de 4 739 tâches de manipulation bimanuelle dextre, issu de jeux de données de capture de mouvement et de vidéos reconstruites en interne. Sur 1 831 tâches évaluées, CHORD atteint un taux de réussite moyen de 82,12 %. La méthode se généralise aussi à la manipulation corps entier à partir de démonstrations limitées aux mains ou filmées à la troisième personne, avec 90,77 % de réussite, et les politiques apprises se transfèrent vers le réel en boucle ouverte comme en boucle fermée.
L'enjeu dépasse la simple prouesse académique : l'apprentissage par renforcement pour la manipulation riche en contacts est réputé difficile à faire passer à l'échelle, car les démonstrations humaines se transposent mal aux mains robotiques dont la cinématique diffère. En ancrant le signal de guidage dans la physique des forces plutôt que dans les gestes eux-mêmes, CHORD contourne en partie ce fossé d'incarnation. Un benchmark de près de 5 000 tâches, avec transfert vérifié sur robot réel et non seulement en simulation, constitue un test de scalabilité plus rigoureux que la plupart des démonstrations ponctuelles habituelles du secteur.
Ce travail s'inscrit dans une tendance plus large exploitant la capture de mouvement et la vidéo humaine pour entraîner des politiques robotiques, en parallèle des approches par imitation ou des modèles vision-langage-action comme Pi-0 ou GR00T N2. Étant un preprint, il reste à valider par relecture par les pairs, avec une portée réelle encore limitée aux conditions de laboratoire décrites.
Dans nos dossiers




