TopoRetarget : retargeting préservant les interactions pour la manipulation dextérique
Des chercheurs ont publié TopoRetarget, un framework de retargeting cinématique préservant les interactions pour l'apprentissage de la manipulation dextère par renforcement (RL). L'objectif est de réutiliser des démonstrations humaines main-objet comme références de mouvement pour entraîner des politiques RL sur des mains robotiques, sans dégrader la qualité des contacts critiques. La méthode construit un graphe d'interaction sparse sur les keypoints de la main et de l'objet, puis optimise une déformation laplacienne pondérée par la distance, combinée à des contraintes de cohérence directionnelle, de cinématique articulaire et de gestion des pénétrations. Sur le dataset ContactPose, TopoRetarget surpasse l'ensemble des baselines en précision de contact et en alignement de posture, avec un paramétrage unique valable pour des conditions de retargeting variées. La tâche Pen-Spin voit son taux de succès en entraînement augmenter de 40,6 points de pourcentage par rapport aux méthodes existantes. Plus significatif encore, le système permet un transfert zéro-shot vers le hardware Wuji Hand sur des tâches de réorientation de cube et de spinning de stylo, sans fine-tuning supplémentaire.
Ce résultat adresse un verrou central dans la chaîne de données pour la manipulation dextère : le retargeting naïf de démonstrations humaines introduit des artefacts de contact et des configurations infaisables qui dégradent directement la politique RL apprise en aval. La capacité à préserver la topologie d'interaction main-objet avec un seul ensemble de paramètres, sans ajustement cas par cas, est un argument fort pour la scalabilité des pipelines de collecte de données. Le transfert zéro-shot vers un hardware physique valide également partiellement la réduction du sim-to-real gap : si la référence de mouvement est topologiquement cohérente, la politique généralisée mieux, y compris vers un robot non vu pendant l'entraînement.
Le retargeting cinématique est un problème ancien dans l'animation et la robotique humanoïde, mais son application systématique à la manipulation dextère à partir de données humaines est plus récente, portée par l'essor des datasets de démonstration comme DEXYCB ou ContactPose. Les approches concurrentes incluent des méthodes d'optimisation directe de la posture (DexPilot, GRAB), ainsi que des frameworks basés sur l'apprentissage par imitation directe ou le mapping de contact. TopoRetarget se distingue par son traitement explicite de la structure topologique des contacts plutôt que de la seule géométrie de pose. Les prochaines étapes naturelles concernent la généralisation à des objets non vus, l'extension à des mains à plus de degrés de liberté, et l'intégration dans des pipelines de collecte de données à grande échelle pour l'entraînement de politiques VLA dextères.




