RecherchearXiv cs.RO 16 juin 2026

TopoRetarget : retargeting préservant les interactions pour la manipulation dextérique

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié TopoRetarget, un framework de retargeting cinématique préservant les interactions pour l'apprentissage de la manipulation dextère par renforcement (RL). L'objectif est de réutiliser des démonstrations humaines main-objet comme références de mouvement pour entraîner des politiques RL sur des mains robotiques, sans dégrader la qualité des contacts critiques. La méthode construit un graphe d'interaction sparse sur les keypoints de la main et de l'objet, puis optimise une déformation laplacienne pondérée par la distance, combinée à des contraintes de cohérence directionnelle, de cinématique articulaire et de gestion des pénétrations. Sur le dataset ContactPose, TopoRetarget surpasse l'ensemble des baselines en précision de contact et en alignement de posture, avec un paramétrage unique valable pour des conditions de retargeting variées. La tâche Pen-Spin voit son taux de succès en entraînement augmenter de 40,6 points de pourcentage par rapport aux méthodes existantes. Plus significatif encore, le système permet un transfert zéro-shot vers le hardware Wuji Hand sur des tâches de réorientation de cube et de spinning de stylo, sans fine-tuning supplémentaire.

Ce résultat adresse un verrou central dans la chaîne de données pour la manipulation dextère : le retargeting naïf de démonstrations humaines introduit des artefacts de contact et des configurations infaisables qui dégradent directement la politique RL apprise en aval. La capacité à préserver la topologie d'interaction main-objet avec un seul ensemble de paramètres, sans ajustement cas par cas, est un argument fort pour la scalabilité des pipelines de collecte de données. Le transfert zéro-shot vers un hardware physique valide également partiellement la réduction du sim-to-real gap : si la référence de mouvement est topologiquement cohérente, la politique généralisée mieux, y compris vers un robot non vu pendant l'entraînement.

Le retargeting cinématique est un problème ancien dans l'animation et la robotique humanoïde, mais son application systématique à la manipulation dextère à partir de données humaines est plus récente, portée par l'essor des datasets de démonstration comme DEXYCB ou ContactPose. Les approches concurrentes incluent des méthodes d'optimisation directe de la posture (DexPilot, GRAB), ainsi que des frameworks basés sur l'apprentissage par imitation directe ou le mapping de contact. TopoRetarget se distingue par son traitement explicite de la structure topologique des contacts plutôt que de la seule géométrie de pose. Les prochaines étapes naturelles concernent la généralisation à des objets non vus, l'extension à des mains à plus de degrés de liberté, et l'intégration dans des pipelines de collecte de données à grande échelle pour l'entraînement de politiques VLA dextères.

À lire aussi

1arXiv cs.RO

OmniRetarget : génération de données préservant les interactions pour la loco-manipulation corps entier des humanoïdes

OmniRetarget est un pipeline de génération de données pour l'apprentissage par renforcement (RL) sur robots humanoïdes, présenté dans un préprint arXiv (2509.26633, v3). Face au problème du retargeting, qui consiste à convertir des captures de mouvement humain en références cinématiques exploitables par un robot, les méthodes existantes produisent des artefacts physiquement incohérents comme le glissement des pieds (foot-skating) ou la pénétration de surfaces, et ignorent les interactions humain-objet et humain-environnement. OmniRetarget introduit un "interaction mesh", un maillage intermédiaire qui modélise et préserve explicitement les relations spatiales et de contact entre l'agent, le terrain et les objets manipulés, via une minimisation par déformation laplacienne sous contraintes cinématiques. Évalué sur les datasets OMOMO, LAFAN1 et des données MoCap propriétaires, il génère plus de 8 heures de trajectoires de meilleure qualité que les baselines de référence. Appliqué au robot humanoïde Unitree G1, il permet d'exécuter des tâches de parkour et de loco-manipulation sur des horizons allant jusqu'à 30 secondes, entraîné avec seulement 5 termes de récompense et sans curriculum d'apprentissage. L'intérêt pour les chercheurs et intégrateurs réside dans deux apports combinés : la qualité cinématique améliorée réduit le sim-to-real gap, tandis que la préservation des interactions permet d'augmenter une démonstration unique vers différentes morphologies de robots, terrains et configurations d'objets, multipliant l'efficacité de la donnée. Plus significatif encore, l'obtention de comportements de loco-manipulation longs et complexes avec seulement 5 termes de récompense partagés entre toutes les tâches contredit l'hypothèse sectorielle selon laquelle ce type de compétences exige un reward engineering élaboré ou un curriculum progressif. Le paradigme dominant pour l'apprentissage humanoïde repose sur le retargeting MoCap vers des références RL, aux côtés de la télé-opération et de l'imitation directe. Le Unitree G1, produit par le fabricant chinois Unitree Robotics, s'est imposé comme plateforme académique de facto dans ce domaine, face à l'Atlas de Boston Dynamics, aux humanoïdes de Figure AI et d'Agility Robotics. OmniRetarget reste à ce stade une contribution de recherche sans annonce de déploiement industriel ; sa robustesse dans des environnements non structurés, où la géométrie de contact est imprévisible, reste à démontrer hors laboratoire.

RecherchePaper

1 source

2arXiv cs.RO

Distillation de représentations tactiles simulées pour la manipulation dextérique (PTLD)

Des chercheurs ont publié sur arXiv (référence 2603.04531) une méthode baptisée PTLD, pour "Privileged Tactile Latent Distillation", visant à résoudre l'un des verrous fondamentaux de la manipulation dextère robotique : intégrer le retour tactile dans des politiques de contrôle sans disposer de simulation réaliste de capteurs tactiles. L'approche repose sur un entraînement par renforcement en simulation, puis une phase de distillation en monde réel : des capteurs tactiles "privilégiés" (accessibles uniquement lors de la collecte de données réelles) servent à entraîner un estimateur d'état latent, qui est ensuite intégré dans la politique proprioceptive déjà apprise. Sur la tâche de référence de rotation en main (in-hand rotation), PTLD affiche une amélioration de 182 % par rapport à une politique basée uniquement sur la proprioception. Sur la tâche plus difficile de réorientation en main guidée par le toucher, le gain atteint 57 % en nombre d'objectifs atteints. L'enjeu industriel est direct : la manipulation fine avec des mains multi-doigts bute depuis des années sur deux obstacles simultanés, l'impossibilité de simuler fidèlement les capteurs tactiles et le coût prohibitif des démonstrations téléopérées de qualité suffisante. PTLD contourne les deux en découplant apprentissage en simulation (pour la dynamique) et distillation en monde réel (pour le sens du toucher), sans jamais exiger de simulation tactile. Ce résultat valide l'hypothèse que le sim-to-real n'implique pas nécessairement de simuler chaque modalité sensorielle, à condition de concevoir intelligemment la phase de transfert. Pour les intégrateurs et les équipes de R&D travaillant sur l'assemblage précis ou la manipulation d'objets déformables, c'est un signal fort : des politiques robustes sont atteignables sans infrastructure de téléopération lourde. La manipulation dextère avec retour tactile reste un chantier ouvert dans le champ robotique : des acteurs comme Sanctuary AI, Dexterous Robotics, ou encore Shadow Robot explorent des approches similaires, tandis que des laboratoires académiques (Stanford, CMU, MIT) publient régulièrement sur le sim-to-real pour mains multi-doigts. PTLD se distingue en évitant la simulation tactile là où d'autres groupes investissent dans des moteurs physiques spécialisés (ex. Isaac Gym avec contact enrichi). Aucun déploiement industriel n'est annoncé à ce stade, il s'agit d'un résultat académique publié sur preprint ; la reproductibilité sur des plateformes matérielles variées (Allegro, LEAP Hand, Dexterous Hand de Shadow) reste à démontrer.

RecherchePaper

1 source

3arXiv cs.RO

Un modèle de représentation universel pour la manipulation dextérique unifiée

Une équipe de chercheurs propose OHRA (One Hand to Rule Them All), un cadre de représentation canonique paramétrisée visant à unifier les politiques de manipulation dextère sur des mains robotiques de morphologies très différentes. Constat de départ : les politiques d'apprentissage actuelles supposent une architecture de main fixe et ne se transfèrent pas sans réentraînement complet. Le système combine un espace de paramètres unifié capturant les variations cinématiques et morphologiques essentielles, et un format URDF canonique standardisant l'espace d'action tout en préservant les propriétés dynamiques de chaque main d'origine. Un VAE (Variational Autoencoder) est entraîné sur cet espace pour produire un plongement latent compact et sémantiquement cohérent. Résultat clé : la politique de préhension conditionnée sur cette représentation atteint 81,9 % de succès en transfert zéro-shot sur une LEAP Hand à 3 doigts, morphologie non vue pendant l'entraînement, validée en simulation et sur tâches réelles. L'enjeu est directement industriel : la fragmentation des designs de mains, Shadow Robotics, LEAP, Allegro, Ability Hand, rend les politiques non portables d'un hardware à l'autre. Un cadre partagé permettrait à un intégrateur de réentraîner une politique existante sur un nouveau manipulateur sans repartir de zéro, comprimant les coûts de déploiement. Le score de 81,9 % en zéro-shot sur une configuration inédite est un signal mesurable que le "morphology gap", l'analogue du sim-to-real gap appliqué aux architectures de mains, commence à être adressé. Le fait que les interpolations dans l'espace latent produisent des transitions morphologiques physiquement cohérentes indique que le VAE capture une géométrie fonctionnelle, pas seulement statistique. Ce travail s'inscrit dans la dynamique plus large de l'apprentissage cross-embodiment, aux côtés de travaux comme UniDexGrasp, DexGraspNet ou les approches fondées sur des VLA (Vision-Language-Action models). Sur le plan concurrentiel, Google DeepMind, Physical Intelligence (Pi-0) et Unitree investissent dans des politiques généralisables, mais l'angle "unification par représentation canonique de la morphologie de main" reste peu exploré industriellement. Les suites naturelles incluent l'extension à la manipulation bimanuelle, aux mains à plus de 5 doigts, et l'intégration dans des pipelines de téléopération. Aucun déploiement commercial ni partenariat industriel n'est annoncé à ce stade.

RecherchePaper

1 source

4arXiv cs.RO

Le courant comme toucher : retour de contact proprioceptif pour la manipulation dextérique souple

Cette semaine, une équipe de recherche a publié sur arXiv (référence 2607.03529, juillet 2026) un nouveau cadre de contrôle pour la préhension dextre compliante qui se passe entièrement de capteurs tactiles ou de force externes. La méthode s'appuie uniquement sur le courant moteur et l'état des articulations, deux signaux proprioceptifs déjà disponibles nativement sur la plupart des mains robotiques. Plutôt que d'estimer directement la force de contact ou de commander un couple, le système prédit une "position de référence compliante" : une cible de position articulaire destinée à un contrôleur PD standard, dont l'écart de position induit génère la force de préhension appropriée. Les auteurs ont testé l'approche sur plusieurs mains dextres et sur une série de tâches à fort contact physique : manipulation d'objets fragiles, maintien prolongé au contact d'une surface, récupération d'objets fins, et adaptation dynamique à des charges variables. L'intérêt pour l'industrie robotique tient à la promesse de compliance quasi gratuite : aujourd'hui, doter une main robotique de retour de force nécessite des capteurs tactiles ou des capteurs d'effort dédiés, coûteux, fragiles et souvent difficiles à intégrer mécaniquement sur des mains bon marché. En démontrant qu'un signal purement proprioceptif suffit à détecter le contact, la résistance de l'objet et la stabilité de la prise, ce travail ouvre la voie à des mains dextres low-cost capables de manipulation compliante sans matériel de détection additionnel. C'est également une bonne nouvelle pour la téléopération, rendue plus sûre et plus efficace grâce à ce retour de force implicite, ainsi que pour l'apprentissage de politiques (policy learning), qui bénéficie directement de signaux de contact exploitables sans capteur externe à calibrer. Ce travail s'inscrit dans une tendance de fond de la recherche en manipulation dextre : contourner les limites du tactile artificiel (durabilité, coût, intégration) en exploitant des signaux internes déjà présents dans la chaîne de commande moteur. Le choix d'une formulation en position, compatible avec les pipelines de téléopération et d'apprentissage de politiques déjà en place, suggère une intégration facilitée dans les architectures existantes plutôt qu'une rupture technique nécessitant une refonte du matériel. Les prochaines étapes attendues concernent le passage à l'échelle sur des plateformes commerciales et la comparaison directe avec des mains équipées de capteurs tactiles classiques.

RecherchePaper

1 source