RecherchearXiv cs.RO2h

Transfert pré-entraînement tactile transférable centré sur l'humain pour la manipulation robotique dextérique

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Les auteurs de cette étude publient H-Tac, un jeu de données tactile-action à grande échelle constitué de 160 heures de vidéos humaines à la première personne, couvrant plus de 300 tâches et totalisant 135 000 épisodes. À partir de cette base, ils proposent Transferable Tactile Pre-Training (TTP), un système de pré-entraînement fondé sur le sens tactile humain, destiné à transférer des compétences de manipulation fine vers des robots. La méthode s'appuie sur des espaces tactiles et d'action unifiés, maintenus identiques pendant les phases de pré-entraînement et de post-entraînement, afin de préserver les connaissances acquises lors du passage de l'humain au robot. Un module expert dédié prédit l'évolution future du signal tactile, ce qui permet de modéliser explicitement la dynamique de contact et les interactions physiques fines. Les auteurs rapportent des performances supérieures aux approches existantes, en simulation comme sur robots réels, avec une bonne capacité de généralisation.

Ce travail cible un verrou connu du secteur robotique: le toucher reste la modalité la moins exploitée dans les modèles Vision-Language-Action, alors qu'il est indispensable pour les tâches riches en contact où la vision seule ne suffit pas à estimer une force appliquée. Les jeux de données tactiles existants restent petits et couvrent peu de types de contacts, ce qui limite le plafond de performance des modèles VLA tactiles, dont le post-entraînement reste largement indifférent à la dynamique physique. En s'appuyant sur des vidéos humaines plutôt que sur de la téléopération robotique coûteuse à collecter, H-Tac vise à lever ce goulot d'étranglement de données, une stratégie déjà explorée pour le pré-entraînement d'actions mais rarement appliquée au tactile à cette échelle. Si les résultats se confirment sur d'autres plateformes, cela pourrait rapprocher les robots manipulateurs dextres de tâches fines comme l'insertion de précision ou la manipulation d'objets déformables, au-delà des démonstrations scénarisées.

L'article s'inscrit dans la lignée des modèles VLA récents (Pi-0, GR00T N2, Helix) qui combinent perception visuelle et langage mais négligent généralement le retour tactile faute de données adaptées. Publié sur arXiv (2607.01067v1) début juillet 2026, ce travail reste au stade de la recherche académique: aucun partenariat industriel ni déploiement commercial n'est mentionné, et les auteurs présentent TTP comme une preuve de concept ouvrant la voie à un pré-entraînement tactile transférable et passant à l'échelle, plutôt que comme un produit prêt à l'emploi.

Dans nos dossiers

NVIDIA GR00T Manipulation robotique arXiv cs.RO

À lire aussi

1arXiv cs.RO

De la préhension à la dextérité : pré-entraînement à grande échelle pour la manipulation dextérique

Des chercheurs publient sur arXiv un nouveau papier intitulé "From Grasps to Dexterity: Large-Scale Grasp Pretraining for Dexterous Manipulation", qui s'attaque à un problème precis de la manipulation dextre robotique: utiliser un simple geste de préhension pour ensuite manipuler un outil articulé (actionner une gâchette, tourner une molette, ouvrir une pince) plutôt que de simplement le saisir et le poser. L'équipe construit un jeu de données de 355 000 trajectoires à partir d'annotations de préhension dextre à grande échelle, utilisé pour préentraîner un contrôleur bas niveau conditionné par objectif, lui-même piloté par un module haut niveau qui prédit les sous-objectifs de la main. Ce contrôleur est ensuite affiné sur des démonstrations spécifiques à chaque tâche. Pour évaluer l'approche, les auteurs introduisent DexCraft, un banc d'essai en simulation comportant six tâches d'usage d'outils articulés nécessitant une coordination fine des doigts. En conditions réelles, la méthode améliore le taux de réussite complet des tâches de 33,3 points de pourcentage par rapport à la référence DP3, et dépasse aussi les politiques de diffusion entraînées de bout en bout ainsi que les architectures hiérarchiques entraînées depuis zéro. L'intérêt pour l'industrie tient au fait que la plupart des grands jeux de données de préhension dextre existants n'avaient jusqu'ici servi qu'à générer des prises ou à faire du pick-and-place, une tâche relativement simple comparée à l'usage fonctionnel d'un outil, qui exige de maintenir le contact tout en actionnant une pièce mobile. Démontrer qu'un préentraînement sur des données de grasping generalise à ce type de manipulation contact-riche est un signal utile pour les équipes qui travaillent sur des mains robotiques multi-doigts, notamment dans le contexte des humanoïdes où la dextérité fine reste un goulot d'étranglement bien plus limitant que la locomotion. Cela va dans le sens d'une hypothèse défendue par plusieurs laboratoires: les grands corpus de démonstration, même génériques, peuvent servir de socle de préentraînement réutilisable plutôt que d'être collectés tâche par tâche. Ce travail s'inscrit dans la lignée des approches hiérarchiques d'apprentissage par imitation combinant planification haut niveau et contrôle bas niveau, un courant de recherche actif face aux politiques de diffusion de bout en bout comme DP3, utilisées ici comme référence de comparaison. Il s'agit à ce stade d'un résultat académique publié sur arXiv, testé en simulation via DexCraft et validé par des expériences réelles limitées, et non d'un système déployé commercialement. Les auteurs mettent à disposition des vidéos de démonstration sur leur page de projet, mais aucune date de mise en open source du code ni de partenariat industriel n'est mentionnée dans le résumé.

RecherchePaper

1 source

2arXiv cs.RO

HABIT : jeu de données pour l'entraînement de la manipulation robotique sensible aux comportements humains

Des chercheurs publient HABIT (Human-Aware Behavior and Interaction Training), un jeu de données de démonstration pour l'apprentissage de politiques de manipulation robotique en présence humaine, décrit dans un article déposé sur arXiv (identifiant 2606.31682, juin 2026). Le corpus rassemble plus de 10 000 épisodes et 160 heures d'enregistrements couvrant 60 tâches, organisées selon trois rôles d'interaction homme-robot : « Collaborateur », où humain et robot accomplissent une tâche ensemble, « Collègue », où ils opèrent des tâches séparées dans un espace partagé, et « Superviseur », où l'humain dirige le robot par instructions. Contrairement aux jeux de données existants pour les politiques robotiques généralistes, collectés sans présence humaine dans la scène, HABIT introduit explicitement des humains dans les démonstrations. L'enjeu est la capacité des robots à adopter des comportements conscients de la présence humaine, un angle mort des grands corpus qui alimentent aujourd'hui les politiques VLA (vision-langage-action). Les expériences montrent que l'entraînement sur données incluant des humains fait émerger des comportements que les données robot seul ne produisent pas : synchronisation spatio-temporelle dans les tâches de collaboration, cession de passage dans les tâches de coexistence, et ancrage gestuel pour interpréter les instructions du superviseur. Les auteurs indiquent aussi que l'entraînement sur HABIT accélère l'adaptation à de nouvelles tâches d'interaction homme-robot. Pour les intégrateurs qui déploient des robots en usine ou en entrepôt aux côtés d'opérateurs, c'est un signal que la cohabitation sûre et fluide dépend moins du matériel que de la composition des données d'entraînement, un manque que la course aux modèles fondation robotiques a largement laissé de côté. HABIT s'inscrit dans la lignée des grands corpus type Open X-Embodiment ou DROID, qui ont permis l'essor des politiques généralistes telles que Pi-0 ou GR00T N2 mais restent tournés vers des scènes sans humains, un manque que plusieurs équipes académiques cherchent désormais à combler à mesure que les humanoïdes et bras collaboratifs sortent des lignes de démonstration pour entrer dans des ateliers occupés. À ce stade, HABIT reste une publication de recherche accompagnée d'un jeu de données, sans annonce de produit ni de partenariat industriel ; sa portée dépendra de son adoption par d'autres laboratoires pour entraîner et comparer leurs politiques sur des tâches de collaboration homme-robot.

RecherchePaper

1 source

3arXiv cs.RO

« RoboTacDex : un jeu de données visuo-tactile-action dextérique pour la manipulation humanoïde »

Voici l'article traduit et résumé selon les consignes éditoriales : Une équipe de chercheurs en robot learning publie RoboTacDex, un jeu de données de manipulation dextre construit sur le robot humanoïde Unitree G1, accessible publiquement. L'ensemble comprend 6 000 trajectoires couvrant 19 tâches, 23 compétences distinctes et des interactions avec 22 objets différents. Chaque trajectoire embarque des flux RGB et de profondeur multi-vues, un retour tactile et des annotations sémantiques détaillées. Pour garantir la qualité de la collecte, les auteurs ont développé un système de synchronisation multi-caméras capable d'aligner les différentes modalités à la milliseconde près. Le jeu de données cible volontairement des tâches complexes, réalisables uniquement avec deux bras et des mains dextres, pour se rapprocher de la logique opérationnelle humaine. Trois modèles d'apprentissage par imitation ont été testés dessus, avec des résultats jugés positifs et une capacité de généralisation modérée sur l'ensemble des tâches. Le dataset sera open-source prochainement. L'enjeu dépasse la simple publication académique : l'apprentissage par imitation pour la manipulation bimanuelle dextre souffre d'un manque chronique de démonstrations diversifiées et multimodales, la plupart des jeux de données existants se limitant à la vision RGB seule. L'ajout systématique du tactile et d'une synchronisation précise entre capteurs comble un vide identifié par plusieurs laboratoires travaillant sur des modèles vision-langage-action (VLA). Pour les équipes qui entraînent ce type de modèles, disposer de données ouvertes et denses sur une plateforme humanoïde standardisée réduit la dépendance aux jeux de données propriétaires des grands acteurs américains. Le choix du Unitree G1, plateforme humanoïde relativement abordable et largement diffusée dans les laboratoires de recherche, s'inscrit dans une dynamique d'ouverture des données robotiques comparable à des initiatives comme Open X-Embodiment. Ce positionnement contraste avec les approches propriétaires de Physical Intelligence (Pi-0) ou NVIDIA (GR00T), qui restreignent l'accès à leurs corpus d'entraînement. La mise en open source, annoncée mais pas encore effective à la date de publication du prépublication arXiv, déterminera l'impact réel de RoboTacDex sur la communauté.

RecherchePaper

1 source

4arXiv cs.RO

Planification de mouvements précis pour la manipulation robotique par apprentissage par transfert sans données d'entraînement

Des chercheurs ont publié sur arXiv (arXiv:2606.06041) un framework baptisé iCEM+TL, qui combine la méthode évolutionnaire iCEM (improved Cross-Entropy Method) avec du Transfer Learning pour améliorer la planification de mouvement bas-niveau en robotique de manipulation. L'approche transfère directement les paramètres-clés d'iCEM appris sur des tâches simples vers des tâches plus complexes -- empilage d'objets, glissement, placement en étagère -- sans réentraîner depuis zéro. Complétée par une refonte des fonctions de récompense (Reward Redesign) via décomposition de tâche pour les scénarios d'empilage et de placement en étagère, la méthode atteint des gains de taux de succès allant jusqu'à 23 % en simulation. Elle a ensuite été validée sur un robot réel Franka Emika Panda dans un scénario d'empilage, confirmant la transférabilité sim-to-real de l'approche. L'intérêt principal réside dans l'efficacité d'échantillonnage : iCEM+TL contourne le besoin de longues phases d'entraînement en réutilisant explicitement la connaissance déjà acquise sur des tâches amont. Pour les intégrateurs industriels ou les équipes R&D robotique, cela signifie qu'ajouter une nouvelle tâche de manipulation à un bras existant ne nécessite pas un réentraînement complet -- un gain direct en temps et en coût de déploiement. Le fait que le transfert soit qualifié de "zero-shot" dans le titre mérite toutefois une nuance : il s'agit ici d'un transfert de paramètres entre tâches proches dans un même domaine, et non d'une généralisation à des environnements radicalement différents. Les résultats restent majoritairement issus de simulation, avec une validation robotique limitée à un seul scénario d'empilage -- la robustesse à l'échelle industrielle reste à établir. iCEM est un algorithme de planification en temps réel apparu comme alternative légère aux méthodes d'apprentissage par renforcement profond, notamment pour la manipulation sur bras sériels. Le Franka Emika Panda (7 DOF) est devenu un banc de test standard de la communauté académique, utilisé par des dizaines d'équipes dans le monde. Dans ce paysage, iCEM+TL se positionne en dehors des approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence ou des policies à diffusion qui dominent actuellement les benchmarks de référence tels que RLBench. La suite naturelle serait de tester le framework sur des tâches à horizon plus long, sur d'autres morphologies de robots, et de comparer formellement les gains de temps d'entraînement face aux baselines RL modernes.

RecherchePaper

1 source