RecherchearXiv cs.RO 5 juin 2026

TAM : Module d'adaptation du couple pour un transfert de mouvement robuste en manipulation

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (arXiv:2606.06218) le Torque Adaptation Module (TAM), un module appris qui corrige les commandes de couple envoyées au robot pour aligner son comportement sur celui d'un robot de référence idéal. TAM s'insère entre le contrôleur bas niveau et l'interface couple du robot, et opère via deux composants : un encodeur d'historique proprioceptif, qui compresse les états mécaniques récents en représentation latente, et un adaptateur de couple calculant des corrections résiduelles en temps réel. L'évaluation porte sur un bras Franka Panda réel, en transfert zéro-shot, sur trois tâches de manipulation dynamique : un pushing de boîte guidé par vision (apprentissage par renforcement), un retournement d'objet par imitation comportementale (BC), et un équilibrage balle-sur-plateau par MPC.

Le problème adressé est structurant pour l'industrialisation robotique : une politique entraînée sur un robot se dégrade sur une autre instance du même modèle, ou lors d'un changement de charge utile non caractérisée. En manipulation de contact dynamique, un écart de timing de quelques millisecondes suffit à rompre la séquence de contact et faire échouer la tâche. TAM décharge la politique de toute domain randomization sur les paramètres dynamiques du robot, technique qui produit habituellement des comportements trop conservateurs. Sa propriété clé est l'indépendance vis-à-vis de l'espace d'action : les mêmes poids TAM s'appliquent indifféremment à des politiques en cibles articulaires, en cibles d'effecteur terminal, ou en couples directs, ce qui élargit considérablement la portée de réutilisation. En benchmark, TAM surpasse l'identification de système en ligne et la baseline RMA (Rapid Motor Adaptation).

La transférabilité inter-robots constitue l'un des obstacles majeurs à la mise à l'échelle des déploiements industriels. Les approches classiques présentent des compromis bien documentés : la domain randomization sacrifie la performance, la system identification exige des données collectées pour chaque robot ou configuration. TAM propose une troisième voie via un préentraînement multi-robot en simulation randomisée, suivi d'un fine-tuning robot-spécifique sans aucune donnée réelle. L'idée d'adaptation par historique proprioceptif avait été popularisée par RMA autour de 2021 pour les robots quadrupèdes ; TAM l'étend à la manipulation de contact en bras articulé, domaine où la dynamique est nettement plus imprévisible. L'article ne mentionne ni partenaire industriel ni timeline de déploiement : il s'agit d'un travail académique dont la validation à plus grande échelle et sur robots variés reste à établir.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

HyperSim : un cadre complet de transfert simulation-réel pour la manipulation robotique robuste

Des chercheurs ont publié sur arXiv (arXiv:2605.26638) HyperSim, un framework bout-en-bout conçu pour transférer des politiques de manipulation robotique de la simulation vers le monde réel. La méthode repose sur trois piliers : la synthèse d'environnements haute fidélité visuelle, la génération de trajectoires adversariales, et un co-entraînement mixte simulation/réel. Validée sur 400 exécutions de tâches en conditions réelles, HyperSim atteint des taux de succès sim-to-real de 80 % avec le modèle ACT et 95 % avec π₀ (le modèle VLA de Physical Intelligence). Les politiques entraînées avec des trajectoires adversariales affichent par ailleurs un taux de complétion supérieur de 35 % sous perturbations physiques dynamiques, par rapport aux baselines sans ce module. Ces résultats adressent directement l'un des verrous les plus cités dans le déploiement de robots manipulateurs industriels : le sim-to-real gap, c'est-à-dire la dégradation de performance entre une politique entraînée en simulation et son comportement réel. Un taux de 95 % avec π₀ sur des tâches de manipulation représente un niveau de robustesse rarement publié à cette échelle d'évaluation (400 runs, trois métriques granulaires). Pour les intégrateurs et les équipes R&D, cela valide concrètement l'hypothèse que la donnée synthétique, lorsqu'elle est correctement augmentée et diversifiée, peut substituer en grande partie la collecte physique coûteuse. À noter cependant : l'article ne détaille pas les types de tâches ni les objets testés, ce qui limite l'interprétation de la généralité des résultats. La problématique sim-to-real est au cœur des efforts de plusieurs équipes concurrentes : Google DeepMind (avec RoboVerse et ses pipelines de données synthétiques), Physical Intelligence (dont le modèle π₀ est justement l'un des deux benchmarks utilisés ici), et des laboratoires académiques comme Stanford et CMU. HyperSim se distingue par son approche intégrée plutôt que modulaire, cherchant à traiter simultanément le gap visuel et le gap dynamique. La prochaine étape naturelle, non précisée dans le preprint, serait de tester la généralisation à des plateformes humanoïdes ou des scénarios multi-objet en environnement non structuré.

UELes laboratoires européens en manipulation robotique (CEA-List, INRIA) pourraient intégrer ce framework pour réduire leur dépendance aux démonstrations physiques coûteuses, sans implication institutionnelle directe.

RecherchePaper

1 source

2arXiv cs.RO

DynaWM : un modèle du monde guidé par un VLA de base pour la manipulation d'objets en mouvement

DynaWM, un nouveau modèle du monde ("world foundation model") piloté par des architectures vision-langage-action (VLA), vient d'être présenté dans un preprint publié sur arXiv début juillet 2026. Le système cible un point faible connu des modèles VLA actuels : la manipulation d'objets en mouvement. Techniquement, DynaWM combine trois briques, un encodeur d'actions basé sur Mamba-3 qui traite les séquences d'actions produites par le modèle VLA de base, un encodeur visuel V-JEPA 2.1 qui exploite l'historique d'observations multi-vues, et un encodeur d'état proprioceptif du bras robotique, le tout conditionnant un transformeur à diffusion par flow-matching qui régénère des trajectoires d'action adaptées au mouvement de l'objet. Les auteurs ont aussi construit deux jeux de données : le benchmark DynaGrasp-32, qui couvre six catégories de tâches (variation de vitesse, de trajectoire, manipulation multi-objets), et DynaGrasp-1600, soit 32 scénarios, 1 600 démonstrations et environ 1,53 million d'images. Sur des checkpoints VLA finement réglés, DynaWM améliore les taux de réussite de 7,19 à 45,31 points de pourcentage selon le modèle de base (SmolVLA, X-VLA, Pi-0, Pi-0.5) ; sur des checkpoints seulement grossièrement réglés, les gains grimpent à 26 voire 44 points. L'enjeu dépasse la simple performance chiffrée : la plupart des modèles du monde existants sont fine-tunés directement dans l'architecture VLA, ce qui dégrade souvent les capacités du modèle pré-entraîné. En gardant le VLA de base intact et en ajoutant un module de guidage séparé, DynaWM évite ce compromis, un argument qui parle directement aux équipes de recherche en robotique confrontées à la fragilité des VLA lors du fine-tuning. Pour les intégrateurs, cela touche un cas d'usage concret : le tri ou la préhension d'objets sur convoyeur, en environnement non statique, un scénario encore largement absent des démonstrations spectaculaires de préhension immobile. Le travail s'inscrit dans la lignée des modèles VLA généralistes comme Pi-0, Pi-0.5, SmolVLA ou X-VLA, utilisés ici comme bases de comparaison, ainsi que des travaux sur les modèles du monde en robotique et sur l'encodeur visuel auto-supervisé V-JEPA de Meta. À ce stade, il s'agit d'un résultat de recherche académique évalué sur benchmark simulé et jeu de données maison, sans déploiement industriel annoncé ; la suite logique serait une validation sur bras robotiques réels et une comparaison avec d'autres approches de manipulation dynamique comme GR00T N2 ou Helix.

RechercheActu

1 source

3arXiv cs.RO

Planification de mouvements précis pour la manipulation robotique par apprentissage par transfert sans données d'entraînement

Des chercheurs ont publié sur arXiv (arXiv:2606.06041) un framework baptisé iCEM+TL, qui combine la méthode évolutionnaire iCEM (improved Cross-Entropy Method) avec du Transfer Learning pour améliorer la planification de mouvement bas-niveau en robotique de manipulation. L'approche transfère directement les paramètres-clés d'iCEM appris sur des tâches simples vers des tâches plus complexes -- empilage d'objets, glissement, placement en étagère -- sans réentraîner depuis zéro. Complétée par une refonte des fonctions de récompense (Reward Redesign) via décomposition de tâche pour les scénarios d'empilage et de placement en étagère, la méthode atteint des gains de taux de succès allant jusqu'à 23 % en simulation. Elle a ensuite été validée sur un robot réel Franka Emika Panda dans un scénario d'empilage, confirmant la transférabilité sim-to-real de l'approche. L'intérêt principal réside dans l'efficacité d'échantillonnage : iCEM+TL contourne le besoin de longues phases d'entraînement en réutilisant explicitement la connaissance déjà acquise sur des tâches amont. Pour les intégrateurs industriels ou les équipes R&D robotique, cela signifie qu'ajouter une nouvelle tâche de manipulation à un bras existant ne nécessite pas un réentraînement complet -- un gain direct en temps et en coût de déploiement. Le fait que le transfert soit qualifié de "zero-shot" dans le titre mérite toutefois une nuance : il s'agit ici d'un transfert de paramètres entre tâches proches dans un même domaine, et non d'une généralisation à des environnements radicalement différents. Les résultats restent majoritairement issus de simulation, avec une validation robotique limitée à un seul scénario d'empilage -- la robustesse à l'échelle industrielle reste à établir. iCEM est un algorithme de planification en temps réel apparu comme alternative légère aux méthodes d'apprentissage par renforcement profond, notamment pour la manipulation sur bras sériels. Le Franka Emika Panda (7 DOF) est devenu un banc de test standard de la communauté académique, utilisé par des dizaines d'équipes dans le monde. Dans ce paysage, iCEM+TL se positionne en dehors des approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence ou des policies à diffusion qui dominent actuellement les benchmarks de référence tels que RLBench. La suite naturelle serait de tester le framework sur des tâches à horizon plus long, sur d'autres morphologies de robots, et de comparer formellement les gains de temps d'entraînement face aux baselines RL modernes.

RecherchePaper

1 source

4arXiv cs.RO

Transfert pré-entraînement tactile transférable centré sur l'humain pour la manipulation robotique dextérique

Les auteurs de cette étude publient H-Tac, un jeu de données tactile-action à grande échelle constitué de 160 heures de vidéos humaines à la première personne, couvrant plus de 300 tâches et totalisant 135 000 épisodes. À partir de cette base, ils proposent Transferable Tactile Pre-Training (TTP), un système de pré-entraînement fondé sur le sens tactile humain, destiné à transférer des compétences de manipulation fine vers des robots. La méthode s'appuie sur des espaces tactiles et d'action unifiés, maintenus identiques pendant les phases de pré-entraînement et de post-entraînement, afin de préserver les connaissances acquises lors du passage de l'humain au robot. Un module expert dédié prédit l'évolution future du signal tactile, ce qui permet de modéliser explicitement la dynamique de contact et les interactions physiques fines. Les auteurs rapportent des performances supérieures aux approches existantes, en simulation comme sur robots réels, avec une bonne capacité de généralisation. Ce travail cible un verrou connu du secteur robotique: le toucher reste la modalité la moins exploitée dans les modèles Vision-Language-Action, alors qu'il est indispensable pour les tâches riches en contact où la vision seule ne suffit pas à estimer une force appliquée. Les jeux de données tactiles existants restent petits et couvrent peu de types de contacts, ce qui limite le plafond de performance des modèles VLA tactiles, dont le post-entraînement reste largement indifférent à la dynamique physique. En s'appuyant sur des vidéos humaines plutôt que sur de la téléopération robotique coûteuse à collecter, H-Tac vise à lever ce goulot d'étranglement de données, une stratégie déjà explorée pour le pré-entraînement d'actions mais rarement appliquée au tactile à cette échelle. Si les résultats se confirment sur d'autres plateformes, cela pourrait rapprocher les robots manipulateurs dextres de tâches fines comme l'insertion de précision ou la manipulation d'objets déformables, au-delà des démonstrations scénarisées. L'article s'inscrit dans la lignée des modèles VLA récents (Pi-0, GR00T N2, Helix) qui combinent perception visuelle et langage mais négligent généralement le retour tactile faute de données adaptées. Publié sur arXiv (2607.01067v1) début juillet 2026, ce travail reste au stade de la recherche académique: aucun partenariat industriel ni déploiement commercial n'est mentionné, et les auteurs présentent TTP comme une preuve de concept ouvrant la voie à un pré-entraînement tactile transférable et passant à l'échelle, plutôt que comme un produit prêt à l'emploi.

RecherchePaper

1 source