Aller au contenu principal
RecherchearXiv cs.RO2h

TAM : Module d'adaptation du couple pour un transfert de mouvement robuste en manipulation

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (arXiv:2606.06218) le Torque Adaptation Module (TAM), un module appris qui corrige les commandes de couple envoyées au robot pour aligner son comportement sur celui d'un robot de référence idéal. TAM s'insère entre le contrôleur bas niveau et l'interface couple du robot, et opère via deux composants : un encodeur d'historique proprioceptif, qui compresse les états mécaniques récents en représentation latente, et un adaptateur de couple calculant des corrections résiduelles en temps réel. L'évaluation porte sur un bras Franka Panda réel, en transfert zéro-shot, sur trois tâches de manipulation dynamique : un pushing de boîte guidé par vision (apprentissage par renforcement), un retournement d'objet par imitation comportementale (BC), et un équilibrage balle-sur-plateau par MPC.

Le problème adressé est structurant pour l'industrialisation robotique : une politique entraînée sur un robot se dégrade sur une autre instance du même modèle, ou lors d'un changement de charge utile non caractérisée. En manipulation de contact dynamique, un écart de timing de quelques millisecondes suffit à rompre la séquence de contact et faire échouer la tâche. TAM décharge la politique de toute domain randomization sur les paramètres dynamiques du robot, technique qui produit habituellement des comportements trop conservateurs. Sa propriété clé est l'indépendance vis-à-vis de l'espace d'action : les mêmes poids TAM s'appliquent indifféremment à des politiques en cibles articulaires, en cibles d'effecteur terminal, ou en couples directs, ce qui élargit considérablement la portée de réutilisation. En benchmark, TAM surpasse l'identification de système en ligne et la baseline RMA (Rapid Motor Adaptation).

La transférabilité inter-robots constitue l'un des obstacles majeurs à la mise à l'échelle des déploiements industriels. Les approches classiques présentent des compromis bien documentés : la domain randomization sacrifie la performance, la system identification exige des données collectées pour chaque robot ou configuration. TAM propose une troisième voie via un préentraînement multi-robot en simulation randomisée, suivi d'un fine-tuning robot-spécifique sans aucune donnée réelle. L'idée d'adaptation par historique proprioceptif avait été popularisée par RMA autour de 2021 pour les robots quadrupèdes ; TAM l'étend à la manipulation de contact en bras articulé, domaine où la dynamique est nettement plus imprévisible. L'article ne mentionne ni partenaire industriel ni timeline de déploiement : il s'agit d'un travail académique dont la validation à plus grande échelle et sur robots variés reste à établir.

Dans nos dossiers

À lire aussi

HyperSim : un cadre complet de transfert simulation-réel pour la manipulation robotique robuste
1arXiv cs.RO 

HyperSim : un cadre complet de transfert simulation-réel pour la manipulation robotique robuste

Des chercheurs ont publié sur arXiv (arXiv:2605.26638) HyperSim, un framework bout-en-bout conçu pour transférer des politiques de manipulation robotique de la simulation vers le monde réel. La méthode repose sur trois piliers : la synthèse d'environnements haute fidélité visuelle, la génération de trajectoires adversariales, et un co-entraînement mixte simulation/réel. Validée sur 400 exécutions de tâches en conditions réelles, HyperSim atteint des taux de succès sim-to-real de 80 % avec le modèle ACT et 95 % avec π₀ (le modèle VLA de Physical Intelligence). Les politiques entraînées avec des trajectoires adversariales affichent par ailleurs un taux de complétion supérieur de 35 % sous perturbations physiques dynamiques, par rapport aux baselines sans ce module. Ces résultats adressent directement l'un des verrous les plus cités dans le déploiement de robots manipulateurs industriels : le sim-to-real gap, c'est-à-dire la dégradation de performance entre une politique entraînée en simulation et son comportement réel. Un taux de 95 % avec π₀ sur des tâches de manipulation représente un niveau de robustesse rarement publié à cette échelle d'évaluation (400 runs, trois métriques granulaires). Pour les intégrateurs et les équipes R&D, cela valide concrètement l'hypothèse que la donnée synthétique, lorsqu'elle est correctement augmentée et diversifiée, peut substituer en grande partie la collecte physique coûteuse. À noter cependant : l'article ne détaille pas les types de tâches ni les objets testés, ce qui limite l'interprétation de la généralité des résultats. La problématique sim-to-real est au cœur des efforts de plusieurs équipes concurrentes : Google DeepMind (avec RoboVerse et ses pipelines de données synthétiques), Physical Intelligence (dont le modèle π₀ est justement l'un des deux benchmarks utilisés ici), et des laboratoires académiques comme Stanford et CMU. HyperSim se distingue par son approche intégrée plutôt que modulaire, cherchant à traiter simultanément le gap visuel et le gap dynamique. La prochaine étape naturelle, non précisée dans le preprint, serait de tester la généralisation à des plateformes humanoïdes ou des scénarios multi-objet en environnement non structuré.

UELes laboratoires européens en manipulation robotique (CEA-List, INRIA) pourraient intégrer ce framework pour réduire leur dépendance aux démonstrations physiques coûteuses, sans implication institutionnelle directe.

RecherchePaper
1 source
2arXiv cs.RO 

Planification de mouvements précis pour la manipulation robotique par apprentissage par transfert sans données d'entraînement

Des chercheurs ont publié sur arXiv (arXiv:2606.06041) un framework baptisé iCEM+TL, qui combine la méthode évolutionnaire iCEM (improved Cross-Entropy Method) avec du Transfer Learning pour améliorer la planification de mouvement bas-niveau en robotique de manipulation. L'approche transfère directement les paramètres-clés d'iCEM appris sur des tâches simples vers des tâches plus complexes -- empilage d'objets, glissement, placement en étagère -- sans réentraîner depuis zéro. Complétée par une refonte des fonctions de récompense (Reward Redesign) via décomposition de tâche pour les scénarios d'empilage et de placement en étagère, la méthode atteint des gains de taux de succès allant jusqu'à 23 % en simulation. Elle a ensuite été validée sur un robot réel Franka Emika Panda dans un scénario d'empilage, confirmant la transférabilité sim-to-real de l'approche. L'intérêt principal réside dans l'efficacité d'échantillonnage : iCEM+TL contourne le besoin de longues phases d'entraînement en réutilisant explicitement la connaissance déjà acquise sur des tâches amont. Pour les intégrateurs industriels ou les équipes R&D robotique, cela signifie qu'ajouter une nouvelle tâche de manipulation à un bras existant ne nécessite pas un réentraînement complet -- un gain direct en temps et en coût de déploiement. Le fait que le transfert soit qualifié de "zero-shot" dans le titre mérite toutefois une nuance : il s'agit ici d'un transfert de paramètres entre tâches proches dans un même domaine, et non d'une généralisation à des environnements radicalement différents. Les résultats restent majoritairement issus de simulation, avec une validation robotique limitée à un seul scénario d'empilage -- la robustesse à l'échelle industrielle reste à établir. iCEM est un algorithme de planification en temps réel apparu comme alternative légère aux méthodes d'apprentissage par renforcement profond, notamment pour la manipulation sur bras sériels. Le Franka Emika Panda (7 DOF) est devenu un banc de test standard de la communauté académique, utilisé par des dizaines d'équipes dans le monde. Dans ce paysage, iCEM+TL se positionne en dehors des approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence ou des policies à diffusion qui dominent actuellement les benchmarks de référence tels que RLBench. La suite naturelle serait de tester le framework sur des tâches à horizon plus long, sur d'autres morphologies de robots, et de comparer formellement les gains de temps d'entraînement face aux baselines RL modernes.

RecherchePaper
1 source
Détection de contact active pour un transfert d'objet robuste de robot à humain
3arXiv cs.RO 

Détection de contact active pour un transfert d'objet robuste de robot à humain

Une équipe de chercheurs propose une méthode de détection de contact active pour fiabiliser les transferts d'objets de robot à humain, publiée en prépublication sur arXiv (2605.04610, mai 2026). Au lieu d'attendre passivement un signal de saisie, le robot génère des micro-mouvements exploratoires et mesure les forces appliquées en retour par l'humain : une saisie ferme produit des forces dans plusieurs directions, un contact accidentel non. Le système repose sur un modèle bayésien linéaire par morceaux qui estime la probabilité de chaque état de contact à partir de ces réponses en force. Testé avec 12 participants sur 30 objets rigides variés, il atteint un taux de succès de 97,5 %, soit plus de 30 points au-dessus des deux approches passives utilisées comme référence. Les applications visées vont du robot d'assistance à domicile (servir un verre) au bloc opératoire (passer un instrument chirurgical). Ce résultat est significatif car la généralisation inter-objets est précisément le point dur des approches passives (tactile, force/couple) : elles peinent à distinguer saisie ferme et contact fortuit face à la diversité des formes, des masses et des comportements humains. L'active sensing force une perturbation contrôlée qui rend les états ambigus séparables. Pour les intégrateurs et les décideurs industriels, l'enjeu est directement lié à la sécurité : dans un environnement collaboratif ou chirurgical, un relâchement prématuré peut causer un incident grave. Un taux de 97,5 % commence à entrer dans la plage exploitable pour des assistants robotiques en conditions réelles, même si le périmètre du test reste limité (objets rigides, 12 sujets, conditions de laboratoire). La question du handover robot-humain est active en recherche depuis plusieurs années, portée notamment par les domaines de l'assistance à la personne et de la chirurgie robotique. Ce papier est une prépublication non encore évaluée par les pairs, et l'abstract ne mentionne ni institution ni partenaire industriel, ce qui rend difficile l'évaluation de sa trajectoire vers un déploiement réel. Aucune intégration commerciale n'est annoncée. Les suites logiques incluent des tests sur objets déformables ou non rigides, une validation en conditions cliniques contrôlées, et une intégration dans des plateformes à retour d'effort comme les cobots ou les mains de robots humanoïdes qui commencent à offrir les interfaces mécaniques nécessaires à ce type de dialogue haptique.

RecherchePaper
1 source
Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)
4arXiv cs.RO 

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

Une équipe de chercheurs a publié sur arXiv (référence 2604.15938) une proposition architecturale baptisée VADF (Vision-Adaptive Diffusion Policy Framework), visant à corriger deux défauts structurels des politiques de diffusion appliquées à la manipulation robotique. Le premier défaut est le déséquilibre de classe dû à l'échantillonnage uniforme lors de l'entraînement : le modèle traite indistinctement les exemples faciles et difficiles, ce qui ralentit la convergence. Le second est le taux d'échec à l'inférence par dépassement de délai, un problème opérationnel concret dès qu'on sort du laboratoire. VADF intègre deux composants : l'ALN (Adaptive Loss Network), un MLP léger qui prédit en temps réel la difficulté de chaque pas d'entraînement et applique un suréchantillonnage des régions à forte perte via du hard negative mining ; et l'HVTS (Hierarchical Vision Task Segmenter), qui décompose une instruction de haut niveau en sous-tâches visuellement guidées, en assignant des schedules de bruit courts aux actions simples et des schedules longs aux actions complexes, réduisant ainsi la charge computationnelle à l'inférence. L'architecture est conçue model-agnostic, c'est-à-dire intégrable à n'importe quelle implémentation existante de politique de diffusion. L'intérêt pour un intégrateur ou un responsable R&D est avant tout pratique : les politiques de diffusion souffrent de coûts d'entraînement élevés et d'une fiabilité insuffisante en déploiement réel, ce qui freine leur adoption industrielle. Si les gains annoncés par VADF se confirment sur des benchmarks indépendants, la réduction des étapes de convergence représenterait un levier significatif sur les coûts GPU, et la diminution des timeouts à l'inférence améliorerait directement la cadence opérationnelle. Il faut toutefois noter que ce travail est un preprint non évalué par des pairs, sans chiffres de performance comparatifs publiés dans l'article lui-même. Les politiques de diffusion ont émergé comme méthode de choix pour l'imitation comportementale en robotique depuis les travaux de Chi et al. en 2023 (Diffusion Policy, Columbia), avant d'être intégrées dans des architectures plus larges comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La principale tension du domaine reste le sim-to-real gap et la robustesse à l'inférence en conditions réelles, terrain sur lequel VADF prétend apporter une contribution. Les prochaines étapes logiques seraient une validation sur des benchmarks standard (RLBench, LIBERO) et une comparaison directe avec ACT ou Diffusion Policy de référence.

RecherchePaper
1 source