VENOM : réseau polyvalent de suivi de mouvement…

Gradients de valeur pour la conception de robots à morphologies multiples

35

1arXiv cs.RO

Gradients de valeur pour la conception de robots à morphologies multiples

Des chercheurs ont publié le 2 juin 2026 sur arXiv (référence 2606.00702) une méthode visant à accélérer la conception de robots via ce qu'ils nomment les "value gradients". Le principe consiste à entraîner une unique fonction de valeur issue du reinforcement learning sur un ensemble varié de morphologies robotiques, puis à utiliser cette fonction, une fois gelée, comme proxy différentiable pour optimiser de nouveaux designs sans relancer de cycle d'apprentissage complet. Les expériences portent sur des modèles entraînés sur jusqu'à 50 robots distincts, couvrant des espaces de conception de plus de 1 100 paramètres continus d'embodiment: longueurs de membres, configurations articulaires, propriétés mécaniques. La méthode a été évaluée sur des variantes perturbées d'un même robot mais aussi sur des morphologies entièrement nouvelles appartenant à des classes non vues à l'entraînement, testant ainsi sa capacité de généralisation. Le problème que ce travail adresse est central en co-conception robotique: optimiser conjointement la morphologie d'un robot et son contrôleur nécessite traditionnellement de relancer un cycle complet de reinforcement learning pour chaque design candidat, une opération computationnellement prohibitive qui freine l'exploration de l'espace de conception. En gelant la fonction de valeur après un premier entraînement généralisé, les auteurs la transforment en oracle différentiable, permettant d'optimiser directement les paramètres physiques via descente de gradient, sans resimulation coûteuse. Au-delà de l'optimisation, l'analyse des gradients permet d'identifier quels paramètres de design ou de contrôle limitent les performances, une capacité analytique précieuse pour les ingénieurs souhaitant localiser des goulots d'étranglement avant d'engager des cycles de prototypage physique coûteux. La co-conception robotique est un domaine actif depuis plusieurs années, avec des approches concurrentes allant des algorithmes évolutionnaires aux méthodes de simulation physique différentiable explorées notamment par MIT CSAIL, ETH Zurich ou Google DeepMind. La particularité de cette contribution est de ne pas exiger de simulateur différentiable lors de l'optimisation: seule la fonction de valeur préentraînée suffit, la rendant potentiellement compatible avec des pipelines de simulation standard non différentiables. Les suites naturelles concernent l'extension à des espaces de conception encore plus larges, des tâches multi-objectifs et des morphologies plus complexes comme les manipulateurs industriels ou les humanoïdes. Il s'agit à ce stade d'une contribution purement académique, sans partenariat industriel ni déploiement annoncé.

RecherchePaper

1 source

Au-delà de la topologie : une représentation en graphe des symétries morphologiques pour les politiques de locomotion

43

2arXiv cs.RO

Au-delà de la topologie : une représentation en graphe des symétries morphologiques pour les politiques de locomotion

Des chercheurs présentent MS-PPO (Morphological Symmetry Proximal Policy Optimization), une architecture d'apprentissage par renforcement pour la locomotion robotique qui encode les symétries morphologiques directement dans la structure du réseau de contrôle. Ce preprint, mis à jour sur arXiv en juin 2026 (identifiant 2512.00727v2), valide l'approche sur deux plateformes commerciales d'Unitree Robotics : le quadrupède Go2 et l'humanoïde G1. À partir du graphe topologique du robot, l'algorithme augmente chaque espace d'observation et d'action avec les transformations de permutation et de signe induites par la symétrie corporelle, produisant un acteur de graphe symétrique-équivariant et un critique invariant. Quatre scénarios sont évalués : suivi de commande de vitesse, pannes asymétriques de joints, généralisation hors distribution, et déploiement zéro-shot du simulateur vers le robot physique. L'enjeu est structurel : les politiques de contrôle actuelles, MLP génériques ou réseaux de graphes (GNN), ignorent comment les grandeurs physiques se transforment symétriquement d'un membre à l'autre. Un quadrupède a quatre pattes quasi-identiques, un humanoïde a deux côtés symétriques, et cette information doit normalement être apprise empiriquement au prix de milliers d'échantillons supplémentaires. MS-PPO l'impose par construction plutôt que par reward shaping ou data augmentation, ce qui, selon les auteurs, améliore simultanément la généralisation aux symétries, la robustesse aux pannes de joints, l'efficacité d'échantillonnage et la compacité du modèle. Le résultat le plus fort reste le transfert sim-to-real zéro-shot : aucun fine-tuning sur le matériel physique, là où le reality gap demeure l'obstacle principal au déploiement industriel. À noter : l'abstract ne fournit pas de métriques chiffrées ; les gains quantifiés sont dans le corps du papier. L'exploitation des symétries en RL de locomotion est un axe de recherche actif depuis les travaux sur les réseaux équivariants et les architectures morpho-symétriques, notamment ceux d'Ordonez-Apraez et al. MS-PPO se positionne comme l'étape suivante : encoder non plus seulement la connectivité mais la physique des transformations dans le graphe. Les plateformes Go2 et G1 d'Unitree Robotics dominent les benchmarks académiques grâce à leur accessibilité commerciale et leur large base d'utilisateurs chercheurs. Aucun acteur européen n'est cité dans l'étude ; côté FR/EU, Wandercraft (Paris, humanoïdes médicaux) et PAL Robotics (Barcelone) développent leurs propres pipelines de contrôle. L'étape suivante attendue pour MS-PPO : validation sur des tâches locomotion-manipulation combinées et des déploiements longue durée hors laboratoire.

UELes laboratoires européens de contrôle locomotion (Wandercraft, PAL Robotics) pourraient appliquer MS-PPO à leurs propres plateformes, mais aucun acteur européen n'est impliqué dans l'étude.

RecherchePaper

1 source

Correspondance de flux équivariante morphologiquement pour la manipulation mobile bimanuelles

49

3arXiv cs.RO

Correspondance de flux équivariante morphologiquement pour la manipulation mobile bimanuelles

Des chercheurs ont publié en mai 2026 (arXiv:2605.12228) une méthode d'apprentissage par imitation qui exploite la symétrie bilatérale des robots bimanuels mobiles pour améliorer leur efficacité d'entraînement et leur généralisation. L'approche, baptisée C₂-equivariant flow matching, formalise la symétrie réflective inhérente aux robots bimanuels autour de leur plan sagittal (le plan vertical séparant le côté gauche du côté droit) et l'intègre directement dans l'architecture de la politique de contrôle. Deux mécanismes d'application sont proposés : une perte d'entraînement régularisée ou un réseau de vitesse intrinsèquement équivariant. La méthode est évaluée sur des tâches de manipulation planaires et en 6 degrés de liberté (6-DoF), puis validée en conditions réelles sur un robot TIAGo++ de PAL Robotics (Barcelone, Espagne). L'intérêt de cette contribution tient à une observation structurelle peu exploitée : savoir accomplir une tâche dans une configuration donnée détermine mécaniquement la solution pour sa configuration en miroir. Pourtant, la quasi-totalité des méthodes d'imitation learning actuelles (ACT, Diffusion Policy, et leurs dérivés) ignorent cette contrainte. En l'intégrant comme biais inductif, les auteurs montrent que les politiques résultantes sont ambidextres et généralisent à zéro-shot vers des configurations en miroir absentes des données d'entraînement. Concrètement, cela réduit le volume de démonstrations nécessaires et supprime le besoin de collecter symétriquement les trajectoires des deux côtés. Pour un intégrateur ou un opérateur industriel déployant un système bimanuel, c'est un levier direct sur le coût de téléopération et de labellisation des données, deux postes majeurs dans le déploiement de la robotique généraliste. Le flow matching est une alternative aux modèles de diffusion : il apprend un champ de vitesse qui transporte une distribution simple vers la distribution cible des actions, avec une formulation plus directe et un entraînement souvent plus stable. Son efficacité en apprentissage robotique a déjà été démontrée par Physical Intelligence avec pi0, qui en fait le coeur de sa politique généraliste. La contribution ici complète ce cadre en y injectant une contrainte de symétrie morphologique, un biais générique potentiellement applicable à toute architecture équivariante. Face aux approches concurrentes de Stanford (Mobile ALOHA), CMU ou des équipes de Boston Dynamics, la méthode se distingue par son caractère généraliste : les auteurs suggèrent que la symétrie exploitée est extensible à d'autres classes de robots présentant des propriétés géométriques analogues, au-delà des seuls humanoïdes bimanuels.

UELa validation en conditions réelles sur le TIAGo++ de PAL Robotics (Barcelone) positionne un acteur européen au cœur d'une avancée en imitation learning bimanuel généraliste, directement applicable par les intégrateurs EU déployant des systèmes bimanuels.

RecherchePaper

1 source

Suivi simplifié : retargeting neural des mouvements pour le contrôle global du robot humanoïde

45

4arXiv cs.RO

Suivi simplifié : retargeting neural des mouvements pour le contrôle global du robot humanoïde

Une équipe de chercheurs a publié NMR (Neural Motion Retargeting), un framework d'apprentissage automatique conçu pour résoudre l'un des verrous fondamentaux de la robotique humanoïde : transférer des mouvements humains bruts vers un robot physique sans générer d'artefacts cinématiques. Testé sur le Unitree G1, un humanoïde à 23 degrés de liberté commercialisé autour de 16 000 dollars, NMR démontre sa capacité sur des tâches dynamiquement exigeantes comme les arts martiaux et la danse. Les résultats publiés montrent une élimination quasi-totale des "joint jumps" (discontinuités articulaires) et une réduction significative des auto-collisions par rapport aux méthodes de référence actuelles, tout en accélérant la convergence des politiques de contrôle en aval. Le problème que NMR adresse est structurel. Les approches traditionnelles par optimisation géométrique sont non-convexes et convergent systématiquement vers des optima locaux, produisant des mouvements physiquement incohérents inutilisables pour l'entraînement de politiques de contrôle. NMR reformule le problème différemment : au lieu de chercher une solution optimale, il apprend la distribution des données de mouvement valides. Le pipeline repose sur CEPR (Clustered-Expert Physics Refinement), qui utilise un VAE pour regrouper les mouvements humains hétérogènes en motifs latents homogènes, puis fait intervenir des experts en reinforcement learning massivement parallèle pour projeter chaque cluster sur le manifold de mouvements réalisables du robot. Ces données haute-fidélité supervisent ensuite un réseau hybride CNN-Transformer non-autoregressif capable de raisonner sur le contexte temporel global, évitant les pièges géométriques locaux. L'implication pour les intégrateurs est directe : un pipeline de retargeting plus robuste signifie moins de curation manuelle des données de démonstration, goulot d'étranglement majeur dans le développement de politiques whole-body. Ce travail s'inscrit dans une compétition intense autour du sim-to-real et du retargeting humain-robot, domaine où s'affrontent des approches comme SMPL-based retargeting, PhysHOI ou encore les pipelines de Berkeley Humanoid. Unitree, fabricant chinois qui positionne le G1 comme plateforme de recherche accessible face aux robots Figure, Agility ou Boston Dynamics, bénéficie directement de ces avancées publiées en open research. La prochaine étape naturelle sera la validation sur des tâches de manipulation en environnement non structuré, où la cohérence whole-body entre locomotion et bras reste le défi non résolu du secteur.

RecherchePaper

1 source

VENOM : réseau polyvalent de suivi de mouvement pour toutes morphologies corporelles

À lire aussi

Gradients de valeur pour la conception de robots à morphologies multiples

Au-delà de la topologie : une représentation en graphe des symétries morphologiques pour les politiques de locomotion

Correspondance de flux équivariante morphologiquement pour la manipulation mobile bimanuelles

Suivi simplifié : retargeting neural des mouvements pour le contrôle global du robot humanoïde