Aller au contenu principal
VENOM : réseau polyvalent de suivi de mouvement pour toutes morphologies corporelles
RecherchearXiv cs.RO4h

VENOM : réseau polyvalent de suivi de mouvement pour toutes morphologies corporelles

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2606.16696) VENOM, un modèle de suivi de mouvement corps entier conçu pour fonctionner sur plusieurs plateformes humanoïdes distinctes sans adaptation spécifique à chaque châssis. L'architecture repose sur un transformeur de type GPT entraîné sur le VENOM dataset, un jeu de données multi-humanoïdes constitué par l'équipe, qui rassemble états, actions et récompenses issus de plusieurs morphologies robotiques. L'originalité principale réside dans l'abandon du découplage classique haut/bas du corps : VENOM produit une politique unifiée qui contrôle simultanément l'ensemble des degrés de liberté. Les évaluations, conduites en simulation, montrent que le modèle surpasse un perceptron multicouche (MLP) entraîné par apprentissage supervisé sur les mêmes données et qu'il égale les performances d'experts formés par renforcement asymétrique acteur-critique, sans jamais avoir eu accès aux signaux de récompense pendant l'entraînement.

L'enjeu est structurant pour la filière humanoïde : la majorité des politiques de suivi de mouvement publiées à ce jour segmentent le corps en sous-problèmes distincts, ce qui complique le transfert entre robots aux cinématiques différentes. Une politique cross-embodiment unifiée réduit le coût d'adaptation lorsqu'un intégrateur doit passer d'un châssis à un autre, ou lorsqu'un constructeur révise sa plateforme mécanique. Plus significatif encore, VENOM démontre qu'une architecture de type language model peut absorber la diversité des morphologies sans supervision par récompense explicite, simplifiant ainsi le pipeline d'entraînement. Il faut néanmoins souligner que toutes les expériences restent confinées à la simulation : l'écart sim-to-real n'est pas abordé, et les métriques annoncées ne valident pas encore un comportement physique sur robot réel.

Ce travail s'inscrit dans un courant actif qui cherche à généraliser les politiques de contrôle au-delà d'un seul robot, dans la lignée de travaux comme Universal Humanoid Controller ou ExBody. Sur le front industriel, les grands déploiements humanoïdes actuels (Boston Dynamics Atlas, Agility Robotics Digit, Figure 02, Unitree H1) imposent chacun leurs propres pipelines de contrôle propriétaires, ce qui rend le problème du cross-embodiment économiquement pertinent pour tout intégrateur multi-plateforme. VENOM est un preprint non encore évalué par les pairs, le terme "letter" employé dans le texte suggérant une soumission vers une revue IEEE telle que RA-L ; la suite logique serait une validation sur au moins deux plateformes physiques pour établir la robustesse du transfert sim-to-real.

À lire aussi

Gradients de valeur pour la conception de robots à morphologies multiples
1arXiv cs.RO 

Gradients de valeur pour la conception de robots à morphologies multiples

Des chercheurs ont publié le 2 juin 2026 sur arXiv (référence 2606.00702) une méthode visant à accélérer la conception de robots via ce qu'ils nomment les "value gradients". Le principe consiste à entraîner une unique fonction de valeur issue du reinforcement learning sur un ensemble varié de morphologies robotiques, puis à utiliser cette fonction, une fois gelée, comme proxy différentiable pour optimiser de nouveaux designs sans relancer de cycle d'apprentissage complet. Les expériences portent sur des modèles entraînés sur jusqu'à 50 robots distincts, couvrant des espaces de conception de plus de 1 100 paramètres continus d'embodiment: longueurs de membres, configurations articulaires, propriétés mécaniques. La méthode a été évaluée sur des variantes perturbées d'un même robot mais aussi sur des morphologies entièrement nouvelles appartenant à des classes non vues à l'entraînement, testant ainsi sa capacité de généralisation. Le problème que ce travail adresse est central en co-conception robotique: optimiser conjointement la morphologie d'un robot et son contrôleur nécessite traditionnellement de relancer un cycle complet de reinforcement learning pour chaque design candidat, une opération computationnellement prohibitive qui freine l'exploration de l'espace de conception. En gelant la fonction de valeur après un premier entraînement généralisé, les auteurs la transforment en oracle différentiable, permettant d'optimiser directement les paramètres physiques via descente de gradient, sans resimulation coûteuse. Au-delà de l'optimisation, l'analyse des gradients permet d'identifier quels paramètres de design ou de contrôle limitent les performances, une capacité analytique précieuse pour les ingénieurs souhaitant localiser des goulots d'étranglement avant d'engager des cycles de prototypage physique coûteux. La co-conception robotique est un domaine actif depuis plusieurs années, avec des approches concurrentes allant des algorithmes évolutionnaires aux méthodes de simulation physique différentiable explorées notamment par MIT CSAIL, ETH Zurich ou Google DeepMind. La particularité de cette contribution est de ne pas exiger de simulateur différentiable lors de l'optimisation: seule la fonction de valeur préentraînée suffit, la rendant potentiellement compatible avec des pipelines de simulation standard non différentiables. Les suites naturelles concernent l'extension à des espaces de conception encore plus larges, des tâches multi-objectifs et des morphologies plus complexes comme les manipulateurs industriels ou les humanoïdes. Il s'agit à ce stade d'une contribution purement académique, sans partenariat industriel ni déploiement annoncé.

RecherchePaper
1 source
Correspondance de flux équivariante morphologiquement pour la manipulation mobile bimanuelles
2arXiv cs.RO 

Correspondance de flux équivariante morphologiquement pour la manipulation mobile bimanuelles

Des chercheurs ont publié en mai 2026 (arXiv:2605.12228) une méthode d'apprentissage par imitation qui exploite la symétrie bilatérale des robots bimanuels mobiles pour améliorer leur efficacité d'entraînement et leur généralisation. L'approche, baptisée C₂-equivariant flow matching, formalise la symétrie réflective inhérente aux robots bimanuels autour de leur plan sagittal (le plan vertical séparant le côté gauche du côté droit) et l'intègre directement dans l'architecture de la politique de contrôle. Deux mécanismes d'application sont proposés : une perte d'entraînement régularisée ou un réseau de vitesse intrinsèquement équivariant. La méthode est évaluée sur des tâches de manipulation planaires et en 6 degrés de liberté (6-DoF), puis validée en conditions réelles sur un robot TIAGo++ de PAL Robotics (Barcelone, Espagne). L'intérêt de cette contribution tient à une observation structurelle peu exploitée : savoir accomplir une tâche dans une configuration donnée détermine mécaniquement la solution pour sa configuration en miroir. Pourtant, la quasi-totalité des méthodes d'imitation learning actuelles (ACT, Diffusion Policy, et leurs dérivés) ignorent cette contrainte. En l'intégrant comme biais inductif, les auteurs montrent que les politiques résultantes sont ambidextres et généralisent à zéro-shot vers des configurations en miroir absentes des données d'entraînement. Concrètement, cela réduit le volume de démonstrations nécessaires et supprime le besoin de collecter symétriquement les trajectoires des deux côtés. Pour un intégrateur ou un opérateur industriel déployant un système bimanuel, c'est un levier direct sur le coût de téléopération et de labellisation des données, deux postes majeurs dans le déploiement de la robotique généraliste. Le flow matching est une alternative aux modèles de diffusion : il apprend un champ de vitesse qui transporte une distribution simple vers la distribution cible des actions, avec une formulation plus directe et un entraînement souvent plus stable. Son efficacité en apprentissage robotique a déjà été démontrée par Physical Intelligence avec pi0, qui en fait le coeur de sa politique généraliste. La contribution ici complète ce cadre en y injectant une contrainte de symétrie morphologique, un biais générique potentiellement applicable à toute architecture équivariante. Face aux approches concurrentes de Stanford (Mobile ALOHA), CMU ou des équipes de Boston Dynamics, la méthode se distingue par son caractère généraliste : les auteurs suggèrent que la symétrie exploitée est extensible à d'autres classes de robots présentant des propriétés géométriques analogues, au-delà des seuls humanoïdes bimanuels.

UELa validation en conditions réelles sur le TIAGo++ de PAL Robotics (Barcelone) positionne un acteur européen au cœur d'une avancée en imitation learning bimanuel généraliste, directement applicable par les intégrateurs EU déployant des systèmes bimanuels.

RecherchePaper
1 source
Suivi simplifié : retargeting neural des mouvements pour le contrôle global du robot humanoïde
3arXiv cs.RO 

Suivi simplifié : retargeting neural des mouvements pour le contrôle global du robot humanoïde

Une équipe de chercheurs a publié NMR (Neural Motion Retargeting), un framework d'apprentissage automatique conçu pour résoudre l'un des verrous fondamentaux de la robotique humanoïde : transférer des mouvements humains bruts vers un robot physique sans générer d'artefacts cinématiques. Testé sur le Unitree G1, un humanoïde à 23 degrés de liberté commercialisé autour de 16 000 dollars, NMR démontre sa capacité sur des tâches dynamiquement exigeantes comme les arts martiaux et la danse. Les résultats publiés montrent une élimination quasi-totale des "joint jumps" (discontinuités articulaires) et une réduction significative des auto-collisions par rapport aux méthodes de référence actuelles, tout en accélérant la convergence des politiques de contrôle en aval. Le problème que NMR adresse est structurel. Les approches traditionnelles par optimisation géométrique sont non-convexes et convergent systématiquement vers des optima locaux, produisant des mouvements physiquement incohérents inutilisables pour l'entraînement de politiques de contrôle. NMR reformule le problème différemment : au lieu de chercher une solution optimale, il apprend la distribution des données de mouvement valides. Le pipeline repose sur CEPR (Clustered-Expert Physics Refinement), qui utilise un VAE pour regrouper les mouvements humains hétérogènes en motifs latents homogènes, puis fait intervenir des experts en reinforcement learning massivement parallèle pour projeter chaque cluster sur le manifold de mouvements réalisables du robot. Ces données haute-fidélité supervisent ensuite un réseau hybride CNN-Transformer non-autoregressif capable de raisonner sur le contexte temporel global, évitant les pièges géométriques locaux. L'implication pour les intégrateurs est directe : un pipeline de retargeting plus robuste signifie moins de curation manuelle des données de démonstration, goulot d'étranglement majeur dans le développement de politiques whole-body. Ce travail s'inscrit dans une compétition intense autour du sim-to-real et du retargeting humain-robot, domaine où s'affrontent des approches comme SMPL-based retargeting, PhysHOI ou encore les pipelines de Berkeley Humanoid. Unitree, fabricant chinois qui positionne le G1 comme plateforme de recherche accessible face aux robots Figure, Agility ou Boston Dynamics, bénéficie directement de ces avancées publiées en open research. La prochaine étape naturelle sera la validation sur des tâches de manipulation en environnement non structuré, où la cohérence whole-body entre locomotion et bras reste le défi non résolu du secteur.

RecherchePaper
1 source
ConTrack : suivi du mouvement des mains sous contraintes avec contrôle adaptatif des compromis
4arXiv cs.RO 

ConTrack : suivi du mouvement des mains sous contraintes avec contrôle adaptatif des compromis

ConTrack, un cadre d'apprentissage par renforcement (RL) publié sur arXiv en juin 2026 (arXiv:2606.03177), s'attaque à l'un des verrous les plus persistants de la manipulation dextère robotique : transférer fidèlement des démonstrations humaines vers un robot réel, en particulier dans des séquences longues impliquant de nombreux contacts. Le problème central, dit "kinematic gap", tient au fait qu'une politique de suivi doit simultanément maintenir les objets sur leurs trajectoires cibles, respecter la cinématique articulaire démontrée et reproduire les timings de contact, le tout sans pouvoir ajuster ses paramètres séquence par séquence. ConTrack résout cela en reformulant le suivi d'objet comme une contrainte plutôt que comme un terme de récompense : l'autorité de contrôle résiduelle est allouée à la fidélité du mouvement, et un mécanisme de mise à jour de variable duale permet d'ajuster dynamiquement le compromis tâche/style en ligne. Le système intègre également une bibliothèque de réinitialisations adaptatives en milieu de trajectoire, qui réutilise les états du simulateur atteignables par la politique courante pour stabiliser l'apprentissage sur des horizons longs. Les auteurs rapportent des améliorations significatives du taux de succès et de la précision de pose des objets par rapport aux approches existantes, validées à la fois en simulation et sur robot réel. L'intérêt de ConTrack pour les équipes de recherche et les intégrateurs robotiques tient à son passage à l'échelle : là où les méthodes précédentes nécessitaient un tuning manuel de la fonction de récompense pour chaque nouvelle séquence, l'approche par contraintes s'affranchit de ce goulot d'étranglement. C'est précisément ce type de réglage par séquence qui rendait les pipelines de manipulation dextère difficilement industrialisables. En séparant l'objectif de suivi d'objet de la préservation du style moteur, ConTrack offre une architecture plus modulaire, potentiellement applicable à des datasets de démonstrations humaines à grande échelle, un axe central dans les travaux récents sur les Visual Language Action (VLA) policies. Ce travail s'inscrit dans un courant très actif du sim-to-real pour la manipulation fine, aux côtés de travaux comme DexMimic, AnyTeleop ou les pipelines de l'équipe Stanford IRIS. L'absence d'affiliation institutionnelle explicite dans le résumé arXiv rend difficile le positionnement compétitif précis, mais la problématique rejoint directement les défis que rencontrent des acteurs comme Physical Intelligence (pi0), Dexterous AI ou les équipes manipulation de Boston Dynamics et Figure. La prochaine étape naturelle serait une évaluation sur des benchmarks standards comme DexArt ou TACO, et une validation sur une plus grande diversité de morphologies de mains robotiques. Il s'agit pour l'instant d'un preprint académique, sans déploiement industriel annoncé.

RecherchePaper
1 source