OASIS : de la collecte de données en simulation à…

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

42

1arXiv cs.RO

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper

1 source

HumanoidMimicGen : génération de données pour la loco-manipulation par planification corps entier

41

2arXiv cs.RO

HumanoidMimicGen : génération de données pour la loco-manipulation par planification corps entier

Des chercheurs ont présenté HumanoidMimicGen (arXiv:2605.27724), une méthode de génération automatique de données d'apprentissage par imitation pour robots humanoïdes devant à la fois marcher et manipuler des objets. Le problème central: la téléopération pour collecter ces démonstrations est lente et coûteuse, particulièrement difficile pour des humanoïdes dont l'espace d'action composite intègre bras, jambes et torse simultanément. Le système adapte des compétences corps entier riches en contacts à partir d'un petit nombre de démonstrations sources vers de nouveaux états et configurations d'objets, en combinant planification de la locomotion et de la manipulation à un ou deux bras. Un benchmark de simulation en 9 tâches de loco-manipulation valide l'approche: les politiques visuomotrices co-entraînées avec les données générées surpassent de 20% celles entraînées uniquement sur des données réelles. La rareté des données d'entraînement reste le principal verrou au déploiement des humanoïdes en contexte industriel. Les méthodes existantes de génération de données, conçues pour bras fixes, échouent sur les humanoïdes en raison de la coordination complexe entre locomotion et manipulation dans un espace d'état de haute dimension. HumanoidMimicGen apporte un argument concret: multiplier automatiquement les démonstrations à partir de quelques exemples et gagner 20% sur les politiques apprises conteste directement l'hypothèse que les humanoïdes nécessitent obligatoirement des milliers d'heures de téléopération. Pour les décideurs industriels et les intégrateurs, c'est un signal que le goulot des données pourrait être levé par simulation, compressant potentiellement les cycles de développement. HumanoidMimicGen prolonge directement MimicGen, publié en 2023 pour des bras manipulateurs à base fixe. L'extension aux humanoïdes répond à la pression commerciale entre Figure (modèles 01, 02), Agility Robotics (Digit), 1X, Unitree (G1, H1) et Boston Dynamics (Atlas), tous en quête de méthodes d'apprentissage scalables sans exploser les budgets de téléopération. Du côté recherche, Physical Intelligence (pi0) et NVIDIA (GR00T N2) travaillent également sur des politiques visuomotrices corps entier généralisables. Ce travail demeure un résultat académique pré-publication sur arXiv, sans déploiement industriel annoncé et avec des expériences exclusivement en simulation. La robustesse du transfert sim-to-real, non abordée dans ce papier, constituera l'étape critique avant tout passage en conditions réelles.

RecherchePaper

1 source

OmniRetarget : génération de données préservant les interactions pour la loco-manipulation corps entier des humanoïdes

42

3arXiv cs.RO

OmniRetarget : génération de données préservant les interactions pour la loco-manipulation corps entier des humanoïdes

OmniRetarget est un pipeline de génération de données pour l'apprentissage par renforcement (RL) sur robots humanoïdes, présenté dans un préprint arXiv (2509.26633, v3). Face au problème du retargeting, qui consiste à convertir des captures de mouvement humain en références cinématiques exploitables par un robot, les méthodes existantes produisent des artefacts physiquement incohérents comme le glissement des pieds (foot-skating) ou la pénétration de surfaces, et ignorent les interactions humain-objet et humain-environnement. OmniRetarget introduit un "interaction mesh", un maillage intermédiaire qui modélise et préserve explicitement les relations spatiales et de contact entre l'agent, le terrain et les objets manipulés, via une minimisation par déformation laplacienne sous contraintes cinématiques. Évalué sur les datasets OMOMO, LAFAN1 et des données MoCap propriétaires, il génère plus de 8 heures de trajectoires de meilleure qualité que les baselines de référence. Appliqué au robot humanoïde Unitree G1, il permet d'exécuter des tâches de parkour et de loco-manipulation sur des horizons allant jusqu'à 30 secondes, entraîné avec seulement 5 termes de récompense et sans curriculum d'apprentissage. L'intérêt pour les chercheurs et intégrateurs réside dans deux apports combinés : la qualité cinématique améliorée réduit le sim-to-real gap, tandis que la préservation des interactions permet d'augmenter une démonstration unique vers différentes morphologies de robots, terrains et configurations d'objets, multipliant l'efficacité de la donnée. Plus significatif encore, l'obtention de comportements de loco-manipulation longs et complexes avec seulement 5 termes de récompense partagés entre toutes les tâches contredit l'hypothèse sectorielle selon laquelle ce type de compétences exige un reward engineering élaboré ou un curriculum progressif. Le paradigme dominant pour l'apprentissage humanoïde repose sur le retargeting MoCap vers des références RL, aux côtés de la télé-opération et de l'imitation directe. Le Unitree G1, produit par le fabricant chinois Unitree Robotics, s'est imposé comme plateforme académique de facto dans ce domaine, face à l'Atlas de Boston Dynamics, aux humanoïdes de Figure AI et d'Agility Robotics. OmniRetarget reste à ce stade une contribution de recherche sans annonce de déploiement industriel ; sa robustesse dans des environnements non structurés, où la géométrie de contact est imprévisible, reste à démontrer hors laboratoire.

RecherchePaper

1 source

CWI : système d'imitation du corps entier pour la loco-manipulation de robots humanoïdes

34

4arXiv cs.RO

CWI : système d'imitation du corps entier pour la loco-manipulation de robots humanoïdes

Des chercheurs ont publié fin juin 2026 sur arXiv (réf. 2606.27676) le framework CWI (Composite Whole-Body Imitation), une architecture de contrôle pour robots humanoïdes visant à coordonner locomotion et manipulation bimanuelle en simultané. Le système a été évalué en simulation puis déployé sur un LimX Oli, humanoïde pleine taille du fabricant chinois LimX Robotics. L'approche repose sur une dissociation du recours aux données de capture de mouvement (MoCap) : les données MoCap de manipulation diversifiées pilotent le contrôle du haut du corps, tandis que la locomotion est guidée par deux discriminateurs adversariaux (Adversarial Motion Prior, AMP) entraînés sur des clips curatés de marche et d'accroupissement. Une architecture multi-critique réduit les conflits entre objectifs de locomotion, de manipulation et de style de mouvement ; une étape de distillation enseignant-élève produit ensuite une politique conditionnée uniquement sur les poses des mains et des commandes de vitesse et hauteur. La loco-manipulation reste l'un des verrous majeurs de la robotique humanoïde. Les méthodes purement par renforcement, sans MoCap, souffrent de récompenses creuses et nécessitent des curricula finement réglés ; les méthodes imitant le corps entier butent sur le déséquilibre des datasets, les trajectoires de locomotion trop dynamiques dégradant la stabilité globale. CWI propose une dissociation architecturale qui contourne les deux écueils. Le résultat pratique est une téléopération sans équipement MoCap complet, ce qui abaisse le seuil d'intégration industrielle. Pour les intégrateurs et les décideurs B2B, cela signifie qu'un humanoïde capable d'agir dans des environnements mixtes (déplacements et saisie d'objets) devient envisageable sans infrastructure de capture de mouvement coûteuse. Cela dit, la publication ne fournit aucune métrique de temps de cycle ni de volumes de déploiement, ce qui invite à lire ces résultats comme une preuve de concept compétitive, pas comme un produit shipé. CWI s'inscrit dans une vague de travaux combinant apprentissage par renforcement et imitation de mouvement humain, dont l'Adversarial Motion Prior (AMP) de Peng et al. constitue la brique fondatrice. LimX Robotics reste un acteur discret face aux mastodontes du secteur : Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) ou encore Boston Dynamics (Atlas) travaillent sur des architectures comparables intégrant contrôle corps entier et politiques Vision-Language-Action (VLA). CWI ne mentionne ni calendrier de déploiement industriel, ni partenariat commercial : il s'agit d'un preprint arXiv sans revue par les pairs publiée. Les prochaines étapes probables passeront par une validation en conditions réelles plus variées et une publication dans une conférence robotique de référence (ICRA, IROS ou RAL).

RecherchePaper

1 source

OASIS : de la collecte de données en simulation à la loco-manipulation humanoïde en conditions réelles

À lire aussi

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

HumanoidMimicGen : génération de données pour la loco-manipulation par planification corps entier

OmniRetarget : génération de données préservant les interactions pour la loco-manipulation corps entier des humanoïdes

CWI : système d'imitation du corps entier pour la loco-manipulation de robots humanoïdes