RecherchearXiv cs.RO6sem

HumanoidMimicGen : génération de données pour la loco-manipulation par planification corps entier

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont présenté HumanoidMimicGen (arXiv:2605.27724), une méthode de génération automatique de données d'apprentissage par imitation pour robots humanoïdes devant à la fois marcher et manipuler des objets. Le problème central: la téléopération pour collecter ces démonstrations est lente et coûteuse, particulièrement difficile pour des humanoïdes dont l'espace d'action composite intègre bras, jambes et torse simultanément. Le système adapte des compétences corps entier riches en contacts à partir d'un petit nombre de démonstrations sources vers de nouveaux états et configurations d'objets, en combinant planification de la locomotion et de la manipulation à un ou deux bras. Un benchmark de simulation en 9 tâches de loco-manipulation valide l'approche: les politiques visuomotrices co-entraînées avec les données générées surpassent de 20% celles entraînées uniquement sur des données réelles.

La rareté des données d'entraînement reste le principal verrou au déploiement des humanoïdes en contexte industriel. Les méthodes existantes de génération de données, conçues pour bras fixes, échouent sur les humanoïdes en raison de la coordination complexe entre locomotion et manipulation dans un espace d'état de haute dimension. HumanoidMimicGen apporte un argument concret: multiplier automatiquement les démonstrations à partir de quelques exemples et gagner 20% sur les politiques apprises conteste directement l'hypothèse que les humanoïdes nécessitent obligatoirement des milliers d'heures de téléopération. Pour les décideurs industriels et les intégrateurs, c'est un signal que le goulot des données pourrait être levé par simulation, compressant potentiellement les cycles de développement.

HumanoidMimicGen prolonge directement MimicGen, publié en 2023 pour des bras manipulateurs à base fixe. L'extension aux humanoïdes répond à la pression commerciale entre Figure (modèles 01, 02), Agility Robotics (Digit), 1X, Unitree (G1, H1) et Boston Dynamics (Atlas), tous en quête de méthodes d'apprentissage scalables sans exploser les budgets de téléopération. Du côté recherche, Physical Intelligence (pi0) et NVIDIA (GR00T N2) travaillent également sur des politiques visuomotrices corps entier généralisables. Ce travail demeure un résultat académique pré-publication sur arXiv, sans déploiement industriel annoncé et avec des expériences exclusivement en simulation. La robustesse du transfert sim-to-real, non abordée dans ce papier, constituera l'étape critique avant tout passage en conditions réelles.

Dans nos dossiers

Boston Dynamics Unitree Agility Robotics — Digit NVIDIA GR00T

À lire aussi

1arXiv cs.RO

OmniRetarget : génération de données préservant les interactions pour la loco-manipulation corps entier des humanoïdes

OmniRetarget est un pipeline de génération de données pour l'apprentissage par renforcement (RL) sur robots humanoïdes, présenté dans un préprint arXiv (2509.26633, v3). Face au problème du retargeting, qui consiste à convertir des captures de mouvement humain en références cinématiques exploitables par un robot, les méthodes existantes produisent des artefacts physiquement incohérents comme le glissement des pieds (foot-skating) ou la pénétration de surfaces, et ignorent les interactions humain-objet et humain-environnement. OmniRetarget introduit un "interaction mesh", un maillage intermédiaire qui modélise et préserve explicitement les relations spatiales et de contact entre l'agent, le terrain et les objets manipulés, via une minimisation par déformation laplacienne sous contraintes cinématiques. Évalué sur les datasets OMOMO, LAFAN1 et des données MoCap propriétaires, il génère plus de 8 heures de trajectoires de meilleure qualité que les baselines de référence. Appliqué au robot humanoïde Unitree G1, il permet d'exécuter des tâches de parkour et de loco-manipulation sur des horizons allant jusqu'à 30 secondes, entraîné avec seulement 5 termes de récompense et sans curriculum d'apprentissage. L'intérêt pour les chercheurs et intégrateurs réside dans deux apports combinés : la qualité cinématique améliorée réduit le sim-to-real gap, tandis que la préservation des interactions permet d'augmenter une démonstration unique vers différentes morphologies de robots, terrains et configurations d'objets, multipliant l'efficacité de la donnée. Plus significatif encore, l'obtention de comportements de loco-manipulation longs et complexes avec seulement 5 termes de récompense partagés entre toutes les tâches contredit l'hypothèse sectorielle selon laquelle ce type de compétences exige un reward engineering élaboré ou un curriculum progressif. Le paradigme dominant pour l'apprentissage humanoïde repose sur le retargeting MoCap vers des références RL, aux côtés de la télé-opération et de l'imitation directe. Le Unitree G1, produit par le fabricant chinois Unitree Robotics, s'est imposé comme plateforme académique de facto dans ce domaine, face à l'Atlas de Boston Dynamics, aux humanoïdes de Figure AI et d'Agility Robotics. OmniRetarget reste à ce stade une contribution de recherche sans annonce de déploiement industriel ; sa robustesse dans des environnements non structurés, où la géométrie de contact est imprévisible, reste à démontrer hors laboratoire.

RecherchePaper

1 source

2arXiv cs.RO

CWI : système d'imitation du corps entier pour la loco-manipulation de robots humanoïdes

Des chercheurs ont publié fin juin 2026 sur arXiv (réf. 2606.27676) le framework CWI (Composite Whole-Body Imitation), une architecture de contrôle pour robots humanoïdes visant à coordonner locomotion et manipulation bimanuelle en simultané. Le système a été évalué en simulation puis déployé sur un LimX Oli, humanoïde pleine taille du fabricant chinois LimX Robotics. L'approche repose sur une dissociation du recours aux données de capture de mouvement (MoCap) : les données MoCap de manipulation diversifiées pilotent le contrôle du haut du corps, tandis que la locomotion est guidée par deux discriminateurs adversariaux (Adversarial Motion Prior, AMP) entraînés sur des clips curatés de marche et d'accroupissement. Une architecture multi-critique réduit les conflits entre objectifs de locomotion, de manipulation et de style de mouvement ; une étape de distillation enseignant-élève produit ensuite une politique conditionnée uniquement sur les poses des mains et des commandes de vitesse et hauteur. La loco-manipulation reste l'un des verrous majeurs de la robotique humanoïde. Les méthodes purement par renforcement, sans MoCap, souffrent de récompenses creuses et nécessitent des curricula finement réglés ; les méthodes imitant le corps entier butent sur le déséquilibre des datasets, les trajectoires de locomotion trop dynamiques dégradant la stabilité globale. CWI propose une dissociation architecturale qui contourne les deux écueils. Le résultat pratique est une téléopération sans équipement MoCap complet, ce qui abaisse le seuil d'intégration industrielle. Pour les intégrateurs et les décideurs B2B, cela signifie qu'un humanoïde capable d'agir dans des environnements mixtes (déplacements et saisie d'objets) devient envisageable sans infrastructure de capture de mouvement coûteuse. Cela dit, la publication ne fournit aucune métrique de temps de cycle ni de volumes de déploiement, ce qui invite à lire ces résultats comme une preuve de concept compétitive, pas comme un produit shipé. CWI s'inscrit dans une vague de travaux combinant apprentissage par renforcement et imitation de mouvement humain, dont l'Adversarial Motion Prior (AMP) de Peng et al. constitue la brique fondatrice. LimX Robotics reste un acteur discret face aux mastodontes du secteur : Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) ou encore Boston Dynamics (Atlas) travaillent sur des architectures comparables intégrant contrôle corps entier et politiques Vision-Language-Action (VLA). CWI ne mentionne ni calendrier de déploiement industriel, ni partenariat commercial : il s'agit d'un preprint arXiv sans revue par les pairs publiée. Les prochaines étapes probables passeront par une validation en conditions réelles plus variées et une publication dans une conférence robotique de référence (ICRA, IROS ou RAL).

RecherchePaper

1 source

3arXiv cs.RO

OmniContact : enchaînement de méta-compétences par flux de contact pour la loco-manipulation humanoïde généralisable

Des chercheurs ont publié le 26 juin 2026 sur arXiv (réf. 2606.26201) un framework hiérarchique baptisé OmniContact, conçu pour enchaîner des séquences complexes de locomotion et manipulation sur des humanoïdes. Le coeur du système est une représentation intermédiaire appelée "contact flow" (CF): trajectoires corporelles clés et signaux binaires de contact en série temporelle. Deux modules s'appuient dessus, CF-Track (politique bas-niveau, bibliothèque de compétences unifiée) et CF-Gen (planificateur haut-niveau heuristique qui synthétise les séquences futures). En simulation, les résultats annoncés atteignent 98,7% de succès sur la tâche "Carry Box" et 76,5% sur "Push-Stack Boxes", soit respectivement +40,9% et +66,5% face aux baselines sur l'exécution de méta-compétences et leur enchaînement. Le dataset OmniContact, constitué via capture de mouvement (MoCap) d'interactions humain-objet, supporte l'entraînement. Le vrai défi des humanoïdes industriels n'est pas l'exécution d'un geste unitaire mais l'enchaînement robuste de séquences longues avec récupération autonome en cas de défaillance, ce verrou précis que OmniContact cible. Le système propose une interface structurée lisible par le planificateur haut-niveau, une voie médiane entre représentations explicites trop rigides pour la planification et embeddings implicites trop opaques pour la composition fiable. L'intégration avec des VLMs (Vision-Language Models) permettrait des instructions en langage naturel converties en séquences de contact flows, comme l'illustre la démonstration d'arrangement de boîtes en forme de coeur. Nuance importante: toutes les métriques publiées sont issues de conditions contrôlées en laboratoire, sans validation sur hardware physique ni déploiement industriel réel, ce qui laisse entier le problème du sim-to-real. La loco-manipulation longue horizon est devenu le benchmark officieux du secteur humanoïde en 2025-2026. Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0) et Boston Dynamics s'affrontent sur des tâches de plus en plus généralisables, tandis que NVIDIA pousse GR00T N2 comme couche de policy universelle. OmniContact vient du monde académique, sans entreprise identifiée derrière ce preprint, mais son approche par contact flow s'inscrit dans la tendance des représentations intermédiaires structurées, en parallèle des architectures VLA à diffusion. La collecte MoCap dédiée aux interactions humain-objet sur humanoïdes confirme que les données de référence restent un goulot d'étranglement même quand la simulation abonde. La prochaine étape déterminante sera le transfert sur un humanoïde physique, condition sine qua non pour que ce framework passe du laboratoire au hangar.

RecherchePaper

1 source

4arXiv cs.RO

WristMimic : contrôle corps entier de l'humanoïde par manipulation guidée au poignet

Publié en juillet 2026 sur arXiv, WristMimic est un framework de contrôle corps entier pour robots humanoïdes qui transfère des démonstrations humaines de manipulation vers une simulation physique. Plutôt que de suivre intégralement la pose de la main, la méthode sépare le corps et le poignet, guidés cinématiquement, des doigts, qui apprennent leurs gestes de préhension à partir du suivi de l'objet et du résultat des contacts. Le poignet sert de charnière entre les deux régimes : peu soumis aux forces de contact, il reste suivable fidèlement tout en plaçant la main dans une configuration de prise atteignable. Des contraintes de réinitialisation et une priorisation des récompenses au poignet fiabilisent ce positionnement ; les auteurs annoncent des performances égales ou supérieures aux méthodes à supervision complète des doigts, avec un retargeting indépendant de la morphologie de la main. Le problème ciblé est connu en contrôle humanoïde : une trajectoire de main en position seule ne renseigne pas les forces de contact nécessaires à une prise réussie, et imposer un suivi complet des doigts tend à surcontraindre des comportements qui doivent rester riches en contacts, ce qui fragilise la manipulation fine. En découplant mouvement libre et manipulation, WristMimic s'inscrit dans la recherche sur l'imitation à grande échelle pour l'IA incarnée, sans dépendre d'une capture de main parfaite. Pour l'industrie, l'argument concret est qu'une approche agnostique à la morphologie de la main pourrait réduire le travail d'adaptation quand un intégrateur change de main dextérisée, un problème récurrent tant les architectures varient d'un fabricant humanoïde à l'autre. Ce travail s'inscrit dans la lignée des méthodes de contrôle guidé par la cinématique humaine pour humanoïdes, qui cherchent depuis deux ans à rapprocher téléopération et apprentissage par renforcement. L'abstract ne mentionne aucun déploiement sur robot réel ni partenariat industriel : il s'agit pour l'instant d'une validation en simulation, une contribution de recherche plutôt qu'un produit. Les suites logiques seraient une validation sur plateforme humanoïde physique et une comparaison avec les pipelines de téléopération des acteurs du secteur, qu'il s'agisse des humanoïdes commerciaux ou des modèles VLA généralistes comme Pi-0 ou GR00T N2.

RecherchePaper

1 source