RecherchearXiv cs.RO 4 juin 2026

GRAIL : génération de loco-manipulation pour humanoïdes à partir d'actifs 3D et de vidéos

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie GRAIL (Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors, arXiv:2606.05160), un pipeline entièrement virtuel qui génère des données d'entraînement en loco-manipulation humanoïde sans télé-opération ni capture de mouvement physique. La méthode compose des actifs 3D paramétrés, des scènes simulées et des modèles fondamentaux vidéo (VFM) pour reconstruire des trajectoires d'interaction humain-objet (HOI) en 4D à l'échelle métrique, en conditionnant la génération vidéo sur des configurations entièrement spécifiées : géométrie, paramètres caméra, profondeur de scène et personnage aux proportions humanoïdes, ce qui réduit l'ambiguïté de profondeur et le mismatch morphologique habituels. Le pipeline produit plus de 20 000 séquences couvrant ramassage d'objets, manipulation, assise et traversée de terrains variés. Entraîné uniquement sur ces données synthétiques via un pipeline sim-to-real, le système atteint 84 % de succès en préhension d'objets divers et 90 % en montée d'escaliers sur un Unitree G1 en conditions réelles ; l'article, soumis sur arXiv en juin 2026, est une prépublication non encore évaluée par les pairs.

Ce travail s'attaque au principal goulot d'étranglement de la robotique humanoïde : générer des données de démonstration diversifiées à grande échelle sans mobiliser de temps-robot ni d'opérateurs spécialisés. La télé-opération et la mocap exigent des configurations physiques dédiées et un robot disponible à chaque session, ce qui plafonne le débit de production de données ; GRAIL déplace intégralement ce coût vers la simulation, rendant possible la composition de données pour des objets, scènes et mouvements corporels inédits. Les résultats de 84 % et 90 % en conditions réelles constituent un signal positif sur la réduction du gap sim-to-real, du moins pour ces classes de tâches. Une réserve s'impose cependant : le résumé ne détaille ni les objets testés ni le protocole de sélection des séquences d'évaluation, ce qui rend toute comparaison indépendante prématurée avant la publication complète.

GRAIL s'inscrit dans une course à la donnée synthétique que se livrent les principaux laboratoires de robotique humanoïde, aux côtés des pipelines World Model de Figure AI et 1X Technologies, de RoboVerse (Microsoft Research) et des environnements Genesis pour la simulation physique générative. La distinction de GRAIL réside dans le conditionnement fort sur des actifs 3D préalables, un choix qui améliore la précision de la reconstruction 4D mais suppose la disponibilité d'assets de qualité pour chaque objet cible. Le robot retenu, l'Unitree G1, est commercialisé autour de 16 000 dollars, rendant la reproduction des résultats accessible à de nombreuses équipes académiques, contrairement aux plateformes propriétaires des acteurs industriels. Les affiliations des auteurs ne figurant pas dans le résumé arXiv disponible, les suites naturelles annoncées comprennent les tâches bimanuelles, les environnements dynamiques et l'intégration dans des pipelines VLA (Vision-Language-Action) pour la généralisation à des objets et contextes non vus lors de l'entraînement.

Impact France/UE

Les laboratoires académiques européens spécialisés en robotique humanoïde (INRIA, CEA-List) pourraient adopter ce pipeline de génération de données synthétiques pour réduire leur dépendance à la télé-opération et à la mocap, mais aucun acteur FR/UE n'est directement impliqué dans ces travaux.

Dans nos dossiers

Figure 1X Technologies Unitree World models

À lire aussi

1arXiv cs.RO

OmniRetarget : génération de données préservant les interactions pour la loco-manipulation corps entier des humanoïdes

OmniRetarget est un pipeline de génération de données pour l'apprentissage par renforcement (RL) sur robots humanoïdes, présenté dans un préprint arXiv (2509.26633, v3). Face au problème du retargeting, qui consiste à convertir des captures de mouvement humain en références cinématiques exploitables par un robot, les méthodes existantes produisent des artefacts physiquement incohérents comme le glissement des pieds (foot-skating) ou la pénétration de surfaces, et ignorent les interactions humain-objet et humain-environnement. OmniRetarget introduit un "interaction mesh", un maillage intermédiaire qui modélise et préserve explicitement les relations spatiales et de contact entre l'agent, le terrain et les objets manipulés, via une minimisation par déformation laplacienne sous contraintes cinématiques. Évalué sur les datasets OMOMO, LAFAN1 et des données MoCap propriétaires, il génère plus de 8 heures de trajectoires de meilleure qualité que les baselines de référence. Appliqué au robot humanoïde Unitree G1, il permet d'exécuter des tâches de parkour et de loco-manipulation sur des horizons allant jusqu'à 30 secondes, entraîné avec seulement 5 termes de récompense et sans curriculum d'apprentissage. L'intérêt pour les chercheurs et intégrateurs réside dans deux apports combinés : la qualité cinématique améliorée réduit le sim-to-real gap, tandis que la préservation des interactions permet d'augmenter une démonstration unique vers différentes morphologies de robots, terrains et configurations d'objets, multipliant l'efficacité de la donnée. Plus significatif encore, l'obtention de comportements de loco-manipulation longs et complexes avec seulement 5 termes de récompense partagés entre toutes les tâches contredit l'hypothèse sectorielle selon laquelle ce type de compétences exige un reward engineering élaboré ou un curriculum progressif. Le paradigme dominant pour l'apprentissage humanoïde repose sur le retargeting MoCap vers des références RL, aux côtés de la télé-opération et de l'imitation directe. Le Unitree G1, produit par le fabricant chinois Unitree Robotics, s'est imposé comme plateforme académique de facto dans ce domaine, face à l'Atlas de Boston Dynamics, aux humanoïdes de Figure AI et d'Agility Robotics. OmniRetarget reste à ce stade une contribution de recherche sans annonce de déploiement industriel ; sa robustesse dans des environnements non structurés, où la géométrie de contact est imprévisible, reste à démontrer hors laboratoire.

RecherchePaper

1 source

2arXiv cs.RO

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper

1 source

3arXiv cs.RO

HALOMI : apprentissage de la loco-manipulation humanoïde avec perception active à partir de démonstrations humaines

Une équipe de chercheurs vient de publier sur arXiv (réf. 2606.18772) HALOMI, un framework permettant à un humanoïde d'apprendre la "loco-manipulation" -- navigation et manipulation d'objets combinées -- à partir de démonstrations humaines captées en conditions réelles. Le système étend l'Universal Manipulation Interface (UMI) avec une perception égocentrique double : caméras en vue subjective (ego-view) et au niveau du poignet (wrist-view), enregistrant simultanément les trajectoires tête-mains de l'opérateur. La validation s'effectue sur le Unitree G1, humanoïde équipé d'un cou motorisé, sur cinq catégories de tâches réelles : navigation, préhension, manipulation bimane, coordination corps entier, et comportements dynamiques incluant lancer d'objets et accroupissement profond. HALOMI atteint un taux de réussite moyen de 85 % sur les trois tâches évaluées quantitativement. Ce résultat cible l'un des obstacles fondamentaux du retargeting humain-humanoïde : au-delà du sim-to-real gap, il existe un "human-to-humanoid gap" dans la perception égocentrique et l'exécution motrice. HALOMI l'attaque sur deux fronts : un alignement de la vue subjective, et une adaptation de trajectoire dite "controller-aware" qui intègre les contraintes dynamiques propres au robot. Le contrôleur de suivi tête-main opère dans un espace latent appris (manifold contraint), ce qui le rend plus robuste face aux cibles hors distribution -- écueil classique du retargeting direct. Le 85 % est à nuancer : les tâches qualitatives comme le lancer dynamique n'ont pas de métriques publiées, et les conditions expérimentales exactes (nombre d'essais, variabilité de scène) restent non précisées dans le papier. HALOMI s'inscrit dans la tendance qui exploite les démonstrations humaines pour réduire le coût de collecte de données sur robot, dans la lignée directe d'UMI (Stanford, 2023), et en parallèle des approches Vision-Language-Action comme Pi-Zero (Physical Intelligence) ou GR00T N2 (NVIDIA). La particularité ici est l'accent mis sur la perception active : le cou motorisé du G1 est un élément fonctionnel du pipeline, pas un détail cosmétique. Le Unitree G1, commercialisé autour de 16 000 dollars, s'est imposé comme banc de test académique commun depuis 2024. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans le papier : HALOMI reste pour l'heure une contribution de recherche, sans annonce de commercialisation.

RechercheOpinion

1 source

4arXiv cs.RO

OmniContact : enchaînement de méta-compétences par flux de contact pour la loco-manipulation humanoïde généralisable

Des chercheurs ont publié le 26 juin 2026 sur arXiv (réf. 2606.26201) un framework hiérarchique baptisé OmniContact, conçu pour enchaîner des séquences complexes de locomotion et manipulation sur des humanoïdes. Le coeur du système est une représentation intermédiaire appelée "contact flow" (CF): trajectoires corporelles clés et signaux binaires de contact en série temporelle. Deux modules s'appuient dessus, CF-Track (politique bas-niveau, bibliothèque de compétences unifiée) et CF-Gen (planificateur haut-niveau heuristique qui synthétise les séquences futures). En simulation, les résultats annoncés atteignent 98,7% de succès sur la tâche "Carry Box" et 76,5% sur "Push-Stack Boxes", soit respectivement +40,9% et +66,5% face aux baselines sur l'exécution de méta-compétences et leur enchaînement. Le dataset OmniContact, constitué via capture de mouvement (MoCap) d'interactions humain-objet, supporte l'entraînement. Le vrai défi des humanoïdes industriels n'est pas l'exécution d'un geste unitaire mais l'enchaînement robuste de séquences longues avec récupération autonome en cas de défaillance, ce verrou précis que OmniContact cible. Le système propose une interface structurée lisible par le planificateur haut-niveau, une voie médiane entre représentations explicites trop rigides pour la planification et embeddings implicites trop opaques pour la composition fiable. L'intégration avec des VLMs (Vision-Language Models) permettrait des instructions en langage naturel converties en séquences de contact flows, comme l'illustre la démonstration d'arrangement de boîtes en forme de coeur. Nuance importante: toutes les métriques publiées sont issues de conditions contrôlées en laboratoire, sans validation sur hardware physique ni déploiement industriel réel, ce qui laisse entier le problème du sim-to-real. La loco-manipulation longue horizon est devenu le benchmark officieux du secteur humanoïde en 2025-2026. Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0) et Boston Dynamics s'affrontent sur des tâches de plus en plus généralisables, tandis que NVIDIA pousse GR00T N2 comme couche de policy universelle. OmniContact vient du monde académique, sans entreprise identifiée derrière ce preprint, mais son approche par contact flow s'inscrit dans la tendance des représentations intermédiaires structurées, en parallèle des architectures VLA à diffusion. La collecte MoCap dédiée aux interactions humain-objet sur humanoïdes confirme que les données de référence restent un goulot d'étranglement même quand la simulation abonde. La prochaine étape déterminante sera le transfert sur un humanoïde physique, condition sine qua non pour que ce framework passe du laboratoire au hangar.

RecherchePaper

1 source