Aller au contenu principal
Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes
IA physiquearXiv cs.RO3h

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2602.05791) un framework baptisé XHugWBC, conçu pour entraîner un contrôleur de locomotion whole-body universel sur une large distribution de morphologies humanoïdes, puis le déployer en zero-shot sur des robots non vus durant l'entraînement. Les expériences couvrent douze humanoïdes simulés et sept robots réels. Le système repose sur trois briques techniques : une randomisation morphologique physiquement cohérente (masse des segments, longueur des membres, inertie), des espaces d'observation et d'action alignés sémantiquement entre châssis hétérogènes, et une architecture de politique qui encode explicitement les propriétés morphologiques et dynamiques de chaque instance. L'entraînement est unique, "one-time training" : aucun fine-tuning par robot n'est requis à l'inférence.

L'enjeu industriel est direct. Aujourd'hui, chaque équipe robotique entraîne ses contrôleurs de locomotion depuis zéro pour chaque châssis, ce qui représente des semaines de simulation et d'itérations sim-to-real. XHugWBC déplace ce coût vers une phase d'entraînement généraliste unique, ouvrant la voie à un modèle de déploiement où un intégrateur peut adopter un nouveau châssis humanoïde sans reconstruire l'intégralité de sa stack de contrôle. La validation sur sept robots physiques est plus convaincante que les résultats purement simulés habituels, même si la nature exacte des tâches testées et les taux de succès détaillés ne figurent pas dans le résumé disponible. La capacité de transfert zero-shot sur morphologies inédites renforce l'hypothèse que les biais structuraux appris sur distributions larges surpassent les politiques spécialisées sur certains régimes de locomotion, ce que le secteur débattait encore il y a dix-huit mois.

Ce travail s'inscrit dans un mouvement vers les contrôleurs dits "fondation" pour la robotique incarnée. En manipulation, des systèmes comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ont déjà exploré la généralisation cross-embodiment sur bras et effecteurs; l'extension à la locomotion whole-body humanoïde est plus contrainte par la stabilité dynamique. Les acteurs du secteur, Figure Robotics (Figure 03), Unitree (G1, H1), Agility Robotics (Digit), Fourier Intelligence et 1X Technologies, maintiennent tous des pipelines de contrôle propriétaires et spécialisés. Si XHugWBC tient ses promesses à l'échelle, il réduirait significativement la barrière à l'entrée pour les nouveaux constructeurs, notamment les acteurs européens comme Enchanted Tools (Mirokaï) ou Wandercraft, qui ne disposent pas des ressources d'entraînement des géants américains. Le preprint n'a pas encore fait l'objet d'une évaluation par les pairs.

Impact France/UE

Les constructeurs humanoïdes français Wandercraft et Enchanted Tools (Mirokaï) sont explicitement identifiés comme bénéficiaires potentiels, ce framework pouvant réduire significativement leurs coûts d'entraînement de locomotion sans nécessiter les ressources des géants américains.

À lire aussi

OMG : génération de mouvements omnimodaux pour le contrôle généraliste des humanoïdes
1arXiv cs.RO 

OMG : génération de mouvements omnimodaux pour le contrôle généraliste des humanoïdes

Une équipe de chercheurs a déposé le 10 juin 2026 sur arXiv (ref. 2606.10340) un système baptisé OMG, Omni-Modal Motion Generation, conçu pour le contrôle whole-body généraliste des robots humanoïdes. L'architecture adopte une structure hiérarchique inspirée du système moteur biologique : un module supérieur de génération de mouvement basé sur la diffusion joue le rôle de "cerveau" planificateur, tandis qu'un contrôleur de suivi réactif bas niveau fait office de "cervelet". Ce cerveau est conditionnable simultanément sur du langage naturel, des signaux audio et des mouvements de référence humains. Le système s'appuie sur un pipeline de curation, filtrage et labellisation de données conçu pour couvrir un large spectre de comportements whole-body. Les auteurs revendiquent des performances state-of-the-art sur les benchmarks de contrôle humanoïde généraliste, ainsi qu'un comportement de scaling en fonction de la taille du modèle, deux propriétés clés pour qui veut construire un foundation model robotique. L'intérêt de OMG tient à son traitement simultané de deux limitations structurelles du domaine : d'un côté, les politiques spécialisées actuelles exigent un reward engineering intensif et ne généralisent pas au-delà de quelques skills ; de l'autre, les motion trackers existants peinent à intégrer de nouvelles modalités d'entrée sans refonte architecturale. En conditionnant un unique modèle sur des entrées multimodales extensibles, le papier prolonge la logique des VLA (Vision-Language-Action models) vers la génération de mouvement full-body. Si les résultats survivent à l'évaluation externe, cela plaiderait pour qu'un seul modèle généraliste remplace plusieurs politiques spécialisées par déploiement, un argument commercial direct pour les intégrateurs. Point de vigilance : il s'agit d'un preprint non évalué par les pairs, sans données de déploiement physique publiées à ce stade. Le papier s'inscrit dans une course active autour du contrôle humanoïde généraliste. Physical Intelligence a publié Pi-0 et Pi-0.5 autour d'architectures diffusion-based, NVIDIA a présenté GR00T N2 comme backbone transformer pour whole-body control, et Figure déploie Helix sur ses plateformes H1/H2 dans des environnements d'entrepôt. L'abstract ne mentionne ni institution d'origine ni robot physique cible, ce qui rend la comparaison directe avec ces systèmes impossible à ce stade. Les prochaines étapes naturelles seraient une soumission à CoRL ou RSS 2026 et une validation sur hardware réel, deux éléments absents de la publication actuelle.

IA physiqueOpinion
1 source
ExoActor : génération de vidéos exocentriques pour le contrôle généralisable d'humanoïdes interactifs
2arXiv cs.RO 

ExoActor : génération de vidéos exocentriques pour le contrôle généralisable d'humanoïdes interactifs

Un framework de contrôle humanoïde baptisé ExoActor a été publié en preprint sur arXiv (2604.27711, avril 2026) par une équipe proposant d'utiliser la génération vidéo en vue tierce comme interface unifiée de commande robotique. Le principe : à partir d'une instruction textuelle et du contexte visuel de la scène, ExoActor génère une vidéo synthétique d'exécution plausible, extrait les cinématiques humaines correspondantes, puis les transmet à un contrôleur de mouvement généraliste pour produire une séquence comportementale exécutable. Le pipeline complet, implémenté de bout en bout, est évalué sur des scénarios inédits sans collecte additionnelle de données réelles. L'intérêt de l'approche réside dans la manière dont elle attaque un verrou central du contrôle humanoïde : modéliser des comportements riches en interactions entre le robot, son environnement et les objets manipulés, tout en capturant simultanément contexte spatial, dynamiques temporelles et intention de tâche. Plutôt qu'un VLA classique mappant directement observations vers actions, ExoActor intercale une représentation vidéo comme espace latent intermédiaire, dont la capacité de généralisation provient de grands modèles vidéo pré-entraînés à l'échelle. Si les résultats de généralisation sont confirmés sur des benchmarks indépendants, cela ouvrirait une alternative sérieuse à la collecte coûteuse de données de téléopération que supportent actuellement des acteurs comme Figure AI, Agility Robotics ou 1X Technologies. Cette publication s'inscrit dans un courant cherchant à court-circuiter les démonstrations réelles via des modèles génératifs. Elle dialogue avec Pi-0 de Physical Intelligence (diffusion sur flux d'actions), GR00T N2 de NVIDIA (entraîné sur données humaines synthétiques et réelles), ainsi qu'avec UniSim et IRASim qui utilisent la synthèse vidéo comme simulateur de politique. La spécificité d'ExoActor est l'usage explicite d'une perspective exocentrique, vue tierce personne, là où d'autres approches travaillent en vue égocentrique. Les auteurs reconnaissent les limitations actuelles, notamment la qualité de l'estimation de mouvement humain à partir de vidéo synthétique. Aucun déploiement industriel ni partenariat commercial n'est annoncé : ExoActor reste à ce stade une contribution académique.

IA physiqueOpinion
1 source
Manipulation corps entier des humanoïdes via un cerveau spatial actif et un cervelet d'action généralisable
3arXiv cs.RO 

Manipulation corps entier des humanoïdes via un cerveau spatial actif et un cervelet d'action généralisable

Des chercheurs ont publié le 27 mai 2026 un preprint (arXiv:2605.21133) présentant un framework de loco-manipulation pour robots humanoïdes baptisé ASB-GAC, articulé autour de deux modules distincts. Le premier, Active Spatial Brain (ASB), assure la perception spatiale active et la planification de tâches en décomposant les objectifs en sous-tâches. Le second, Generalizable Action Cerebellum (GAC), traduit ces décisions en commandes moteur exécutables sur robot réel. L'approche s'appuie sur des grands modèles multi-agents pour orchestrer perception et génération d'actions. Les auteurs ont conçu un jeu de tâches de manipulation spatiale dépassant le cadre classique de la table rase, couvrant des environnements 3D avec des relations spatiales variées, et mesurent les performances sur deux axes : compréhension spatiale et exécution physique réelle. Le point saillant de ce travail est l'affirmation que GAC génère des actions robot exécutables sans données réelles spécifiques à chaque tâche, ce qui s'attaque directement au goulot d'étranglement majeur du secteur : collecter des trajectoires sur robot physique coûte cher et ne se généralise pas. Si la validité de cette approche se confirme au-delà des benchmarks maison, cela pourrait réduire significativement le cycle de développement pour les intégrateurs cherchant à déployer des humanoïdes sur des tâches variées d'entrepôt ou d'assemblage. Toutefois, le preprint ne fournit pas de métriques de cycle time, de taux de succès détaillés ni de comparaisons quantitatives directes avec des baselines comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA), ce qui limite l'évaluation indépendante des claims de généralisation. Ce travail s'inscrit dans une dynamique de recherche très active sur la manipulation whole-body, où la fracture entre simulation et réalité reste un verrou central. Des acteurs comme Figure AI avec Figure 03, Tesla avec Optimus Gen 3, ou Physical Intelligence avec pi0 ont tous investi massivement dans la collecte de données réelles pour combler ce fossé. L'approche sim-to-real et l'utilisation de VLA (Vision-Language-Action models) comme vecteur de généralisation sont aujourd'hui les deux grandes stratégies concurrentes. Ce preprint propose une troisième voie par décomposition hiérarchique via LLM multi-agents, mais sans nom d'entreprise, sans robot cible identifié, et sans annonce de pilote industriel : il s'agit pour l'instant d'un résultat académique à surveiller avant tout transfert vers le terrain.

IA physiquePaper
1 source
SUGAR : cadre d'apprentissage généralisable et extensible pour la loco-manipulation humanoïde par vidéos humaines
4arXiv cs.RO 

SUGAR : cadre d'apprentissage généralisable et extensible pour la loco-manipulation humanoïde par vidéos humaines

Des chercheurs présentent SUGAR (Scalable hUman-video-driven GenerAlizable humanoid loco-manipulation leaRning), un framework publié en préprint sur arXiv (arXiv:2605.20373, mai 2026), conçu pour entraîner des robots humanoïdes à des tâches de loco-manipulation à partir de vidéos humaines non structurées, sans ingénierie de récompenses propre à chaque tâche. Le pipeline se décompose en trois étapes : extraction automatisée de priors cinématiques (trajectoires humain-objet et labels de contact) depuis des vidéos brutes ; raffinement physique via un mimic reward unifié et un progressive state pool qui transforment ces priors imparfaits en mouvements physiquement cohérents ; puis distillation dans une politique hiérarchique composée d'un générateur et d'un suiveur de commandes. Le système a été évalué sur six tâches de loco-manipulation, en simulation et sur matériel humanoïde réel, avec transfert zero-shot vers le monde physique, récupération autonome après échec, et robustesse aux perturbations externes. L'enjeu central est la scalabilité : là où la téléopération humaine, méthode utilisée par Figure AI, Apptronik ou 1X, reste coûteuse et difficile à industrialiser, SUGAR exploite le corpus massif de vidéos humaines disponibles. Le verrou technique était que les priors cinématiques extraits de ces vidéos sont intrinsèquement bruités (occlusions, artefacts de contact, erreurs de retargeting) et inutilisables en l'état pour l'apprentissage. L'étape de raffinement physique est ici la contribution principale. Le fait que la performance scale clairement avec le volume de données vidéo est un résultat significatif : il oriente la recherche vers l'augmentation de données plutôt que l'ingénierie manuelle de récompenses, un changement de paradigme pour les équipes travaillant sur des humanoïdes généralistes. SUGAR s'inscrit dans la vague de contrôle humanoïde piloté par les données, en concurrence directe avec les approches VLA de Physical Intelligence (Pi-0), Google DeepMind, et Nvidia (GR00T N2). Le sim-to-real zero-shot revendiqué reste le défi emblématique du secteur ; les auteurs affirment l'atteindre de manière fiable avec récupération autonome des échecs, mais la sélection de seulement six tâches de démonstration mérite d'être notée. À ce stade, il s'agit d'un résultat académique sans timeline de déploiement commercial : les limites immédiates concernent la diversité des tâches et des environnements testés, qui conditionneront la généralisation à des déploiements industriels réels.

IA physiquePaper
1 source