Aller au contenu principal
HumanoidArena : évaluation de l'apprentissage corporel hiérarchique en vue égocentrique
RecherchearXiv cs.RO1h

HumanoidArena : évaluation de l'apprentissage corporel hiérarchique en vue égocentrique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a déposé en juin 2026 sur arXiv (réf. 2606.17833) HumanoidArena, un environnement de simulation destiné à évaluer l'apprentissage hiérarchique du contrôle de corps entier pour robots humanoïdes. L'architecture repose sur deux niveaux : une politique haut niveau convertit la vision égocentrique embarquée, la proprioception et des instructions textuelles en une action compacte de corps entier, puis un tracker de mouvement généraliste (GMT, General Motion Tracker) exécute cette action en mouvement physiquement stable. Le benchmark propose sept tâches dites "leg-critical", des scénarios d'interaction humain-objet (HOI) ou humain-scène (HSI) où la coordination des membres inférieurs est structurellement indispensable : placement précis du pied, maintien de l'équilibre, ajustement postural et réorientation complète du corps. Les évaluations couvrent deux axes complémentaires : robustesse face aux perturbations externes et transférabilité des politiques entre différents backends GMT.

Ce travail adresse un angle mort méthodologique réel : les benchmarks existants évaluent rarement l'interface entre politique haut niveau et tracker bas niveau, laissant sans réponse la question de l'exécutabilité et de la robustesse des actions intermédiaires produites sous des distributions de tâches variées. Les résultats montrent que le contrôle hiérarchique permet aux politiques d'apprendre à résoudre des interactions complexes impliquant les jambes, mais que les performances sont fortement conditionnées par le GMT utilisé. Surtout, la transférabilité inter-GMT reste fragile, ce qui nuance les hypothèses optimistes sur la modularité des systèmes humanoïdes et pose des questions concrètes aux intégrateurs souhaitant interchanger des modules de locomotion bas niveau sans réentraîner la politique haut niveau.

Le benchmark s'inscrit dans un contexte de forte activité industrielle et académique : Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Agility Robotics ont tous publié des démonstrations ou des déploiements pilotes entre 2024 et 2026, alimentant la course à l'apprentissage de politiques généralisables. La majorité des benchmarks du secteur privilégient la manipulation bras-main et traitent la locomotion comme un sous-problème résolu ; HumanoidArena repositionne les membres inférieurs comme acteurs à part entière dans la boucle de décision. Les prochaines étapes annoncées comprennent des expériences de transfert sim-to-real et l'intégration de modèles VLA (Vision-Language-Action) comme politiques haut niveau, deux points où l'écart entre simulation et déploiement industriel reste précisément à quantifier.

À lire aussi

Un tokeniseur d'actions hiérarchique spatio-temporel pour l'apprentissage par imitation en contexte en robotique
1arXiv cs.RO 

Un tokeniseur d'actions hiérarchique spatio-temporel pour l'apprentissage par imitation en contexte en robotique

Des chercheurs ont publié sur arXiv (référence 2604.15215v2) un travail portant sur HiST-AT, un tokeniseur d'actions hiérarchique et spatiotemporel conçu pour l'apprentissage par imitation en contexte. Le principe central repose sur deux niveaux successifs de quantification vectorielle : le premier niveau affecte chaque action à des sous-clusters fins, tandis que le second regroupe ces sous-clusters en clusters plus larges. L'extension spatiotemporelle va plus loin en récupérant simultanément les actions et leurs horodatages associés, permettant au modèle d'exploiter à la fois la géométrie des mouvements et leur séquençage temporel. Les évaluations ont été conduites sur plusieurs benchmarks de manipulation robotique en simulation et en conditions réelles, et les auteurs revendiquent un nouveau niveau de performance de référence sur les tâches d'apprentissage par imitation en contexte. Ce résultat intéresse directement les équipes qui travaillent sur le déploiement rapide de robots dans de nouvelles tâches industrielles sans collecter des milliers de démonstrations. L'apprentissage par imitation en contexte, calqué sur le few-shot prompting des grands modèles de langage, vise à permettre à un robot d'exécuter une nouvelle tâche à partir de quelques exemples fournis dynamiquement, sans réentraînement. La qualité du tokeniseur d'actions est ici le maillon critique : une discrétisation trop grossière des trajectoires efface l'information fine de manipulation ; trop granulaire, elle rend l'espace de tokens ingérable. Le fait que l'approche hiérarchique améliore les résultats par rapport à une quantification à un seul niveau, et que l'ajout de l'information temporelle amplifie encore ce gain, suggère que la structure latente des tâches de manipulation est intrinsèquement multiscale. L'apprentissage par imitation en contexte pour la robotique s'est fortement développé depuis 2023, porté par des modèles comme ACT, Diffusion Policy, et plus récemment les architectures de type VLA (Vision-Language-Action) telles que OpenVLA, pi-zero de Physical Intelligence ou GR00T N2 de NVIDIA. La tokenisation des actions est un point de friction commun à toutes ces approches : comment convertir des trajectoires continues en séquences discrètes manipulables par un transformer. HiST-AT apporte une réponse structurée à ce problème, mais il s'agit à ce stade d'un résultat de recherche publié en preprint, sans validation industrielle ni déploiement annoncé. Les prochaines étapes naturelles seront d'évaluer la robustesse en dehors des benchmarks académiques, notamment sur des tâches de manipulation à haute fréquence ou en environnement non contrôlé.

RechercheOpinion
1 source
Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques
2arXiv cs.RO 

Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques

Des chercheurs proposent ORCHID, un cadre d'auto-entraînement présenté sur arXiv (2603.05291) qui s'attaque à un problème structurel de la manipulation robotique longue durée : la désynchronisation entre planificateur haut niveau et contrôleur bas niveau au sein des politiques hiérarchiques. Dans ces architectures, un planificateur décompose une instruction en langage naturel en sous-objectifs intermédiaires, que le contrôleur exécute physiquement. La difficulté est que les deux modules, entraînés séparément, opèrent sur des distributions de sous-objectifs incompatibles. ORCHID corrige cela en ligne : le système génère des trajectoires, les filtre selon le feedback de l'environnement (réussite ou échec de la tâche complète), puis distille les trajectoires conjointement réussies dans les deux modules via apprentissage supervisé. Il en résulte une co-adaptation bidirectionnelle : le planificateur ancre ses sous-objectifs dans les capacités réelles du contrôleur, tandis que le contrôleur se spécialise dans les structures de trajectoire que produit le planificateur. Sur le benchmark CALVIN, référence pour la manipulation séquentielle guidée par le langage, un modèle léger entraîné avec ORCHID surpasse les méthodes purement offline, y compris un modèle Vision-Language-Action (VLA) deux fois plus grand en paramètres. L'impact est notable sur deux points. En termes d'efficacité paramétrique, qu'un modèle léger dépasse un VLA deux fois plus lourd remet en question l'hypothèse courante que l'échelle seule suffit pour les tâches complexes. En termes de stabilité d'entraînement, combiner RL hiérarchique et modèles de diffusion est notoirement instable à cause de la propagation des gradients. ORCHID contourne ce problème en substituant la distillation supervisée sur échantillons filtrés au RL gradient classique, une voie potentiellement plus praticable dans les contextes industriels où la reproductibilité de l'entraînement est critique. Le mécanisme de co-adaptation proposé constitue un principe architectural plus général, transférable à d'autres familles de politiques hiérarchiques au-delà des modèles de diffusion. Le travail s'inscrit dans la dynamique actuelle autour des politiques de diffusion pour la robotique, portée par des frameworks comme Diffusion Policy (Chi et al., 2023) et π₀ de Physical Intelligence. ORCHID se distingue en ciblant non l'architecture mais la coordination inter-niveaux, un aspect souvent sous-traité par les approches VLA end-to-end qui fusionnent planification et contrôle dans un seul réseau. Le benchmark CALVIN, développé à l'Université de Freiburg, est la référence principale pour évaluer la généralisation en manipulation séquentielle sur des tâches à horizon long. Les prochaines étapes naturelles incluent une validation sur robots physiques et une extension à des horizons temporels plus longs, deux points que cet article n'aborde pas encore.

RechercheOpinion
1 source
ZeroWBC : apprentissage de l'interaction naturelle corps entier pour humanoïdes à partir de données égocentrées humaines
3arXiv cs.RO 

ZeroWBC : apprentissage de l'interaction naturelle corps entier pour humanoïdes à partir de données égocentrées humaines

Une équipe de recherche a publié sur arXiv (référence 2603.09170v2) ZeroWBC, un cadre d'apprentissage du contrôle corporel complet pour robots humanoïdes qui se passe entièrement de données de télé-opération. Le système apprend à partir de vidéos égocentrées humaines -- c'est-à-dire filmées du point de vue d'un opérateur -- associées à des annotations de mouvement corps-entier et de texte. Concrètement, une image initiale prise en vue subjective est combinée à une instruction en langage naturel ; un modèle vision-langage (VLM) affiné génère alors des tokens de mouvement humain futur, qui sont décodés en trajectoires continues et retargetés vers le robot humanoïde. Ces mouvements de référence, accompagnés des trajectoires de la racine et des parties clés du corps, alimentent ensuite une politique de suivi de mouvement interactif. Les expériences ont été conduites sur le robot Unitree G1, un humanoïde compact commercialisé à environ 16 000 dollars. L'apport central de ZeroWBC réside dans l'élimination du coût de collecte des données de télé-opération, traditionnellement un verrou majeur pour l'apprentissage du contrôle corps-entier à grande échelle. En exploitant le stock immense de vidéos humaines égocentrées déjà disponibles, la méthode ouvre un paradigme de scalabilité que les approches par démonstration robotique directe ne peuvent pas égaler facilement. L'introduction d'une récompense de suivi orientée interaction -- qui priorise l'alignement global des trajectoires tout en préservant la naturalité du mouvement -- tente de combler le gap entre génération de gestes plausibles et exécution physiquement cohérente. C'est un résultat de recherche académique, pas un produit déployé en production : les vidéos présentées montrent des comportements variés en scène statique, mais les conditions réelles d'un environnement industriel dynamique n'ont pas été testées. ZeroWBC s'inscrit dans un courant plus large de méthodes "zéro-démonstration robot" qui cherchent à transférer la richesse des données humaines vers des systèmes incarnés, à l'instar des travaux sur les politiques visuomotrices à base de VLA (Vision-Language-Action). Sur le terrain concurrent, des approches comme ACT, UMI ou les pipelines de diffusion de Physical Intelligence (Pi-0) misent encore largement sur la télé-opération directe ou les données simulées. Unitree, constructeur chinois dont le G1 est l'une des plateformes humanoïdes les plus accessibles du marché, bénéficie ici d'une visibilité croissante comme banc d'essai académique de référence. Les prochaines étapes naturelles seraient d'étendre ZeroWBC à des scènes dynamiques, de tester la robustesse en dehors du labo, et d'évaluer si le sim-to-real tient face à la variabilité réelle des interactions objet-robot.

RechercheOpinion
1 source
HeLoM : apprentissage hiérarchique pour la locomotion et la manipulation corps entier par un robot hexapode
4arXiv cs.RO 

HeLoM : apprentissage hiérarchique pour la locomotion et la manipulation corps entier par un robot hexapode

Des chercheurs ont publié sur arXiv (arXiv:2509.23651v3) HeLoM, un framework hiérarchique d'apprentissage pour la manipulation whole-body par un robot hexapode. L'objectif central est la manipulation non-préhensile, c'est-à-dire pousser des objets sans les saisir, une stratégie qui contourne la complexité de la conception de prises tout en exploitant le contact direct pour contrôler la pose d'un objet. Le système repose sur une architecture à deux niveaux : un planificateur haut niveau qui définit les comportements de poussée, et un contrôleur bas niveau qui maintient la stabilité locomotrice et génère des commandes articulaires dynamiquement cohérentes. En pratique, les pattes avant assurent l'interaction avec l'objet tandis que les pattes arrière fournissent la propulsion. Les expériences en monde réel montrent que le robot peut pousser des objets de tailles et propriétés physiques variées, et a priori inconnues, vers des poses cibles définies. L'intérêt de HeLoM pour le secteur robotique tient à deux points. Premièrement, il démontre qu'un système hexapode peut réaliser une manipulation efficace sans bras ni préhension, en mobilisant la totalité de la cinématique du corps, une approche qui s'applique par extension à d'autres plateformes multi-pattes. Deuxièmement, la robustesse face aux propriétés inconnues de l'objet (masse, forme irrégulière) illustre un progrès sur le gap sim-to-real : le framework, validé en simulation, transfère dans le monde physique sans connaissance a priori des paramètres de l'objet. Pour un intégrateur industriel, cela signifie potentiellement une manipulation de charges lourdes ou encombrantes sans recourir à un bras robotique dédié. L'approche s'inscrit dans un courant plus large de recherche sur la loco-manipulation whole-body, où des laboratoires comme ETH Zurich (ANYmal), Carnegie Mellon (loco-manipulation quadrupède) et Boston Dynamics travaillent à unifier locomotion et manipulation dans un cadre unique. HeLoM se distingue en ciblant spécifiquement l'hexapode, morphologie plus stable mais moins explorée que le quadrupède pour la manipulation. La publication est un preprint arXiv (version 3), sans mention de déploiement industriel ni de partenariat. Les prochaines étapes naturelles seraient l'extension à des comportements de tirage ou de levage, et des tests sur des charges plus importantes avec mesure explicite du payload maximal, absent des résultats actuellement publiés.

RecherchePaper
1 source