Aller au contenu principal
HANDOFF : contrôle corps entier d'humanoïdes à base d'agents par distillation d'enseignants complémentaires
IA physiquearXiv cs.RO2h

HANDOFF : contrôle corps entier d'humanoïdes à base d'agents par distillation d'enseignants complémentaires

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs présentent dans un preprint arXiv soumis en juin 2026 (2606.06493) HANDOFF, un contrôleur de corps entier pour robots humanoïdes qui vise à réduire le fossé entre planification sémantique et exécution motrice bas niveau. Le problème ciblé est structurel : les contrôleurs existants nécessitent des références cinématiques denses que les planificateurs à base de modèles de langage ou de vision peinent à produire directement depuis une instruction sémantique. HANDOFF introduit un espace de commande compact et explicite, distillé depuis trois enseignants spécialisés via KL distillation avec un mécanisme de gating conditionné au contexte : suivi de mouvement corps entier (avec données filtrées pour la sécurité), locomotion, et récupération de chute. L'architecture produit un modèle étudiant de type mixture-of-experts évalué sur le Unitree G1, avec des démonstrations pilotées en langage naturel via un planificateur agentique à base de VLM (vision-language model), sans fine-tuning spécifique aux tâches. Les résultats revendiqués incluent un suivi de vitesse comparable à l'état de l'art et l'un des plus larges espaces de travail de manipulation robuste parmi les contrôleurs publiés sur cette plateforme.

L'enjeu est concret pour les intégrateurs industriels : la multiplication des humanoïdes commerciaux (Figure 03, Agility Digit, Apptronik Apollo, Unitree H1) crée une pression croissante pour des contrôleurs capables de s'interfacer directement avec des planificateurs généralistes sans recourir à du fine-tuning par tâche, coûteux en données et en temps d'ingénierie. Si l'interface proposée tient en dehors des scénarios de démonstration, un planificateur LLM ou VLM pourrait enchaîner des séquences complexes sans modifier la couche bas niveau, ce qui réduit significativement la friction à l'intégration. La récupération de chute embarquée est un atout non-trivial pour les environnements industriels réels. Toutefois, les vidéos sélectionnées et l'absence de métriques quantitatives sur la diversité des scénarios testés invitent à une lecture prudente avant de conclure sur le passage à l'échelle hors laboratoire.

Ce travail s'inscrit directement dans la course aux VLA (vision-language-action models) post-2024, avec des concurrents explicites comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure, et les architectures de OpenVLA ou Octo côté académique. HANDOFF se distingue par une distillation multi-enseignants plutôt qu'un entraînement end-to-end unifié, une stratégie proche des travaux de l'ETH Zurich sur ANYmal en quadrupède. Le choix du Unitree G1 (commercialisé autour de 16 000 dollars) est cohérent avec une visée de reproductibilité académique large. Les prochaines étapes probables incluent des évaluations sur des tâches de manipulation plus diversifiées, des tests en environnements non structurés, et potentiellement un transfert vers des plateformes humanoïdes commerciales plus musclées.

À lire aussi

HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde
1arXiv cs.RO 

HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde

Des chercheurs ont publié sur arXiv (référence 2602.16705, version 3) un système de manipulation locomotrice pour humanoïdes baptisé HERO (Humanoid End-Effector Residual cOntrol), conçu pour saisir des objets du quotidien sans liste prédéfinie de cibles. Le système fonctionne en open-vocabulary : il identifie visuellement les objets via des images RGB-D et des grands modèles de vision, puis planifie et exécute la saisie en temps réel. L'innovation centrale est une politique de suivi de l'effecteur terminal (EE) dite "résidual-aware", qui combine trois composants : une cinématique inverse pour convertir les cibles résiduelles de l'EE en trajectoires de référence, un modèle neuronal de cinématique directe entraîné en simulation, et un mécanisme de ré-planification dynamique. Ce pipeline réduit l'erreur de suivi de l'effecteur à 2,44 cm, soit une amélioration annoncée de 5,5x par rapport à la meilleure méthode antérieure. Les tests en environnements réels, bureaux, cafés, démontrent la saisie de mugs, pommes et jouets sur des surfaces allant de 43 à 92 cm de hauteur. L'approche modulaire de HERO rompt avec la tendance dominante des méthodes end-to-end monolithiques (apprentissage par imitation, sim-to-real intégral) qui peinent à généraliser sans retraining massif. En séparant la compréhension de scène, déléguée aux fondations vision, du contrôle moteur précis, entraîné entièrement en simulation, les auteurs obtiennent une généralisation out-of-distribution plus robuste sur de nouveaux environnements. Pour un intégrateur, cela signifie potentiellement moins de données de démonstration à collecter par site de déploiement. Les 2,44 cm d'erreur restent trop élevés pour des tâches d'assemblage de précision, mais suffisants pour le pick-and-place d'objets courants. La métrique "5,5x meilleure" mérite réserve : les conditions exactes du benchmark ne sont pas détaillées dans l'abstract. Ce travail s'inscrit dans une course dense sur le contrôle loco-manipulation des humanoïdes. Physical Intelligence avec Pi-0, Figure AI avec Figure 03, Agility Robotics avec Digit, et Unitree explorent tous des pipelines combinant grands modèles de vision-langage-action (VLA) et contrôle fin de l'effecteur. La question du sim-to-real gap reste le principal verrou non résolu dans le secteur pour les tâches de manipulation dextre, et HERO propose une réponse architecturale partielle en hybridant cinématique classique et apprentissage neuronal, une direction explorée également par des équipes européennes comme Wandercraft sur leurs plateformes bipèdes. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : il s'agit pour l'instant d'un résultat de recherche, pas d'un produit commercialisé.

UEDes équipes européennes comme Wandercraft explorent des architectures similaires sur le contrôle bipède ; l'approche hybride de HERO (cinématique classique + apprentissage neuronal) peut informer leurs pipelines de R&D, mais l'impact reste indirect, sans déploiement ni partenariat industriel européen associé.

IA physiquePaper
1 source
HEX : experts alignés sur les humanoïdes pour la manipulation corps entier multi-plateforme
2arXiv cs.RO 

HEX : experts alignés sur les humanoïdes pour la manipulation corps entier multi-plateforme

Des chercheurs ont publié HEX (Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation), un cadre de contrôle robotique déposé sur arXiv (arXiv:2604.07993v2) en avril 2026. HEX cible un problème structurel dans le déploiement des humanoïdes bipèdes de grande taille : la majorité des modèles Vision-Language-Action (VLA) existants traitent les membres du robot de façon indépendante, ce qui rend le contrôle à haute dimension (de nombreux degrés de liberté, ou DoF) instable et peu généralisable. Pour y répondre, HEX introduit une représentation d'état universelle alignée sur l'anatomie humanoïde, conçue pour l'apprentissage à grande échelle sur des plateformes hétérogènes. Son prédicteur proprioceptif unifié basé sur un Mixture-of-Experts (MoE) modélise la coordination corps entier et la dynamique temporelle de mouvement à partir de trajectoires issues de multiples morphologies robotiques. Pour l'encodage visuel temporel, HEX utilise des tokens d'historique légers résumant les observations passées sans réencodage redondant des images, puis fusionne indices visuels et langagiers avec la dynamique proprioceptive via un mécanisme de fusion résiduelle à portes et une tête d'action par flow-matching. Ce cadre adresse un goulet d'étranglement réel dans les VLA appliqués aux humanoïdes : le cloisonnement bras/jambes/torse empêche une coordination fluide et pénalise les tâches à réaction rapide ou à horizon long (planification multi-étapes). Les expériences sur tâches de manipulation réelles montrent que HEX atteint des taux de succès et une capacité de généralisation de l'état de l'art, précisément dans ces deux régimes critiques pour un déploiement industriel. La capacité à transférer des politiques entre morphologies hétérogènes (cross-embodiment) réduit également le coût de collecte de données par plateforme, un argument concret pour les intégrateurs. HEX s'inscrit dans une course dense au contrôle humanoïde haute fidélité. Pi0 de Physical Intelligence a popularisé le flow-matching pour la génération d'actions continues ; GR00T N2 de NVIDIA et Helix de Figure AI misent sur l'apprentissage en simulation massive. OpenVLA reste la référence open-source. HEX se distingue par son MoE dédié à la proprioception multi-corps, absent des architectures concurrentes. L'article étant un preprint arXiv révisé (v2), les résultats restent à confirmer par évaluation indépendante ; aucune affiliation institutionnelle ni timeline de déploiement n'est précisée dans le résumé public.

IA physiqueOpinion
1 source
Manipulation corps entier des humanoïdes via un cerveau spatial actif et un cervelet d'action généralisable
3arXiv cs.RO 

Manipulation corps entier des humanoïdes via un cerveau spatial actif et un cervelet d'action généralisable

Des chercheurs ont publié le 27 mai 2026 un preprint (arXiv:2605.21133) présentant un framework de loco-manipulation pour robots humanoïdes baptisé ASB-GAC, articulé autour de deux modules distincts. Le premier, Active Spatial Brain (ASB), assure la perception spatiale active et la planification de tâches en décomposant les objectifs en sous-tâches. Le second, Generalizable Action Cerebellum (GAC), traduit ces décisions en commandes moteur exécutables sur robot réel. L'approche s'appuie sur des grands modèles multi-agents pour orchestrer perception et génération d'actions. Les auteurs ont conçu un jeu de tâches de manipulation spatiale dépassant le cadre classique de la table rase, couvrant des environnements 3D avec des relations spatiales variées, et mesurent les performances sur deux axes : compréhension spatiale et exécution physique réelle. Le point saillant de ce travail est l'affirmation que GAC génère des actions robot exécutables sans données réelles spécifiques à chaque tâche, ce qui s'attaque directement au goulot d'étranglement majeur du secteur : collecter des trajectoires sur robot physique coûte cher et ne se généralise pas. Si la validité de cette approche se confirme au-delà des benchmarks maison, cela pourrait réduire significativement le cycle de développement pour les intégrateurs cherchant à déployer des humanoïdes sur des tâches variées d'entrepôt ou d'assemblage. Toutefois, le preprint ne fournit pas de métriques de cycle time, de taux de succès détaillés ni de comparaisons quantitatives directes avec des baselines comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA), ce qui limite l'évaluation indépendante des claims de généralisation. Ce travail s'inscrit dans une dynamique de recherche très active sur la manipulation whole-body, où la fracture entre simulation et réalité reste un verrou central. Des acteurs comme Figure AI avec Figure 03, Tesla avec Optimus Gen 3, ou Physical Intelligence avec pi0 ont tous investi massivement dans la collecte de données réelles pour combler ce fossé. L'approche sim-to-real et l'utilisation de VLA (Vision-Language-Action models) comme vecteur de généralisation sont aujourd'hui les deux grandes stratégies concurrentes. Ce preprint propose une troisième voie par décomposition hiérarchique via LLM multi-agents, mais sans nom d'entreprise, sans robot cible identifié, et sans annonce de pilote industriel : il s'agit pour l'instant d'un résultat académique à surveiller avant tout transfert vers le terrain.

IA physiquePaper
1 source
SCRIPT : politique de diffusion extensible, entraînement multi-étapes, contrôle physique d'humanoïdes par le langage
4arXiv cs.RO 

SCRIPT : politique de diffusion extensible, entraînement multi-étapes, contrôle physique d'humanoïdes par le langage

Une équipe de chercheurs a publié le 28 mai 2026 sur arXiv (2605.22894) SCRIPT, un système de contrôle de robots humanoïdes en simulation physique piloté par des instructions en langage naturel. L'architecture centrale, baptisée JAST-DiT (Joint Action-State-Text Diffusion Transformer), représente simultanément les actions du robot, ses états physiques et les commandes textuelles sous forme de flux de tokens distincts, reliés par un mécanisme d'attention conjointe. Cette conception permet une interaction directe entre la sémantique linguistique et la dynamique de contrôle, sans passer par une couche de traduction intermédiaire. Pour stabiliser le contrôle sur des horizons longs, SCRIPT intègre un conditionnement d'historique non linéaire qui conserve un contexte récent dense tout en échantillonnant des repères de plus en plus épars dans l'historique à long terme. Le pré-entraînement par imitation supervisée est ensuite renforcé par une phase RLHR (Reinforcement Learning with Hybrid Rewards), qui injecte un bruit apprenable dans le processus de diffusion pour améliorer la qualité de mouvement et le suivi d'instruction en boucle fermée. Les évaluations quantitatives montrent que SCRIPT dépasse les méthodes antérieures sur trois métriques : alignement textuel, qualité de mouvement et réalisme physique. Les études de passage à l'échelle sur le dataset MotionMillion, qui totalise 1 200 heures de données de mouvement, confirment une progression continue des performances à mesure que le modèle grossit. L'intérêt technique de SCRIPT est de s'attaquer frontalement à la tension structurelle du domaine : entre expressivité sémantique (un humanoïde qui comprend des ordres variés) et faisabilité physique (un humanoïde qui ne tombe pas). Les approches existantes sacrifient généralement l'un pour l'autre. Le fait que SCRIPT améliore simultanément les trois métriques en boucle fermée est notable, car les simulations en boucle ouverte masquent souvent les dérives accumulées. La démonstration de scalabilité sur 1 200 heures de données suggère que l'architecture n'est pas un artefact de surapprentissage sur un corpus réduit, ce qui est un signal positif pour quiconque envisage un pré-entraînement à grande échelle de fondations motrices. Pour les intégrateurs et les équipes R&D, cela valide partiellement l'hypothèse selon laquelle les politiques de diffusion à grande échelle peuvent absorber la variabilité des commandes en langage naturel sans sacrifier la stabilité physique. Ce travail s'inscrit dans la vague des VLA (Vision-Language-Action models) appliqués aux humanoïdes en simulation physique, un axe de recherche très actif depuis 2024. Il entre en concurrence directe avec des approches comme PHC, UniHSI ou les variantes récentes de contrôle par diffusion de Nvidia (GR00T N2), qui ciblent des problèmes similaires de contrôle conditionné par le langage. SCRIPT se distingue par sa composante RLHR post-entraînement et son protocole de scaling explicite, deux éléments souvent absents des publications académiques concurrentes. Il s'agit ici d'une annonce de recherche préprint, pas d'un produit déployé : le code sera rendu public mais aucun calendrier de transfert vers du matériel réel n'est mentionné. Les prochaines étapes naturelles seront le transfert sim-to-real et l'évaluation sur des plateformes physiques comme Unitree H1 ou Figure 03.

💬 Tout le monde fait du contrôle d'humanoïde en simu physique en ce moment, mais SCRIPT se distingue par quelque chose de rare en académique : une phase de renforcement post-entraînement documentée. Sur 1 200 heures de données, les perfs progressent sans s'effondrer, ce qui élimine le scénario "artefact de sur-entraînement". Maintenant faut juste que ça tienne sur un vrai robot, et là c'est une autre histoire.

IA physiqueOpinion
1 source