Aller au contenu principal
HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde
IA physiquearXiv cs.RO2h

HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2602.16705, version 3) un système de manipulation locomotrice pour humanoïdes baptisé HERO (Humanoid End-Effector Residual cOntrol), conçu pour saisir des objets du quotidien sans liste prédéfinie de cibles. Le système fonctionne en open-vocabulary : il identifie visuellement les objets via des images RGB-D et des grands modèles de vision, puis planifie et exécute la saisie en temps réel. L'innovation centrale est une politique de suivi de l'effecteur terminal (EE) dite "résidual-aware", qui combine trois composants : une cinématique inverse pour convertir les cibles résiduelles de l'EE en trajectoires de référence, un modèle neuronal de cinématique directe entraîné en simulation, et un mécanisme de ré-planification dynamique. Ce pipeline réduit l'erreur de suivi de l'effecteur à 2,44 cm, soit une amélioration annoncée de 5,5x par rapport à la meilleure méthode antérieure. Les tests en environnements réels, bureaux, cafés, démontrent la saisie de mugs, pommes et jouets sur des surfaces allant de 43 à 92 cm de hauteur.

L'approche modulaire de HERO rompt avec la tendance dominante des méthodes end-to-end monolithiques (apprentissage par imitation, sim-to-real intégral) qui peinent à généraliser sans retraining massif. En séparant la compréhension de scène, déléguée aux fondations vision, du contrôle moteur précis, entraîné entièrement en simulation, les auteurs obtiennent une généralisation out-of-distribution plus robuste sur de nouveaux environnements. Pour un intégrateur, cela signifie potentiellement moins de données de démonstration à collecter par site de déploiement. Les 2,44 cm d'erreur restent trop élevés pour des tâches d'assemblage de précision, mais suffisants pour le pick-and-place d'objets courants. La métrique "5,5x meilleure" mérite réserve : les conditions exactes du benchmark ne sont pas détaillées dans l'abstract.

Ce travail s'inscrit dans une course dense sur le contrôle loco-manipulation des humanoïdes. Physical Intelligence avec Pi-0, Figure AI avec Figure 03, Agility Robotics avec Digit, et Unitree explorent tous des pipelines combinant grands modèles de vision-langage-action (VLA) et contrôle fin de l'effecteur. La question du sim-to-real gap reste le principal verrou non résolu dans le secteur pour les tâches de manipulation dextre, et HERO propose une réponse architecturale partielle en hybridant cinématique classique et apprentissage neuronal, une direction explorée également par des équipes européennes comme Wandercraft sur leurs plateformes bipèdes. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : il s'agit pour l'instant d'un résultat de recherche, pas d'un produit commercialisé.

Impact France/UE

Des équipes européennes comme Wandercraft explorent des architectures similaires sur le contrôle bipède ; l'approche hybride de HERO (cinématique classique + apprentissage neuronal) peut informer leurs pipelines de R&D, mais l'impact reste indirect, sans déploiement ni partenariat industriel européen associé.

À lire aussi

VOFA : poussée d'objets vers un objectif visuel avec contrôle adaptatif en force pour humanoïdes
1arXiv cs.RO 

VOFA : poussée d'objets vers un objectif visuel avec contrôle adaptatif en force pour humanoïdes

Une équipe de chercheurs a publié en mai 2025 sur arXiv les résultats de VOFA, un système de loco-manipulation destiné aux robots humanoïdes capable de pousser des objets lourds vers des positions cibles arbitraires en utilisant uniquement la perception embarquée. Les expériences ont été conduites sur le robot humanoïde Booster T1, et les résultats affichent un taux de réussite supérieur à 90 % en simulation et supérieur à 80 % en conditions réelles. Le système parvient à déplacer des charges allant jusqu'à 17 kg, soit plus de la moitié du poids propre du T1, sans aucune connaissance préalable de la masse des objets ni du coefficient de friction au sol. L'architecture repose sur deux niveaux hiérarchiques : une politique visuomotrice haut niveau, conditionnée par les objectifs, qui traite des observations embarquées bruitées, et un contrôleur bas niveau de type force-adaptive whole-body qui absorbe les incertitudes physiques en boucle fermée temps réel. La difficulté centrale que VOFA cherche à résoudre est précisément celle qui bloque la robotique de manipulation en entrepôt : agir de façon robuste sans connaissance privilégiée de l'état de l'objet, c'est-à-dire sans capteurs dédiés sur le sol, sans marqueurs visuels, et sans modèle de masse injecté à la volée. Le taux de 80 % en monde réel sur des tâches de poussée est significatif car ces tâches cumulent plusieurs sources de défaillance simultanées (glissement, dérive de perception, erreur d'actuation). Ce résultat suggère que la combinaison politique VLA conditionnée visuellement et contrôle force adaptatif permet de franchir le reality gap sans sur-spécialiser le système à un objet ou à un terrain particulier. Pour les intégrateurs logistiques, cela ouvre une voie vers la manutention généraliste sans infrastructure capteur supplémentaire. Le déploiement de robots humanoïdes dans la logistique est activement poursuivi par Figure Robotics (BMW, contrat 2024), Agility Robotics (Amazon), et Apptronik (Mercedes-Benz). VOFA se distingue de leurs approches en adressant explicitement la robustesse aux propriétés physiques inconnues plutôt que la vitesse ou le payload brut. Le Booster T1 est un humanoïde développé par la startup chinoise Booster Robotics, moins médiatisée que ses concurrents américains mais qui dispose d'une plateforme ouverte à la recherche. Le papier reste pour l'instant une contribution académique sans annonce de déploiement ni de partenariat industriel, et les vidéos de démonstration n'ont pas fait l'objet d'une validation externe. Les prochaines étapes naturelles incluent l'extension à des tâches de manipulation bimanuelles et à des environnements encombrants, deux conditions nécessaires pour valider l'approche en entrepôt réel.

IA physiqueOpinion
1 source
HANDOFF : contrôle corps entier d'humanoïdes à base d'agents par distillation d'enseignants complémentaires
2arXiv cs.RO 

HANDOFF : contrôle corps entier d'humanoïdes à base d'agents par distillation d'enseignants complémentaires

Des chercheurs présentent dans un preprint arXiv soumis en juin 2026 (2606.06493) HANDOFF, un contrôleur de corps entier pour robots humanoïdes qui vise à réduire le fossé entre planification sémantique et exécution motrice bas niveau. Le problème ciblé est structurel : les contrôleurs existants nécessitent des références cinématiques denses que les planificateurs à base de modèles de langage ou de vision peinent à produire directement depuis une instruction sémantique. HANDOFF introduit un espace de commande compact et explicite, distillé depuis trois enseignants spécialisés via KL distillation avec un mécanisme de gating conditionné au contexte : suivi de mouvement corps entier (avec données filtrées pour la sécurité), locomotion, et récupération de chute. L'architecture produit un modèle étudiant de type mixture-of-experts évalué sur le Unitree G1, avec des démonstrations pilotées en langage naturel via un planificateur agentique à base de VLM (vision-language model), sans fine-tuning spécifique aux tâches. Les résultats revendiqués incluent un suivi de vitesse comparable à l'état de l'art et l'un des plus larges espaces de travail de manipulation robuste parmi les contrôleurs publiés sur cette plateforme. L'enjeu est concret pour les intégrateurs industriels : la multiplication des humanoïdes commerciaux (Figure 03, Agility Digit, Apptronik Apollo, Unitree H1) crée une pression croissante pour des contrôleurs capables de s'interfacer directement avec des planificateurs généralistes sans recourir à du fine-tuning par tâche, coûteux en données et en temps d'ingénierie. Si l'interface proposée tient en dehors des scénarios de démonstration, un planificateur LLM ou VLM pourrait enchaîner des séquences complexes sans modifier la couche bas niveau, ce qui réduit significativement la friction à l'intégration. La récupération de chute embarquée est un atout non-trivial pour les environnements industriels réels. Toutefois, les vidéos sélectionnées et l'absence de métriques quantitatives sur la diversité des scénarios testés invitent à une lecture prudente avant de conclure sur le passage à l'échelle hors laboratoire. Ce travail s'inscrit directement dans la course aux VLA (vision-language-action models) post-2024, avec des concurrents explicites comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure, et les architectures de OpenVLA ou Octo côté académique. HANDOFF se distingue par une distillation multi-enseignants plutôt qu'un entraînement end-to-end unifié, une stratégie proche des travaux de l'ETH Zurich sur ANYmal en quadrupède. Le choix du Unitree G1 (commercialisé autour de 16 000 dollars) est cohérent avec une visée de reproductibilité académique large. Les prochaines étapes probables incluent des évaluations sur des tâches de manipulation plus diversifiées, des tests en environnements non structurés, et potentiellement un transfert vers des plateformes humanoïdes commerciales plus musclées.

IA physiqueOpinion
1 source
Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié
3arXiv cs.RO 

Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié

Des chercheurs ont publié sur arXiv (identifiant 2511.22963, troisième version) Humanoid-LLA, un modèle d'action fondé sur un grand modèle de langage capable de convertir des instructions en langage naturel libre en séquences de mouvement whole-body exécutables directement sur des robots humanoïdes. Le système s'attaque à deux verrous techniques bien connus dans le domaine : la rareté des données appariées langage-mouvement humanoïde, et l'instabilité physique des mouvements synthétiques. Pour y remédier, l'architecture apprend un vocabulaire de mouvement unifié humain-humanoïde qui permet d'ancrer la sémantique de haut niveau dans un espace de contrôle physiquement cohérent. L'entraînement suit un protocole en deux étapes : une phase supervisée par Chain-of-Thought sur les séquences de mouvement, suivie d'un affinage par reinforcement learning conditionné par un retour de simulation physique. Les évaluations combinent tests en simulation et expériences réelles en cross-embodiment, soit sur plusieurs modèles de robots distincts. Ce travail comble un angle mort persistant dans la recherche sur les humanoïdes : la commande en langage libre pour le contrôle du corps entier, et pas seulement du bras manipulateur. Les approches existantes restent soit cantonnées à des instructions prédéfinies, soit contraintes à sacrifier la diversité des mouvements pour conserver la stabilité physique. Humanoid-LLA tente de lever ce compromis en intégrant explicitement la physique dans la boucle d'apprentissage via le RL. Pour les intégrateurs et les COO industriels, l'enjeu est concret : un tel modèle pourrait réduire la dépendance aux interfaces de programmation spécialisées et abaisser le coût d'interaction avec des humanoïdes en ligne de production. La capacité de généralisation à des commandes inédites reste la métrique-clé revendiquée, mais l'absence de benchmarks comparatifs standardisés et la sélection probable des démonstrations vidéo invitent à nuancer les conclusions. Humanoid-LLA s'inscrit dans la montée en puissance des modèles VLA (Vision-Language-Action), un segment où Physical Intelligence avec pi0, Google DeepMind avec RT-2 et GR00T N2 co-développé avec NVIDIA, et Figure avec son pipeline Helix ont toutes misé sur le couplage langage-action pour dépasser les politiques sensorimotrices figées. La spécificité de cette contribution est le focus explicite sur le mouvement du corps complet plutôt que sur la manipulation d'objets, un espace encore peu exploré à grande échelle. L'article demeure un preprint non évalué par les pairs, sans déploiement industriel ni partenariat de mise en production annoncé. Les prochaines étapes probables incluent une soumission en conférence de type ICRA ou CoRL, et une validation sur des humanoïdes commerciaux comme l'Unitree H1 ou le Boston Dynamics Atlas, régulièrement utilisés comme bancs de test dans ce segment.

IA physiqueOpinion
1 source
Manipulation corps entier des humanoïdes via un cerveau spatial actif et un cervelet d'action généralisable
4arXiv cs.RO 

Manipulation corps entier des humanoïdes via un cerveau spatial actif et un cervelet d'action généralisable

Des chercheurs ont publié le 27 mai 2026 un preprint (arXiv:2605.21133) présentant un framework de loco-manipulation pour robots humanoïdes baptisé ASB-GAC, articulé autour de deux modules distincts. Le premier, Active Spatial Brain (ASB), assure la perception spatiale active et la planification de tâches en décomposant les objectifs en sous-tâches. Le second, Generalizable Action Cerebellum (GAC), traduit ces décisions en commandes moteur exécutables sur robot réel. L'approche s'appuie sur des grands modèles multi-agents pour orchestrer perception et génération d'actions. Les auteurs ont conçu un jeu de tâches de manipulation spatiale dépassant le cadre classique de la table rase, couvrant des environnements 3D avec des relations spatiales variées, et mesurent les performances sur deux axes : compréhension spatiale et exécution physique réelle. Le point saillant de ce travail est l'affirmation que GAC génère des actions robot exécutables sans données réelles spécifiques à chaque tâche, ce qui s'attaque directement au goulot d'étranglement majeur du secteur : collecter des trajectoires sur robot physique coûte cher et ne se généralise pas. Si la validité de cette approche se confirme au-delà des benchmarks maison, cela pourrait réduire significativement le cycle de développement pour les intégrateurs cherchant à déployer des humanoïdes sur des tâches variées d'entrepôt ou d'assemblage. Toutefois, le preprint ne fournit pas de métriques de cycle time, de taux de succès détaillés ni de comparaisons quantitatives directes avec des baselines comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA), ce qui limite l'évaluation indépendante des claims de généralisation. Ce travail s'inscrit dans une dynamique de recherche très active sur la manipulation whole-body, où la fracture entre simulation et réalité reste un verrou central. Des acteurs comme Figure AI avec Figure 03, Tesla avec Optimus Gen 3, ou Physical Intelligence avec pi0 ont tous investi massivement dans la collecte de données réelles pour combler ce fossé. L'approche sim-to-real et l'utilisation de VLA (Vision-Language-Action models) comme vecteur de généralisation sont aujourd'hui les deux grandes stratégies concurrentes. Ce preprint propose une troisième voie par décomposition hiérarchique via LLM multi-agents, mais sans nom d'entreprise, sans robot cible identifié, et sans annonce de pilote industriel : il s'agit pour l'instant d'un résultat académique à surveiller avant tout transfert vers le terrain.

IA physiquePaper
1 source