HumanoïdesRobotics Business Review1h

Humanoid : l'apprentissage par renforcement KinetIQ Ascend atteint une dextérité proche de l'humain

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

La société londonienne Humanoid a dévoilé la semaine dernière KinetIQ Ascend, une méthode d'apprentissage par renforcement (RL) visant une fiabilité de manipulation de 99,9% à une vitesse égale ou supérieure à celle d'un humain. Ce module s'ajoute à KinetIQ, le framework IA propriétaire à quatre couches de l'entreprise, et permet à ses robots d'affiner directement sur le terrain des comportements de base plutôt que de dépendre de mois de réglages manuels. Sur un test de prélèvement de pièces (bagues de roulement en acier extraites d'un bac et déposées sur un convoyeur), le débit a augmenté de 42%, portant la vitesse du robot à 1,5 fois celle des démonstrations humaines initiales. Sur une tâche de tri dans un bac encombré avec remise d'objets à une personne, le débit a grimpé de 85% et le taux de réussite est passé de 80% à 98%. Sur une troisième tâche bimanuelle, soulever un bac à deux bras, le débit a plus que doublé et le taux de réussite est passé de 78% à 99%, soit une division par vingt du taux d'échec. Tous ces résultats ont été obtenus après seulement quelques jours d'entraînement, selon Humanoid, qui affirme aussi que la performance progresse de façon prévisible avec le temps d'entraînement, une dynamique comparée par l'entreprise à celle des grands modèles de langage face au calcul et aux données.

Ces chiffres, qu'il faut prendre avec la prudence habituelle réservée aux communiqués d'entreprise (résultats en laboratoire, tâches choisies par Humanoid elle-même), interviennent à un moment où le secteur cherche justement à sortir du stade de la démonstration pour prouver une fiabilité industrielle exploitable en production. La promesse centrale de KinetIQ Ascend est de réduire drastiquement le temps de mise au point d'une nouvelle compétence robotique: au lieu de collecter des données et calibrer manuellement chaque geste pendant des mois, l'entreprise part d'un comportement basique que le RL affine ensuite jusqu'à un niveau déployable, ce qu'elle appelle une "capability factory". Si les gains de généralisation à des objets non vus à l'entraînement se confirment à plus grande échelle, cela toucherait un point sensible du secteur: la difficulté historique des robots humanoïdes à transférer une compétence apprise en simulation ou en démonstration vers des variations réelles du monde physique, le fameux écart sim-to-real. Pour les intégrateurs et décideurs industriels, la question reste de savoir si ces taux de réussite tiennent sur des lignes de production réelles, avec la variabilité des pièces, l'éclairage et les pannes, et non uniquement sur les scénarios contrôlés présentés par l'entreprise.

Humanoid a été fondée en 2024 par Artem Sokolov et revendique plus de 250 ingénieurs et chercheurs issus des grandes entreprises technologiques, avec des bureaux à Londres, Boston, Vancouver et San Diego. L'entreprise affiche l'ambition de devenir le numéro un mondial de la robotique humanoïde industrielle généraliste sous deux ans, un objectif qui la place en concurrence directe avec des acteurs comme Figure AI, Tesla avec Optimus, ou les développeurs de modèles VLA tels que Pi-0 de Physical Intelligence et GR00T de Nvidia. En mai, Humanoid s'est associée à Bosch et Schaeffler pour industrialiser la production de ses robots HMND, un partenariat qui ancre l'entreprise du côté de la fabrication à grande échelle plutôt que de la seule recherche. Jarad Cannon, directeur technique de Humanoid, présente KinetIQ Ascend comme la preuve que la course aux robots humanoïdes devient une question d'échelle, où le RL en conditions réelles jouerait un rôle central pour faire passer ces machines du statut de démonstrations impressionnantes à celui d'outils réellement exploitables par l'industrie. L'entreprise a publié un rapport technique détaillant ces résultats, sans toutefois préciser de calendrier de déploiement commercial concret pour cette nouvelle capacité.

Impact France/UE

Le partenariat de Humanoid avec les groupes allemands Bosch et Schaeffler pour industrialiser les robots HMND ancre indirectement cette avancée technologique dans l'écosystème industriel européen.

Dans nos dossiers

Figure NVIDIA GR00T Physical Intelligence — π0

À lire aussi

1arXiv cs.RO

Apprentissage par renforcement guidé par référence pour la navigation autonome de robots humanoïdes en terrain variable

Une équipe de recherche publie sur arXiv (référence 2605.15517) une méthode d'entraînement de politiques de locomotion par apprentissage par renforcement (RL) pour robots humanoïdes, dans laquelle les trajectoires de référence sont adaptées dynamiquement à la géométrie du terrain pendant l'entraînement. Concrètement, le système génère en boucle des trajectoires de référence contrôlables en SE(2), l'espace de déplacement planaire, en projetant les appuis de pied sur des zones d'appui valides et en ajustant les trajectoires du pied oscillant et du centre de masse selon le relief. L'interface exposée est un vecteur de vitesse SE(2) standard, directement compatible avec les planificateurs de navigation autonome existants. Côté hardware, les chercheurs ont intégré cette politique avec un planificateur MPC (Model Predictive Control) couplé à des fonctions de barrière de contrôle (CBF), et démontré une navigation autonome en boucle fermée sur plus de 70 mètres en extérieur sur le robot Unitree G1, incluant des terrains accidentés et des escaliers consécutifs, avec l'ensemble du calcul et de la perception embarqués. Ce résultat est notable parce qu'il attaque directement le problème du "reality gap" dans la locomotion humanoïde sur terrain non structuré : en conditionnant les trajectoires de référence au terrain dès la phase de simulation, la politique apprend des comportements footholds-aware plutôt que des mouvements génériques dégradés au contact du sol réel. L'exposition d'une interface SE(2) propre signifie que cette politique s'insère sans friction dans un stack de navigation autonome standard, celui qu'utilisent déjà les AMR (autonomous mobile robots) industriels, sans couche d'adaptation supplémentaire. Pour un intégrateur ou un équipementier, c'est une architecture qui réduit la dette de middlewares entre planification de chemin et exécution de locomotion. Le Unitree G1 est un humanoïde à faible coût (environ 16 000 dollars) dont Unitree, fabricant chinois, a multiplié les variantes depuis 2024. Le domaine de la locomotion humanoïde guidée par trajectoires de référence est aussi exploré par des laboratoires comme CMU, ETH Zurich (ANYbotics, Legged Gym), et des équipes comme celles de Boston Dynamics ou Agility Robotics, qui privilégient des approches similaires sim-to-real. Ce travail reste une démonstration académique, parcours sélectionnés, conditions contrôlées, et n'est pas associé à une annonce de déploiement commercial. Les prochaines étapes logiques incluent des tests à plus grande échelle de variabilité de terrain et l'intégration avec des planificateurs 3D.

HumanoïdesPaper

1 source

2arXiv cs.RO

Apprentissage multi-allures pour robots humanoïdes par renforcement avec prior de mouvement adversarial sélectif

Des chercheurs ont publié en avril 2026 sur arXiv (preprint 2604.19102) une méthode d'apprentissage par renforcement permettant à un humanoïde à 12 degrés de liberté de maîtriser cinq allures dans un cadre politique unifié : marche normale, marche militaire cadencée (goose-stepping), course, montée d'escaliers et saut, avec un espace d'action et une formulation de récompense identiques pour toutes. La contribution centrale est une stratégie appelée AMP sélectif (Adversarial Motion Prior sélectif) : l'AMP, qui guide l'apprentissage en comparant les mouvements générés à des données de référence de type mocap, est appliqué uniquement aux allures périodiques et stables (marche, goose-stepping, escaliers), et délibérément omis pour les allures dynamiques (course, saut) où sa régularisation briderait trop le mouvement. L'entraînement repose sur PPO (Proximal Policy Optimization) avec randomisation de domaine en simulation, et les politiques sont déployées sur le robot physique par transfert sim-to-réel zéro-shot, sans phase d'adaptation supplémentaire. Les expériences quantitatives montrent que l'AMP sélectif surpasse une politique AMP uniforme sur les cinq allures : convergence plus rapide, erreur de suivi réduite et meilleurs taux de succès sur les allures stables, sans dégrader l'agilité des allures explosives. Pour les équipes d'ingénierie robotique, ce résultat renforce l'idée qu'une politique monolithique bien structurée peut remplacer plusieurs contrôleurs spécialisés, réduisant la complexité du système embarqué. La réussite du transfert zéro-shot valide par ailleurs l'efficacité de la randomisation de domaine pour combler le sim-to-real gap sur un humanoïde à 12 DOF, un résultat cohérent avec des travaux récents d'ETH Zurich et de Carnegie Mellon sur les robots bipèdes. L'Adversarial Motion Prior a été formalisé par Xue Bin Peng et al. (UC Berkeley, 2021) comme mécanisme pour imiter des mouvements de référence dans un cadre RL sans récompense artisanale excessive. Des équipes chez Agility Robotics, Figure AI et Boston Dynamics explorent des variantes similaires, mais la plupart des publications se concentrent sur une ou deux allures à la fois. Ce preprint propose une généralisation plus large, bien que le robot utilisé (12-DOF, sans identification de marque dans l'abstract) reste une plateforme expérimentale dont les performances hors simulation restent à confirmer sur des terrains non contrôlés. Aucune entité française ou européenne n'est impliquée. Les étapes suivantes naturelles incluent l'extension à davantage de DOF, l'intégration de primitives de manipulation et des tests en conditions réelles variées.

HumanoïdesPaper

1 source

3arXiv cs.RO

Locomotion corps entier des humanoïdes : apprentissage par génération et suivi de mouvement

Des chercheurs proposent un cadre de locomotion humanoid corps-entier combinant un modèle de diffusion entraîné sur des mouvements humains retargetés avec un tracker de mouvements par apprentissage par renforcement (RL), le tout déployé sur le robot Unitree G1. Le système génère en temps réel des trajectoires de référence adaptées au terrain, puis un module de suivi les exécute sur le robot complet, en s'appuyant uniquement sur la perception embarquée. Lors des tests matériels, le G1 a franchi avec succès des boîtes, des haies, des escaliers et des combinaisons de terrains mixtes, sans recourir à des capteurs externes ni à un calcul déporté. L'enjeu technique central que ce travail adresse est connu dans le secteur sous le nom de "lower-body dominance" : les approches RL classiques avec reward shaping tendent à produire une locomotion efficace mais raide, concentrée sur les jambes, au détriment de la coordination du buste et des bras. À l'inverse, l'imitation pure de mouvements de référence limite la capacité d'adaptation en ligne aux obstacles imprévus. Le couplage proposé -- générer à la volée la référence adaptée au terrain puis la tracker en boucle fermée -- représente une architecture crédible pour combler ce gap, même si les vidéos de démonstration présentées restent sélectionnées et ne constituent pas encore une validation sur terrain non contrôlé à large échelle. Le Unitree G1, commercialisé depuis 2024 à environ 16 000 dollars, est devenu un banc de test standard pour les laboratoires académiques en locomotion humanoid, au même titre que l'Atlas de Boston Dynamics pour les groupes industriels. Ce travail s'inscrit dans une vague de publications exploitant les modèles de diffusion pour la génération de mouvements robotiques, une tendance initiée notamment par les travaux sur pi0 (Physical Intelligence) et GR00T N2 (NVIDIA). Les auteurs annoncent des résultats quantitatifs montrant que la fine-tuning en boucle fermée améliore la généralisation ; la prochaine étape logique serait une validation sur des terrains non vus pendant l'entraînement et un déploiement en conditions industrielles réelles.

HumanoïdesPaper

1 source

4arXiv cs.RO

Mind Your Steps : un cadre d'apprentissage général pour le suivi précis des appuis de pas chez les robots humanoïdes

Des chercheurs ont déposé le 9 juin 2026 sur arXiv (réf. 2606.08253) un framework léger pour entraîner des politiques de locomotion humanoïde capables de suivre précisément des appuis en 3D. Les approches dominantes basées sur l'apprentissage par renforcement avec commande de vitesse produisent des humanoïdes robustes, mais sans contrôle explicite du placement des pas : le robot peut marcher sur un pied humain ou rater un appui précis, compromettant les tâches de manipulation en aval. La méthode proposée introduit un "goal sampler" dynamique qui génère des séquences d'appuis variées pendant l'entraînement, rendant la politique agnostique au terrain. Une nouvelle représentation des cibles de pas compense les imprécisions du monde réel (estimation de pose bruitée, détection de contact peu fiable). La politique fonctionne comme un contrôleur bas niveau autonome, couplable à n'importe quel planificateur haut niveau, qu'il soit basé sur des cartes 2.5D, la vision ou un agent VLA. L'intérêt pour les intégrateurs industriels est concret : la précision du placement des appuis conditionne l'ensemble des tâches loco-manipulation, soit la prochaine étape critique avant le déploiement d'humanoïdes dans les entrepôts et lignes de montage. En découplant le contrôleur bas niveau du planificateur, cette architecture permet de substituer l'algorithme de planification sans réentraîner la locomotion, un argument de modularité fort pour des déploiements multi-environnements. Les expériences en simulation et en transfert sim-to-real sur terrains complexes sont présentées comme concluantes, mais ce preprint non encore évalué par les pairs ne fournit pas de benchmark comparatif public ni de métriques de précision standardisées. Ce framework s'inscrit dans la continuité des travaux sur la locomotion bipède précise issus d'ETH Zurich, du MIT et de CMU, que les équipes commerciales (Boston Dynamics Atlas, Agility Robotics Digit, Unitree H1, Figure AI) cherchent à industrialiser. L'abstract ne précise pas la plateforme matérielle utilisée lors des tests réels, ce qui limite la reproductibilité des résultats. La prochaine étape logique serait une évaluation ouverte sur des robots nommément identifiés, assortie de métriques comparables aux approches concurrentes en planification de pas développées à l'EPFL ou à Carnegie Mellon.

UEL'EPFL est citée comme référence concurrente pour la planification de pas, ce qui signale la compétitivité des labos européens dans ce domaine, mais sans impact direct sur des acteurs ou institutions français.

HumanoïdesPaper

1 source