HumanoïdesarXiv cs.RO 1 juin 2026

SSR : locomotion humanoïde stable et symétrique étendue au monde ouvert

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié fin mai 2026 sur arXiv (preprint 2605.30770) un framework baptisé SSR, pour "Surefooted and Symmetric Robotics", destiné à la locomotion en environnement ouvert pour robots humanoïdes. L'approche est entièrement end-to-end et s'appuie sur la vision égocentrique (caméra embarquée sur le robot) pour guider le placement des pieds en temps réel sur des terrains hétérogènes. Le système a été validé expérimentalement sur escaliers à géométrie variable, plateformes surélevées, passages à larges écarts et parcours outdoor longue distance, des scénarios qui constituent précisément les points de rupture des pipelines classiques de locomotion bipedale. Aucune entreprise commerciale n'est mentionnée : il s'agit d'un travail académique, à ce stade sans déploiement industriel annoncé.

SSR apporte trois contributions techniques distinctes. La première, "imagined foothold guidance", consiste à modéliser par anticipation les contacts futurs du pied en phase d'oscillation (swing phase) avant l'atterrissage, orientant le mouvement vers des zones de support stables et réduisant les glissades en bordure d'obstacle, un problème récurrent sur les robots qui réagissent uniquement au contact. La deuxième, une augmentation de symétrie dans l'espace latent par équivariance, force une coordination bilatérale cohérente (gauche-droite) même sous des observations visuelles haute dimension, ce que les méthodes classiques de data augmentation peinent à garantir. La troisième, des discriminateurs de mouvement spécialisés par type de terrain, pousse le robot vers des comportements anthropomorphes contextualisés plutôt qu'une démarche générique. Ces trois mécanismes adressent directement le "demo-to-reality gap" : la locomotion reste stable sans nécessiter de détection terrain explicite ni de carte métrique préétablie.

Le problème de traversée en vision égocentrique pour humanoïdes a été abordé ces dernières années par plusieurs axes : les approches model-based (Boston Dynamics Atlas, avec planification explicite), les méthodes RL aveugles (Unitree H1, Agility Robotics Digit), et plus récemment les VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui cherchent à généraliser via des fondations préentraînées. SSR se positionne dans une voie intermédiaire, apprentissage de bout en bout sans modèle de terrain, mais sans large fondation multimodale. L'absence de chiffres de cycle time, de payload ou de taux de succès quantifiés dans l'abstract invite à la prudence avant d'évaluer la portée réelle ; les résultats complets sont dans le papier. Les prochaines étapes naturelles seraient un benchmark comparatif standardisé (type parkour DARPA ou ANYmal) et un pilote sur plateforme commerciale existante.

Dans nos dossiers

Boston Dynamics Unitree Agility Robotics — Digit NVIDIA GR00T

À lire aussi

1arXiv cs.RO

Locomotion corps entier des humanoïdes : apprentissage par génération et suivi de mouvement

Des chercheurs proposent un cadre de locomotion humanoid corps-entier combinant un modèle de diffusion entraîné sur des mouvements humains retargetés avec un tracker de mouvements par apprentissage par renforcement (RL), le tout déployé sur le robot Unitree G1. Le système génère en temps réel des trajectoires de référence adaptées au terrain, puis un module de suivi les exécute sur le robot complet, en s'appuyant uniquement sur la perception embarquée. Lors des tests matériels, le G1 a franchi avec succès des boîtes, des haies, des escaliers et des combinaisons de terrains mixtes, sans recourir à des capteurs externes ni à un calcul déporté. L'enjeu technique central que ce travail adresse est connu dans le secteur sous le nom de "lower-body dominance" : les approches RL classiques avec reward shaping tendent à produire une locomotion efficace mais raide, concentrée sur les jambes, au détriment de la coordination du buste et des bras. À l'inverse, l'imitation pure de mouvements de référence limite la capacité d'adaptation en ligne aux obstacles imprévus. Le couplage proposé -- générer à la volée la référence adaptée au terrain puis la tracker en boucle fermée -- représente une architecture crédible pour combler ce gap, même si les vidéos de démonstration présentées restent sélectionnées et ne constituent pas encore une validation sur terrain non contrôlé à large échelle. Le Unitree G1, commercialisé depuis 2024 à environ 16 000 dollars, est devenu un banc de test standard pour les laboratoires académiques en locomotion humanoid, au même titre que l'Atlas de Boston Dynamics pour les groupes industriels. Ce travail s'inscrit dans une vague de publications exploitant les modèles de diffusion pour la génération de mouvements robotiques, une tendance initiée notamment par les travaux sur pi0 (Physical Intelligence) et GR00T N2 (NVIDIA). Les auteurs annoncent des résultats quantitatifs montrant que la fine-tuning en boucle fermée améliore la généralisation ; la prochaine étape logique serait une validation sur des terrains non vus pendant l'entraînement et un déploiement en conditions industrielles réelles.

HumanoïdesPaper

1 source

2arXiv cs.RO

X2-N : robot humanoïde transformable hybride roues-jambes à double mode de locomotion et manipulation

Des chercheurs ont publié sur arXiv (référence 2604.21541v1, avril 2026) les résultats de développement du X2-N, un robot à locomotion hybride roues-jambes capable de se transformer entre une configuration humanoïde bipède et une configuration à roues, par reconfiguration articulaire à la volée. Contrairement aux plateformes roues-jambes existantes qui utilisent des roues fixes en guise de pieds et des hanches à degrés de liberté limités, le X2-N dispose d'un grand nombre de degrés de liberté (le nombre exact n'est pas précisé dans l'abstract) et d'un buste complet avec deux bras manipulateurs. Le système de contrôle repose sur un framework de contrôle corps entier basé sur l'apprentissage par renforcement (RL), unifiant locomotion hybride, transformation morphologique et manipulation dans un même pipeline. Les validations expérimentales couvrent des tâches de locomotion dynamique de type skating, de montée d'escaliers et de livraison de colis. Le point central de cette contribution est l'adresse du double goulot d'étranglement qui freine les robots roues-jambes actuels : la rigidité de la configuration au sol, qui dégrade la stabilité en mode biped, et l'absence de membres supérieurs, qui interdit toute manipulation. En intégrant ces deux capacités dans un seul châssis transformable piloté par un unique contrôleur RL, les auteurs montrent qu'il est possible d'obtenir une adaptabilité terrain élevée sans sacrifier les capacités de manipulation. Pour un COO industriel ou un intégrateur logistique, c'est la promesse d'un seul robot capable d'alterner entre déplacement rapide en mode roues sur sol continu et navigation en mode jambes sur terrains discontinus, tout en manipulant des charges. Il convient néanmoins de souligner que les validations présentées restent des démonstrations en laboratoire : aucun déploiement industriel réel ni chiffres de cycle time en conditions production ne sont fournis. Le segment des robots roues-jambes est occupé notamment par Unitree (variantes B2W et H1 avec extensions roues), Boston Dynamics (Handle, orienté logistique mais sans bras polyvalents), et diverses startups issues de laboratoires universitaires asiatiques et américains. Le X2-N se positionne sur la convergence humanoïde-AMR, un créneau en compétition directe avec les approches tout-biped des acteurs comme Figure, Agility Robotics ou Fourier Intelligence, qui misent sur l'universalité de la forme humaine plutôt que sur la flexibilité morphologique. La prochaine étape logique pour cette recherche serait une validation hors laboratoire et la publication de métriques de performance comparables à celles des plateformes commerciales, pour confirmer que les gains en efficacité de locomotion compensent la complexité mécanique additionnelle.

HumanoïdesPaper

1 source

3arXiv cs.RO

TAGA : apprentissage du regard actif adapté au terrain pour une locomotion humanoïde agile et généralisable

Des chercheurs ont publié sur arXiv (référence 2606.05880) un cadre d'apprentissage baptisé TAGA pour "Terrain-aware Active Gaze", conçu pour améliorer la locomotion agile des robots humanoïdes sur des terrains variés et difficiles. L'approche fusionne vision, proprioception et commandes de mouvement pour guider le modèle dans l'anticipation des obstacles et la sélection active des zones d'intérêt dans le scan de hauteur du terrain. Le résultat le plus notable annoncé est une traversée de brèches atteignant 1,2 mètre en conditions réelles, présentée par les auteurs comme la plus grande distance rapportée pour la locomotion humanoïde perceptive. Le système démontre également la sélection fiable de points d'appui (foothold selection), la traversée de plateformes surélevées et la navigation sur des appuis épars. Ce qui distingue TAGA des approches classiques est l'émergence des comportements de regard actif par apprentissage par renforcement seul, sans supervision supplémentaire ni guidage explicite. En s'inspirant de la manière dont les humains orientent naturellement leur regard vers les zones du sol pertinentes lors de la marche, le modèle apprend à concentrer son attention sur les régions informatives du scan terrain. Cela augmente la densité d'information des observations tout en respectant les contraintes computationnelles embarquées typiques des plateformes humanoïdes. Pour les ingénieurs robotiques, c'est un signal positif sur la convergence possible entre efficacité computationnelle et robustesse perceptive, deux contraintes souvent antagonistes dans les systèmes embarqués temps réel. La locomotion perceptive humanoïde est un champ de recherche très actif où plusieurs équipes cherchent à combler le fossé simulation-réel. Des plateformes comme ANYmal (ANYbotics) ou les robots Boston Dynamics ont posé des références solides pour la locomotion tout-terrain sur quadrupèdes, mais les humanoïdes ajoutent des défis mécaniques liés à leur centre de masse élevé et leur dynamique plus instable. L'absence de mention d'une plateforme matérielle spécifique dans ce preprint limite pour l'instant la reproductibilité externe des chiffres annoncés, et la métrique de 1,2 m reste auto-rapportée sans benchmark tiers. La prochaine étape naturelle sera la validation sur des humanoïdes commerciaux comme Unitree H1/G1, Fourier GR-1 ou Figure 02/03, dont les équipes publient régulièrement des benchmarks similaires.

HumanoïdesPaper

1 source

4arXiv cs.RO

PhyGile : génération de mouvements guidée par préfixe physique pour le suivi agile d'humanoïdes généralistes

Une équipe de chercheurs a publié PhyGile (arXiv:2603.19305v2), un framework unifié visant à combler le fossé entre la génération de mouvements en texte naturel et l'exécution physiquement réaliste sur robots humanoïdes réels. Le problème central que ce travail adresse est connu dans le secteur sous le nom de "reality gap" : les modèles text-to-motion existants sont entraînés sur des captures de mouvement humain, ce qui leur confère des priors biomécaniques incompatibles avec les robots (distribution de masse, stratégies de contact, actuation). Résultat : les trajectoires générées paraissent géométriquement correctes (limites articulaires respectées, continuité de pose), mais violent la faisabilité physique dès qu'on tente de les exécuter. PhyGile génère directement des mouvements natifs-robot dans un espace squelettique à 262 dimensions, guidé par des "physics prefixes" calculés à l'inférence, éliminant ainsi l'étape de retargeting et ses artefacts. Le contrôleur General Motion Tracking (GMT) est d'abord entraîné avec un schéma curriculum à mixture-of-experts, puis affiné sur des données de mouvement non étiquetées pour améliorer la robustesse, avant une phase d'adaptation fine guidée par les préfixes physiques. Des expériences offline et sur robots réels valident l'approche sur des mouvements agiles et à haute dynamique dépassant la marche ou les locomotions lentes habituellement testées. Sur le plan de l'impact sectoriel, ce papier s'attaque à l'un des problèmes les plus résistants de la commande humanoïde : le sim-to-real pour des mouvements expressifs et agiles, pas seulement pour la marche stable. La démonstration sur robots réels (et pas uniquement en simulation) est notable, même si les vidéos sélectionnées restent une métrique partielle et difficile à généraliser sans benchmarks standardisés. Pour les intégrateurs et les équipes R&D, l'approche mixture-of-experts combinée à une adaptation post-entraînement sur données non étiquetées représente une voie pragmatique pour étendre la couverture de mouvement sans collecter massivement de nouvelles données étiquetées. Ce travail s'inscrit dans un contexte de compétition intense autour du contrôle locomoteur humanoïde. Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi-0), NVIDIA (GR00T N2) et Agility Robotics travaillent tous sur des pipelines VLA (Vision-Language-Action) ou text-to-motion à large échelle. PhyGile se distingue en ciblant explicitement les mouvements agiles entiers du corps, là où la plupart des travaux récents se concentrent sur la manipulation ou la locomotion basique. Le papier étant une révision arXiv (v2), il n'y a pas encore d'annonce de déploiement industriel ni de partenariat commercial associé.

HumanoïdesOpinion

1 source