Aller au contenu principal
Parkour humanoïde perceptif : enchaînement de compétences dynamiques par correspondance de mouvement
HumanoïdesarXiv cs.RO7sem

Parkour humanoïde perceptif : enchaînement de compétences dynamiques par correspondance de mouvement

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (arxiv:2502.15827, version révisée en mai 2026) une architecture modulaire baptisée Perceptive Humanoid Parkour (PHP), qui permet à un robot humanoïde d'enchaîner des séquences de parkour autonomes sur des parcours d'obstacles variés. Le système a été validé sur un robot Unitree G1 en conditions réelles : il peut franchir des obstacles atteignant 1,25 mètre de hauteur, soit 96 % de la taille du robot, et choisit dynamiquement entre quatre primitives de mouvement (enjamber, grimper, sauter par-dessus, rouler en descente) selon la géométrie détectée. La seule entrée sensorielle utilisée est une caméra de profondeur embarquée couplée à une commande de vitesse discrète en 2D, sans GPS ni cartographie externe.

Ce qui distingue PHP des approches précédentes est la combinaison de deux techniques jusqu'ici rarement couplées à cette échelle : le motion matching, qui assemble des primitives gestuelles humaines retargetées via une recherche par plus proche voisin dans un espace de features, et la distillation de politiques RL multi-compétences via DAgger. Le résultat concret est un robot capable de décision contextuelle en boucle fermée sur des obstacles dont la position change en temps réel, sans recalcul de trajectoire globale. Pour les intégrateurs industriels et les décideurs robotique, cela valide empiriquement que la composition de skills à horizon long dans un environnement non contrôlé n'est plus seulement une démonstration en laboratoire, mais un comportement reproductible sur matériel standard.

Le Unitree G1 est un humanoïde de série à environ 16 000 dollars, ce qui donne à ces résultats une portée plus large que des travaux réalisés sur des plateformes propriétaires. La recherche sur la locomotion humanoïde agile s'est intensifiée depuis les travaux pionniers de Boston Dynamics sur Atlas et les démonstrations de parkour d'Agility Robotics ; côté apprentissage automatique, des équipes comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) travaillent sur des politiques généralisées, mais avec un focus manipulation plus que locomotion acrobatique. PHP s'inscrit dans une tendance académique distincte, orientée expressivité du mouvement humain plutôt que productivité industrielle. La prochaine étape naturelle sera de tester la robustesse sur des obstacles non vus à l'entraînement et de mesurer les taux d'échec sur des runs prolongés, deux métriques absentes du papier actuel.

À lire aussi

Locomotion corps entier des humanoïdes : apprentissage par génération et suivi de mouvement
1arXiv cs.RO 

Locomotion corps entier des humanoïdes : apprentissage par génération et suivi de mouvement

Des chercheurs proposent un cadre de locomotion humanoid corps-entier combinant un modèle de diffusion entraîné sur des mouvements humains retargetés avec un tracker de mouvements par apprentissage par renforcement (RL), le tout déployé sur le robot Unitree G1. Le système génère en temps réel des trajectoires de référence adaptées au terrain, puis un module de suivi les exécute sur le robot complet, en s'appuyant uniquement sur la perception embarquée. Lors des tests matériels, le G1 a franchi avec succès des boîtes, des haies, des escaliers et des combinaisons de terrains mixtes, sans recourir à des capteurs externes ni à un calcul déporté. L'enjeu technique central que ce travail adresse est connu dans le secteur sous le nom de "lower-body dominance" : les approches RL classiques avec reward shaping tendent à produire une locomotion efficace mais raide, concentrée sur les jambes, au détriment de la coordination du buste et des bras. À l'inverse, l'imitation pure de mouvements de référence limite la capacité d'adaptation en ligne aux obstacles imprévus. Le couplage proposé -- générer à la volée la référence adaptée au terrain puis la tracker en boucle fermée -- représente une architecture crédible pour combler ce gap, même si les vidéos de démonstration présentées restent sélectionnées et ne constituent pas encore une validation sur terrain non contrôlé à large échelle. Le Unitree G1, commercialisé depuis 2024 à environ 16 000 dollars, est devenu un banc de test standard pour les laboratoires académiques en locomotion humanoid, au même titre que l'Atlas de Boston Dynamics pour les groupes industriels. Ce travail s'inscrit dans une vague de publications exploitant les modèles de diffusion pour la génération de mouvements robotiques, une tendance initiée notamment par les travaux sur pi0 (Physical Intelligence) et GR00T N2 (NVIDIA). Les auteurs annoncent des résultats quantitatifs montrant que la fine-tuning en boucle fermée améliore la généralisation ; la prochaine étape logique serait une validation sur des terrains non vus pendant l'entraînement et un déploiement en conditions industrielles réelles.

HumanoïdesPaper
1 source
Transfert de style de mouvement humain pour le contrôle physique de robots humanoïdes
2arXiv cs.RO 

Transfert de style de mouvement humain pour le contrôle physique de robots humanoïdes

Un groupe de chercheurs présente dans un preprint arXiv (2606.03536, soumis le 3 juin 2026) un framework de transfert de style de mouvement pour robots humanoïdes. Le système prend en entrée un court clip humain illustrant un style moteur désiré (rythme de marche, balancement des bras, posture) et un mouvement cible distinct, puis génère un mouvement corps entier stylisé adapté au robot. Le modèle central est un modèle de diffusion latente multi-condition, sensible à la physique, fusionnant conditions de style, de contenu et de trajectoire. La guidance classifier-free permet d'ajuster l'intensité du style sans réentraîner le modèle. Les références générées sont ensuite converties pour le robot Unitree G1 et exécutées par une politique de suivi corps entier entraînée via une stratégie "cluster-and-distill". Sur 125 essais sur robot réel, la méthode atteint un taux de réussite de 96,0 %, avec moins d'artefacts de contact et de jitter que les baselines orientées animation. Ce résultat remet en question le paradigme dominant où chaque comportement expressif d'un humanoïde est soit capturé en démonstration directe, soit scripté manuellement, deux approches coûteuses et non réutilisables entre contenus de mouvement différents. En permettant à un court clip humain de servir de source de style transférable sur des contenus arbitraires, le framework ouvre la voie à une personnalisation motrice procédurale. L'écart simulation-hardware est adressé directement par des régularisations de cohérence de contact et de lissage temporel imposées lors de l'entraînement, un point de friction récurrent dans la chaîne génération-contrôle. Un taux de 96 % sur 125 essais réels représente un résultat solide pour de la recherche académique dans ce domaine, où beaucoup de travaux restent confinés à la simulation. Le Unitree G1 (environ 16 000 dollars) s'est imposé ces 18 derniers mois comme la plateforme de référence pour la recherche humanoïde académique. Ces travaux s'inscrivent dans la tendance des modèles de diffusion appliqués à la génération de mouvement (MDM, MotionDiffuse), prolongée ici jusqu'au contrôle physique sur hardware réel. Dans la course à l'expression motrice des humanoïdes, Boston Dynamics (Atlas), Figure et 1X investissent massivement côté imitation learning et VLA end-to-end, tandis que ce preprint se positionne sur la génération procédurale contrôlée, approche complémentaire. Du côté européen, Wandercraft et Enchanted Tools (France, robot Mirokaï) travaillent sur des problématiques d'expression motrice proches, sur des architectures distinctes. La suite logique serait l'intégration de ce framework dans des pipelines de téléopération ou d'interfaces humain-robot en conditions industrielles réelles.

UEWandercraft et Enchanted Tools (France) travaillent sur des problématiques d'expression motrice similaires et pourraient s'inspirer de cette approche de transfert de style procédural sur hardware réel.

HumanoïdesPaper
1 source
PressMimic : capture et contrôle de mouvement guidés par pression pour l'imitation par robot humanoïde
3arXiv cs.RO 

PressMimic : capture et contrôle de mouvement guidés par pression pour l'imitation par robot humanoïde

Des chercheurs ont publié le 26 juin 2026 sur arXiv (2606.26741) un framework baptisé PressMimic, conçu pour améliorer l'imitation de mouvements humains par les robots humanoïdes en intégrant la pression plantaire comme modalité de perception et de contrôle. Le pipeline combine trois briques : FRAPPE++, un modèle multimodal fusionnant RGB et données de pression pour estimer la pose 3D et la trajectoire globale d'un humain ; une politique d'apprentissage par renforcement supervisée par pression (PSP, Pressure-Supervised Policy) pour la reproduction sur le robot ; et MotionPRO, un jeu de données à grande échelle avec captures RGB, pression et motion capture synchronisées. Les résultats expérimentaux montrent des gains sur l'estimation de mouvement, la cohérence de trajectoire et la stabilité d'exécution, sans que les chiffres précis ne soient détaillés dans l'abstract, ils figurent dans l'article complet. Ce travail s'attaque à un problème concret et bien documenté en robotique humanoïde : les pipelines actuels reposant uniquement sur la vision produisent des artefacts physiquement incohérents, glissement des pieds, pénétration du sol, comportements instables à l'appui. En introduisant la pression comme signal d'ancrage physique (physical grounding), PressMimic impose des contraintes de contact explicites à la fois en perception et en contrôle, ce qui réduit l'ambiguïté inhérente à la seule estimation visuelle. Pour les équipes travaillant sur le sim-to-real et sur les politiques de locomotion, c'est un argument en faveur d'architectures multimodales intégrant des capteurs de force ou de pression dès la capture de données, pas seulement à l'exécution. L'imitation de mouvement humanoïde est un champ très actif : Boston Dynamics, Figure AI, Agility Robotics et des laboratoires académiques comme Stanford et CMU explorent des approches VLA (Vision-Language-Action) et RL pour la manipulation et la locomotion. PressMimic se distingue en ciblant explicitement la cohérence des contacts plutôt que la précision gestuelle seule, un angle complémentaire aux travaux sur les politiques diffuses (Pi-0 de Physical Intelligence) ou les politiques génératives. Il reste à ce stade une contribution de recherche académique sans déploiement industriel annoncé ; la publication du dataset MotionPRO pourrait néanmoins accélérer la reproductibilité et l'adoption par d'autres équipes.

HumanoïdesPaper
1 source
Apprendre à évoluer : champs interactifs multimodaux pour la navigation humanoïde robuste en environnements dynamiques
4arXiv cs.RO 

Apprendre à évoluer : champs interactifs multimodaux pour la navigation humanoïde robuste en environnements dynamiques

Des chercheurs ont publié sur arXiv (2605.21935, mai 2026) un système de cartographie dynamique baptisé MIF (Multi-modal Interactive Field), conçu pour permettre aux robots humanoïdes de naviguer et de manipuler des objets dans des environnements réels en constante évolution. Testé sur un Unitree G1, le système améliore le taux de relocalisation dans un bureau non-statique de 12 % à 94 %, tout en réduisant l'empreinte mémoire sémantique de 91,4 % grâce à la distillation de features. MIF repose sur trois composantes couplées : un champ d'apparence basé sur le 3D Gaussian Splatting (3DGS) conscient de l'incertitude pour atténuer le flou induit par la marche bipède, un champ spatial maintenant une mémoire topologique de la scène, et un champ géométrique qui calcule une pose d'interaction sûre (Interaction Pose Safety, IPS) avant chaque manipulation. Un score de détection de discordance distingue les fausses alarmes dues aux oscillations du robot des changements persistants réels, et ne met à jour que les zones localement incohérentes. L'enjeu pratique est direct : les systèmes de cartographie sémantique existants (semantic maps, scene graphs) supposent généralement des trajectoires caméra stables et des environnements statiques, deux hypothèses qu'un humanoïde en mouvement viole en permanence. Passer de 12 % à 94 % de succès en relocalisation sur un robot réel dans un bureau avec personnes en mouvement constitue un résultat concret, pas une démo en laboratoire contrôlé. Pour un intégrateur ou un COO industriel évaluant des humanoïdes pour des tâches de pick-and-place, la capacité à maintenir une carte cohérente sous perturbation locomotrice est un prérequis opérationnel non négociable que la plupart des démos actuelles ne valident pas. Le contexte de ce travail s'inscrit dans l'essor du 3DGS comme alternative aux NeRF pour la représentation de scènes en temps réel, une technique popularisée en 2023 et dont l'adaptation à la robotique mobile reste un sujet de recherche actif. L'Unitree G1 est l'une des plateformes humanoïdes commerciales les plus accessibles du marché (autour de 16 000 dollars), ce qui rend ce type de validation plus reproductible que sur des robots propriétaires comme l'Atlas de Boston Dynamics ou le Figure 02. Le code et la page projet sont publiés (ziya-jiang.github.io/MIF-homepage), signal d'une recherche ouverte à la reproduction. Les prochaines étapes naturelles seraient une validation à plus grande échelle et une intégration dans des pipelines de manipulation end-to-end, terrain sur lequel Physical Intelligence (Pi-0) et les équipes GR00T de NVIDIA travaillent en parallèle.

HumanoïdesPaper
1 source