Aller au contenu principal
SPRINT : a priori spectraux efficaces pour les sprints athlétiques des humanoïdes
RecherchearXiv cs.RO2h

SPRINT : a priori spectraux efficaces pour les sprints athlétiques des humanoïdes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en mai 2026, via arXiv (2605.28549), un framework nommé SPRINT visant à faire sprinter des robots humanoïdes à haute vitesse de manière stable et biomimétique. Le système repose sur des priors spectraux adaptatifs en fréquence : plutôt que d'entraîner le robot sur de grandes bibliothèques de captures de mouvement, SPRINT caractérise la périodicité fondamentale de la locomotion humaine dans le domaine fréquentiel à partir d'une bibliothèque de référence réduite à cinq séquences de mouvements discrets. Ces priors génèrent ensuite des trajectoires articulaires cinématiquement cohérentes sur un large spectre de vitesses, y compris des vitesses supérieures à celles présentes dans les données d'entraînement. Sur le robot Unitree G1, la politique résultante atteint 6 m/s en pointe lors d'expériences en conditions réelles, avec des transitions de foulée fluides et sans ajustement manuel post-simulation.

Ce résultat est notable pour deux raisons distinctes. Premièrement, le transfert sim-to-real s'effectue en zéro-shot, c'est-à-dire sans fine-tuning entre simulation et terrain réel, ce qui reste un verrou majeur dans les pipelines d'apprentissage par renforcement pour l'humanoïde. Deuxièmement, l'efficacité des données est exceptionnelle : cinq séquences de référence suffisent là où les approches concurrentes en imitation de mouvement nécessitent généralement des centaines, voire des milliers de captures. Pour une équipe R&D ou un intégrateur, cela réduit drastiquement le coût d'entrée pour des comportements locomoteurs à haute performance. La capacité à extrapoler au-delà de la distribution d'entraînement est prometteuse, même si les conditions exactes des tests terrain (surface, charge utile, durée de sprint) restent peu documentées dans la publication.

La course aux humanoïdes rapides s'est intensifiée ces deux dernières années : Boston Dynamics a publié des démonstrations d'Atlas dépassant 5 m/s, tandis que des équipes en Chine, notamment chez Unitree et Fourier Intelligence, publient régulièrement des benchmarks locomoteurs. SPRINT s'inscrit dans une tendance académique qui cherche à rendre ces capacités reproductibles avec peu de données, en opposition aux pipelines massifs type Tesla Optimus ou Figure. Le Unitree G1, plateforme commerciale disponible autour de 16 000 dollars, est devenu le banc d'essai standard pour ce type de travaux de recherche. L'article est un preprint, sans déploiement industriel annoncé ni partenariat commercial déclaré.

À lire aussi

Marche, course et récupération unifiées pour robots humanoïdes via des priors de mouvement adversariaux adaptatifs
1arXiv cs.RO 

Marche, course et récupération unifiées pour robots humanoïdes via des priors de mouvement adversariaux adaptatifs

Une équipe de chercheurs a publié fin mai 2026 sur arXiv (arXiv:2605.18611) un framework d'apprentissage par renforcement unifié permettant à un seul contrôleur de faire marcher, courir et se relever après une chute le robot humanoïde Unitree G1, sans commande explicite de changement de mode au déploiement. L'approche étend les Adversarial Motion Priors (AMP) en remplaçant la distribution de référence globale par un mécanisme de routage conditionné à l'état : un seuil fixe sur la gravité projetée (|gz+1| > 0,6, soit environ 37° d'inclinaison du torse par rapport à la verticale) aiguille chaque transition d'entraînement soit vers un discriminateur dédié à la récupération, soit vers un discriminateur de locomotion conditionné par la vitesse commandée, qui couvre à la fois la marche et la course. Seuls trois clips de motion capture extraits du jeu de données LAFAN1 sont nécessaires pour régulariser l'ensemble du comportement. Sur hardware réel, la politique tourne à 50 Hz sous forme d'un fichier ONNX figé, sans aucune logique de mode à l'exécution, et valide des relevés réussis depuis les positions ventrale et dorsale ainsi que des transitions fluides marche-course. Ce résultat s'attaque directement à un problème d'intégration récurrent dans la robotique humanoïde commerciale : la fragmentation en contrôleurs spécialisés par mode, reliés par des automates à états qui génèrent des zones de transition fragiles et coûteuses à maintenir. Démontrer qu'une politique apprise par RL couvre ces régimes de façon continue sur hardware réel, et non uniquement en simulation, affaiblit l'argument du sim-to-real gap rédhibitoire pour les comportements complexes. Le coût d'annotation est lui aussi remarquablement bas : trois clips de reference suffisent là où d'autres travaux en exigent des dizaines, ce qui rend la méthode potentiellement transférable à d'autres plateformes avec un effort de données limité, qu'il s'agisse du PAL Robotics TALOS, du MIROKAÏ d'Enchanted Tools, ou de tout humanoïde léger à faible budget de motion capture. La publication s'inscrit dans une course dense à la locomotion humanoïde robuste, où Boston Dynamics (Atlas), Figure (Figure 03), Agility Robotics (Digit) et Tesla (Optimus Gen 3) investissent massivement, mais publient peu. Sur le plan académique, des approches concurrentes comme les VLA (Vision-Language-Action models) de Physical Intelligence ou les travaux de Berkeley visent des politiques encore plus générales, mais sacrifient souvent la robustesse physique au profit de la flexibilité sémantique. L'utilisation du Unitree G1, disponible à environ 16 000 dollars et largement répandu dans les laboratoires, confère à ces travaux une reproductibilité pratique supérieure aux publications sur plateformes fermées. L'article ne précise pas de timeline de déploiement industriel, mais la compatibilité ONNX et l'absence de logique embarquée à l'exécution réduisent la barrière à l'intégration pour un OEM ou un intégrateur souhaitant évaluer la méthode sur sa propre plateforme.

UELa méthode, compatible ONNX et nécessitant seulement 3 clips de motion capture, est explicitement identifiée comme transférable au MIROKAÏ d'Enchanted Tools (FR) et au TALOS de PAL Robotics (EU), réduisant le coût d'adaptation pour les équipes de recherche et les intégrateurs européens.

RecherchePaper
1 source
RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde
2arXiv cs.RO 

RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde

Une équipe de chercheurs a publié le 21 avril 2026 sur arXiv (2604.21355) un framework baptisé RPG (Robust Policy Gating), conçu pour permettre à des robots humanoïdes d'enchaîner plusieurs compétences de combat dynamique sans instabilité. L'approche repose sur une politique unifiée entraînée avec deux mécanismes de randomisation : la randomisation des transitions de mouvement, qui expose la politique à des états initiaux et terminaux variés entre compétences, et la randomisation temporelle, qui rend l'agent robuste aux coupures imprévises dans la séquence de mouvements. La pipeline de contrôle intègre la locomotion (marche, course) avec les compétences de combat, permettant théoriquement des séquences de durée arbitraire. Le système a été validé en simulation extensive, puis déployé sur le robot humanoïde Unitree G1, la plateforme à 23 DDL du constructeur chinois Unitree Robotics. Le problème central que RPG adresse est connu dans le domaine sous le nom de "skill transition gap" : lorsqu'un agent bascule d'une politique spécialisée à une autre, les états terminaux de la première ne correspondent pas aux états initiaux supposés de la seconde, produisant des comportements hors domaine, des chutes ou des mouvements saccadés. Les approches concurrentes utilisent soit une commutation entre politiques mono-compétence, soit une politique généraliste qui imite des motion clips de référence -- les deux souffrent de ce décalage. RPG propose une solution d'entraînement plutôt que d'architecture, ce qui est notable : la robustesse aux transitions est injectée pendant la phase d'apprentissage, pas via un mécanisme de gating à l'inférence. L'absence de métriques quantitatives dans la publication (temps de cycle, taux de chute, nombre de transitions testées) limite cependant la comparaison directe avec d'autres travaux. RPG s'inscrit dans une vague active de recherche sur le contrôle corps entier des humanoïdes pour des tâches hautement dynamiques, un domaine où les laboratoires UCB, CMU et Stanford publient régulièrement depuis 2023. L'utilisation du G1 comme plateforme de validation est cohérente avec sa popularité croissante en recherche académique, notamment grâce à son coût inférieur à celui des plateformes concurrentes (Boston Dynamics Atlas, Agility Digit). Sur le plan commercial, des acteurs comme Figure AI, 1X Technologies ou Apptronik ciblent des tâches répétitives en entrepôt plutôt que le combat, mais les techniques de transition de compétences développées ici sont directement transposables aux scénarios industriels nécessitant des enchaînements fluides de manipulation et de locomotion. La prochaine étape naturelle serait une évaluation quantitative en conditions adversariales réelles, ainsi qu'un transfert vers des tâches moins "spectaculaires" mais plus proches du déploiement B2B.

RecherchePaper
1 source
TMRL : un préentraînement modulé par pas de temps de diffusion pour explorer et affiner efficacement les politiques
3arXiv cs.RO 

TMRL : un préentraînement modulé par pas de temps de diffusion pour explorer et affiner efficacement les politiques

Une équipe du Weird Lab de l'Université de Washington a publié en mai 2026, sur arXiv (2605.12236), un cadre unifié baptisé TMRL (Timestep-Modulated Reinforcement Learning) pour accélérer le fine-tuning par apprentissage par renforcement (RL) de politiques robotiques pré-entraînées. Le système repose sur deux composantes : Context-Smoothed Pre-training (CSP), qui injecte du bruit de diffusion directe dans les entrées de la politique lors du pré-entraînement, et TMRL lui-même, qui apprend à moduler dynamiquement le pas de temps de diffusion pour contrôler explicitement l'exploration lors du fine-tuning. Les résultats présentés incluent des tâches de manipulation réelle complexes, avec un fine-tuning en conditions réelles achevé en moins d'une heure. Le cadre est compatible avec des entrées hétérogènes : états proprioceptifs, nuages de points 3D ou politiques VLA (Vision-Language-Action) basées sur des images. Le verrou technique adressé est structurel : le pré-entraînement par clonage comportemental (BC), dominant dans la robotique d'apprentissage, produit des distributions d'actions étroites centrées sur les démonstrations existantes, ce qui prive le RL aval de la couverture nécessaire pour explorer efficacement l'espace d'états. TMRL casse ce goulot en faisant du niveau de bruit de diffusion un paramètre entraînable : à fort timestep, la politique explore largement ; à faible timestep, elle exploite avec précision. Le résultat annoncé est une amélioration de l'efficacité en données lors du fine-tuning RL, ce qui est critique pour les déploiements réels où chaque essai coûte du temps machine et de l'usure mécanique. Les métriques précises de sample efficiency et les benchmarks utilisés ne sont pas détaillés dans l'abstract, ce qui rend l'évaluation indépendante difficile sans consulter l'article complet. Ce travail s'inscrit dans une dynamique active autour des politiques de diffusion pour la robotique, popularisées par π0 de Physical Intelligence et les travaux GR00T N2 de NVIDIA. Le problème exploration-exploitation en RL robotique réel reste un obstacle majeur à la commercialisation : les approches existantes comme la perturbation d'action aléatoire ou l'exploration guidée par curiosité peinent à passer à l'échelle sur du matériel réel. TMRL propose une solution intégrée au pipeline de diffusion existant, sans modifier l'architecture de la politique. Le code et les vidéos sont disponibles en open source, ce qui facilitera l'évaluation par la communauté ; les prochaines étapes probables incluent des évaluations sur plateformes humanoïdes et une intégration dans des frameworks comme LeRobot ou OpenVLA.

UELe cadre TMRL, open-source et compatible avec LeRobot (Hugging Face, France), pourrait directement accélérer le fine-tuning RL de politiques robotiques dans les labos et startups européens.

RechercheOpinion
1 source
Commande corpo-entière sûreté-critique pour robots humanoïdes via les barrières de contrôle entrée-état
4arXiv cs.RO 

Commande corpo-entière sûreté-critique pour robots humanoïdes via les barrières de contrôle entrée-état

Des chercheurs ont publié sur arXiv (référence 2605.25546) un framework hiérarchique de contrôle sécurisé corps entier pour robots humanoïdes, fondé sur les fonctions barrières robustes aux perturbations (ISSf-CBF, Input-to-State Safe Control Barrier Functions). L'architecture s'articule en trois couches : un contrôleur whole-body cinématique (KinWBC) qui génère des références articulaires à partir de tâches priorisées, un filtre ISSf-CBF qui les ajuste au minimum pour satisfaire les contraintes de sécurité sous perturbations bornées, et un contrôleur whole-body dynamique (DynWBC) qui garantit la faisabilité corps entier et la stabilité des contacts. Les contraintes couvertes incluent les limites articulaires, l'évitement d'auto-collision, l'évitement d'obstacles et les frontières du workspace. Validé en simulation et sur robot réel, le système a été testé dans trois scénarios : locomotion, téleopération et équilibre monopode avec contrôle simultané des mains. L'intérêt de l'approche tient à un problème fondamental en robotique humanoïde : les garanties de sécurité formelles s'effondrent dès qu'apparaît un écart entre le modèle de simulation et le comportement physique réel. Les CBFs classiques supposent un système parfaitement connu et deviennent fragiles face aux incertitudes de modèle, aux erreurs de suivi de trajectoire ou aux perturbations externes, précisément les conditions d'un environnement industriel. Les ISSf-CBFs étendent ce formalisme en admettant des perturbations bornées tout en maintenant des garanties formelles transférables du niveau cinématique vers la dynamique complète. Le filtre intervient de façon minimalement invasive, ne corrigeant les références nominales que lorsque nécessaire, ce qui préserve la performance globale. C'est une réponse directe au "demo-to-reality gap" structurellement reproché aux humanoïdes actuels, et un prérequis pour toute certification de robot collaboratif en environnement humain. Les Control Barrier Functions sont un outil bien établi en automatique, popularisé dans les années 2010 pour les véhicules autonomes et les bras robotiques. Leur extension aux ISSf-CBFs pour la robustesse aux perturbations est plus récente, et leur application à un humanoïde corps entier avec des dizaines de degrés de liberté, des contacts multiples et des dynamiques non linéaires représente un saut de complexité notable. Dans la course actuelle aux humanoïdes, les acteurs comme Figure, Boston Dynamics, Tesla (Optimus), Agility Robotics, Apptronik ou Unitree publient peu sur les garanties de sécurité formelles corps entier, un domaine resté majoritairement académique. Ce travail n'annonce pas de déploiement industriel, mais fournit une brique méthodologique directement applicable aux pipelines de validation et de certification des futurs robots collaboratifs.

UELes garanties de sécurité formelles apportées par ce framework sont directement pertinentes pour la certification des robots collaboratifs humanoïdes dans le cadre du Machinery Regulation et de l'AI Act européens.

RecherchePaper
1 source