Aller au contenu principal
RecherchearXiv cs.RO2h

KungfuBot : contrôle physique du corps entier d'un robot humanoïde pour l'apprentissage de compétences hautement dynamiques

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs présentent KungfuBot, un cadre de contrôle corps-entier pour robots humanoïdes basé sur la physique, capable d'imiter des mouvements humains hautement dynamiques comme le kungfu ou la danse, là où les algorithmes existants ne parviennent à suivre que des mouvements lents et fluides malgré un travail soigné sur les récompenses et le curriculum d'apprentissage. Le système repose sur un pipeline de traitement du mouvement qui extrait, filtre, corrige et retargete les captures de mouvement humain tout en respectant au maximum les contraintes physiques du robot. Pour l'imitation, les auteurs formulent un problème d'optimisation à deux niveaux qui ajuste dynamiquement la tolérance de précision de suivi selon l'erreur courante, créant un mécanisme de curriculum adaptatif, complété par une architecture acteur-critique asymétrique pour l'entraînement des politiques. Déployé sur le robot Unitree G1, le système atteint des erreurs de suivi nettement inférieures aux approches existantes et produit des comportements stables et expressifs. Le projet est documenté sur kungfubot.github.io.

L'enjeu dépasse la simple prouesse technique : la capacité à reproduire des mouvements rapides et dynamiques est un point de blocage connu du contrôle corps-entier par imitation, où le compromis entre stabilité physique et fidélité au mouvement source devient critique à haute vitesse. En démontrant qu'un curriculum adaptatif basé sur l'erreur de suivi permet de dépasser ce plafond, KungfuBot apporte une preuve de concept utile pour toute l'industrie humanoïde, où l'expressivité et la robustesse des mouvements dynamiques sont devenues un argument de démonstration autant qu'un vrai défi d'ingénierie. Reste que les vidéos de démonstration, comme souvent dans ce type de publication, présentent probablement une sélection de résultats plutôt qu'un comportement systématique et généralisable.

Ce travail s'inscrit dans la lignée des recherches sur l'imitation de mouvement par apprentissage par renforcement physique, un domaine où le retargeting de capture de mouvement humain vers des morphologies robotiques reste une difficulté majeure. Le fait qu'il s'agisse d'une troisième version révisée sur arXiv suggère un travail affiné après retours de la communauté. Le choix du Unitree G1, plateforme largement utilisée dans la recherche académique en robotique humanoïde, positionne ces résultats comme reproductibles par d'autres laboratoires, dans un secteur où Unitree, Figure ou Boston Dynamics rivalisent sur la démonstration de comportements dynamiques et expressifs.

À lire aussi

Rhythm : apprentissage du contrôle interactif corps entier pour deux robots humanoïdes
1arXiv cs.RO 

Rhythm : apprentissage du contrôle interactif corps entier pour deux robots humanoïdes

Des chercheurs ont publié en mars 2026 sur arXiv un framework baptisé Rhythm, conçu pour piloter simultanément deux robots humanoïdes Unitree G1 en interaction physique directe. Le système repose sur trois composants : un module IAMR (Interaction-Aware Motion Retargeting) qui génère des références de mouvement réalistes à partir de captures de données humaines, une politique d'apprentissage par renforcement IGRL (Interaction-Guided Reinforcement Learning) qui modélise les dynamiques de contact couplées via des récompenses basées sur des graphes, et un pipeline de transfert sim-to-real permettant de déployer ces comportements sur robots physiques. Les comportements validés incluent l'accolade et la danse synchronisée entre deux G1, transférés de simulation vers le monde réel. Il s'agit d'un travail académique, pas d'un produit commercialisé. L'intérêt technique est dans la résolution du problème de contact couplé multi-corps : quand deux humanoïdes se touchent, les efforts mécaniques se propagent en boucle entre les deux chaînes cinématiques, rendant le contrôle instable. Rhythm aborde ce problème par des récompenses graph-based qui capturent explicitement l'interaction entre les deux agents, plutôt que de traiter chaque robot indépendamment. Pour un intégrateur ou un ingénieur robotique, c'est une validation que le sim-to-real fonctionne même pour des dynamiques de contact bilatérales, un verrou qui bloquait la plupart des approches multi-robots à manipulation physique. Cela ouvre la voie à des tâches collaboratives exigeant une coordination fine, comme le port de charges lourdes à deux, le transfert d'objets ou l'assemblage bimanuel étendu. Le robot Unitree G1 est une plateforme commerciale accessible (environ 16 000 dollars), ce qui donne à ces résultats une reproductibilité supérieure aux travaux sur robots propriétaires. Dans la course aux humanoïdes, les acteurs comme Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) et Boston Dynamics se concentrent sur des déploiements unitaires en environnement industriel ; la coordination physique entre deux humanoïdes reste un espace peu exploré commercialement. Rhythm ne s'inscrit pas encore dans une roadmap produit annoncée, mais la disponibilité du code sur arXiv et le choix du G1 suggèrent une communauté de recherche qui converge vers la standardisation des plateformes, préfigurant des pilotes industriels à horizon 18-36 mois.

RecherchePaper
1 source
Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables
2arXiv cs.RO 

Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables

Des chercheurs ont déposé en mai 2026 sur arXiv (identifiant 2605.31321) un article présentant la Surface Constraint Policy (SCP), une méthode destinée à améliorer la fiabilité des robots dans des tâches de manipulation dextre impliquant des contraintes de surface complexes et de forme libre. L'approche encode la géométrie de surface à partir de démonstrations humaines via une fonction noyau gaussien pondérée en deux dimensions. Sur cette base, une politique de diffusion infère des intentions d'action à partir d'entrées multimodales (observations visuelles et retour d'état du robot), qui sont ensuite transformées en primitives de mouvement dynamique contraintes à la surface (DMPs, Dynamic Movement Primitives) via une méthode de mapping par similarité. Ce pipeline produit des trajectoires à la fois géométriquement admissibles et dynamiquement réalisables. Les auteurs font état de taux de succès et d'une stabilité de contact supérieurs aux méthodes comparées, sans que le résumé ne détaille les métriques précises ni les benchmarks utilisés. Ce travail pointe un angle mort persistant des approches actuelles d'apprentissage par imitation à base de diffusion : les politiques classiques génèrent des actions de manière stochastique, sans modéliser explicitement la géométrie de la surface de contact. En pratique, cela se traduit par des glissements, des décrochages ou des trajectoires physiquement inadmissibles, problèmes rédhibitoires pour des applications industrielles comme le polissage, l'assemblage surfacique ou le soudage. L'originalité de SCP tient à l'intégration des contraintes géométriques dès la génération d'action, couplée à des DMPs qui garantissent la faisabilité dynamique. Pour les intégrateurs et les équipes R&D, cette approche représente un pas concret vers la répétabilité requise en production, là où la stabilité du contact prime sur la généralisation toutes-tâches. Ce travail s'inscrit dans une vague de recherche intense autour des politiques de diffusion pour la manipulation robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et accélérée par des acteurs comme Physical Intelligence avec pi0, Google DeepMind avec RT-2, ou encore ACT de Stanford. Les primitives de mouvement dynamique mobilisées ici sont un outil classique de la robotique depuis les travaux de Schaal dans les années 2000, mais leur couplage avec un pipeline de diffusion moderne pour gérer des contraintes surfaciques constitue l'apport original de la méthode. Les limitations pointées par les auteurs sont partagées par la plupart des architectures VLA actuelles, ce qui signale un axe de recherche pertinent pour quiconque vise le déploiement industriel. Les prochaines étapes naturelles incluraient une validation sur des surfaces déformables ou en mouvement, ainsi qu'un test de passage à l'échelle avec une plus grande diversité de tâches et de morphologies robotiques.

RecherchePaper
1 source
Apprentissage d'une politique de suivi de trajectoire asynchrone dans l'espace des tâches du haut du corps pour robots humanoïdes
3arXiv cs.RO 

Apprentissage d'une politique de suivi de trajectoire asynchrone dans l'espace des tâches du haut du corps pour robots humanoïdes

Des chercheurs ont publié le 25 juin 2026 sur arXiv (preprint 2606.25706) un cadre de contrôle baptisé "asynchronous upper body task-space tracking" pour robots humanoïdes. Le problème qu'ils adressent est architectural : les planificateurs de haut niveau génèrent des trajectoires dans l'espace des tâches à faible fréquence (quelques Hz), alors que les contrôleurs de corps entier tournent à haute fréquence (typiquement plusieurs centaines de Hz). Cette désynchronisation temporelle entre planification et exécution produit des dérives de référentiel et des incohérences dans le contrôle. Pour y remédier, l'équipe propose une politique étudiante initialisée par distillation enseignant-étudiant, conditionnée sur la trajectoire future complète mise en cache et un index d'exécution temporel, puis entraînée avec une récompense globale à fenêtre glissante. Un module MPC (Model Predictive Control) complète les références creuses en guidage corps flottant et membre supérieur, tandis que des contraintes au niveau des actions et de la cinématique directe (FK) limitent la dérive de la politique. Les expériences ont été conduites en simulation et sur le robot Unitree G1, un humanoïde commercial à 23 degrés de liberté. Ce travail touche un goulot d'étranglement concret qui freine la commercialisation des humanoïdes : la chaîne planification-exécution reste fragmentée dans la quasi-totalité des architectures actuelles, forçant des compromis entre réactivité et cohérence de mouvement. Le fait que la politique obtienne de meilleures performances que les baselines synchrones et découplées, et qu'elle s'adapte plus sûrement aux mouvements hors distribution, suggère une progression vers un déploiement robuste en environnement non contrôlé. L'approche sans estimation explicite de référentiel réduit aussi la charge computationnelle, ce qui est pertinent pour les intégrateurs industriels cherchant à embarquer le traitement. Toutefois, il s'agit d'un preprint non encore évalué par les pairs, et les métriques de suivi de trajectoire présentées restent contextualisées à des scénarios de laboratoire ; la généralisabilité à des tâches industrielles réelles reste à démontrer. Unitree Robotics, fabricant chinois fondé en 2016, s'est imposé comme fournisseur de plateformes de recherche abordables avec des robots quadrupèdes puis le G1 humanoïde. Ce contexte explique le choix du matériel : le G1 est accessible à de nombreux labos académiques, ce qui élargit la portée reproductible des résultats. Sur le fond, la course à la maîtrise du pipeline planification-exécution pour les humanoïdes mobilise simultanément Figure (02 et bientôt 03), Tesla Optimus, Agility Robotics, 1X Technologies et les laboratoires académiques liés à Physical Intelligence (Pi-0) et à NVIDIA (GR00T N2). La distillation enseignant-étudiant couplée au MPC comme module de complétion de trajectoire s'inscrit dans une tendance plus large : combler le sim-to-real gap par des architectures hybrides apprises/optimisées plutôt que par du RL pur. Les prochaines étapes naturelles seraient une validation sur des cycles de manipulation répétitifs en cadence industrielle et une intégration avec des VLA (Vision-Language-Action models) pour fermer la boucle perception-planification-exécution.

RecherchePaper
1 source
FT-WBC : apprentissage d'un contrôle corps entier tolérant aux défaillances pour la loco-manipulation de robots à pattes
4arXiv cs.RO 

FT-WBC : apprentissage d'un contrôle corps entier tolérant aux défaillances pour la loco-manipulation de robots à pattes

Des chercheurs ont publié le 24 juin 2026 sur arXiv (référence 2606.24466) un cadre de contrôle baptisé FT-WBC (Fault-Tolerant Whole-Body Control), conçu pour maintenir la stabilité et la capacité de manipulation des robots à pattes équipés d'un bras lorsqu'un ou plusieurs actionneurs tombent en panne. Le système repose sur une architecture à politiques découplées haut/bas du corps, et intègre deux modules clés : un Fault Estimator (FE), qui prédit les articulations défaillantes à partir de l'historique proprioceptif du train inférieur, et un Posture Adaptation Module (PAM), qui convertit les commandes de posture potentiellement déstabilisantes générées par la politique du bras en commandes sûres et exécutables pour le torse. Les expériences en simulation et sur robot réel montrent une amélioration significative du taux de survie et du volume d'espace de travail atteignable sous deux régimes de panne : actionneur affaibli (weakening failure) et actionneur bloqué (locked failure). Le transfert sim-to-real s'effectue en zero-shot, sans ré-entraînement. L'enjeu central de ce travail est le couplage entre stabilité locomotrice et accessibilité du bras lors d'une dégradation matérielle, un problème que les méthodes de tolérance aux pannes existantes laissaient largement non résolu, car elles traitaient la locomotion seule. Dans un déploiement industriel ou de service réel, les défaillances d'actionneurs ne sont pas des scénarios théoriques : elles surviennent sur des robots en fonctionnement prolongé, en environnements poussiéreux ou sous contraintes mécaniques répétées. Le fait que FT-WBC préserve autant que possible l'espace de travail du bras tout en synthétisant une allure compensatoire est un signal concret que la robustesse opérationnelle des manipulateurs à pattes commence à être prise en compte au niveau du contrôle, et pas seulement au niveau mécanique. Le domaine de la loco-manipulation sur pattes s'est structuré autour de plateformes comme l'ANYmal de ANYbotics équipé du bras HEBI, le Spot d'Boston Dynamics avec Spot Arm, ou encore l'Unitree B2-W. Ces systèmes ont démontré leur mobilité en terrain non structuré, mais leur robustesse aux pannes en cours de tâche reste un angle mort de la littérature. FT-WBC s'inscrit dans une tendance de recherche qui vise à rapprocher les conditions de laboratoire des conditions réelles d'exploitation, notamment pour les applications d'inspection industrielle, de manutention en entrepôt ou d'intervention en environnements à risque. L'article ne mentionne pas de partenaires industriels ni de calendrier de commercialisation : il s'agit pour l'instant d'un résultat académique, dont la validation reste limitée aux scénarios présentés dans le papier.

RecherchePaper
1 source