
Apprentissage d'une politique de suivi de trajectoire asynchrone dans l'espace des tâches du haut du corps pour robots humanoïdes
Des chercheurs ont publié le 25 juin 2026 sur arXiv (preprint 2606.25706) un cadre de contrôle baptisé "asynchronous upper body task-space tracking" pour robots humanoïdes. Le problème qu'ils adressent est architectural : les planificateurs de haut niveau génèrent des trajectoires dans l'espace des tâches à faible fréquence (quelques Hz), alors que les contrôleurs de corps entier tournent à haute fréquence (typiquement plusieurs centaines de Hz). Cette désynchronisation temporelle entre planification et exécution produit des dérives de référentiel et des incohérences dans le contrôle. Pour y remédier, l'équipe propose une politique étudiante initialisée par distillation enseignant-étudiant, conditionnée sur la trajectoire future complète mise en cache et un index d'exécution temporel, puis entraînée avec une récompense globale à fenêtre glissante. Un module MPC (Model Predictive Control) complète les références creuses en guidage corps flottant et membre supérieur, tandis que des contraintes au niveau des actions et de la cinématique directe (FK) limitent la dérive de la politique. Les expériences ont été conduites en simulation et sur le robot Unitree G1, un humanoïde commercial à 23 degrés de liberté.
Ce travail touche un goulot d'étranglement concret qui freine la commercialisation des humanoïdes : la chaîne planification-exécution reste fragmentée dans la quasi-totalité des architectures actuelles, forçant des compromis entre réactivité et cohérence de mouvement. Le fait que la politique obtienne de meilleures performances que les baselines synchrones et découplées, et qu'elle s'adapte plus sûrement aux mouvements hors distribution, suggère une progression vers un déploiement robuste en environnement non contrôlé. L'approche sans estimation explicite de référentiel réduit aussi la charge computationnelle, ce qui est pertinent pour les intégrateurs industriels cherchant à embarquer le traitement. Toutefois, il s'agit d'un preprint non encore évalué par les pairs, et les métriques de suivi de trajectoire présentées restent contextualisées à des scénarios de laboratoire ; la généralisabilité à des tâches industrielles réelles reste à démontrer.
Unitree Robotics, fabricant chinois fondé en 2016, s'est imposé comme fournisseur de plateformes de recherche abordables avec des robots quadrupèdes puis le G1 humanoïde. Ce contexte explique le choix du matériel : le G1 est accessible à de nombreux labos académiques, ce qui élargit la portée reproductible des résultats. Sur le fond, la course à la maîtrise du pipeline planification-exécution pour les humanoïdes mobilise simultanément Figure (02 et bientôt 03), Tesla Optimus, Agility Robotics, 1X Technologies et les laboratoires académiques liés à Physical Intelligence (Pi-0) et à NVIDIA (GR00T N2). La distillation enseignant-étudiant couplée au MPC comme module de complétion de trajectoire s'inscrit dans une tendance plus large : combler le sim-to-real gap par des architectures hybrides apprises/optimisées plutôt que par du RL pur. Les prochaines étapes naturelles seraient une validation sur des cycles de manipulation répétitifs en cadence industrielle et une intégration avec des VLA (Vision-Language-Action models) pour fermer la boucle perception-planification-exécution.
Dans nos dossiers




