Retargeting dynamique direct pour l'apprentissage par imitation des humanoïdes à partir de vidéos
Une nouvelle méthode d'apprentissage par imitation pour robots humanoïdes vient d'être publiée sur arXiv (2605.23762, mai 2026), proposant un cadre à étape unique baptisé Direct Dynamic Retargeting (DDR). L'objectif est d'apprendre des comportements moteurs complexes à partir de simples vidéos monoculaires de démonstration humaine, sans capteurs de mouvement ni combinaisons de capture. Le défi central est morphologique : un humain et un robot humanoïde ne partagent ni les mêmes proportions, ni les mêmes centres de masse, ni les mêmes contraintes articulaires, ce qui rend la transposition directe des trajectoires impossible. Les approches standards, dites Geometric Retargeting ou Indirect Dynamic Retargeting, projettent d'abord le mouvement humain dans un espace cinématique intermédiaire avant de générer les commandes robot, introduisant ce que les auteurs appellent un biais géométrique qui restreint l'espace de solutions et produit des comportements sous-optimaux.
DDR supprime cette étape intermédiaire en formulant le problème directement dans l'espace des tâches (task space), couplé à un solveur de contrôle prédictif par modèle (Model Predictive Control, MPC) à base d'échantillonnage, exécuté au sein d'un simulateur physique. Ce couplage permet au système d'optimiser nativement les séquences de contact sol-pied tout en limitant la dérive des entrées, garantissant la faisabilité dynamique des trajectoires générées. Les expériences montrent que DDR surpasse les méthodes de référence en précision de suivi des démonstrations. Plus significatif pour les praticiens : fournir ces références physiquement viables à un agent d'apprentissage par renforcement accélère la convergence de l'entraînement et améliore l'exécution finale de comportements agiles et d'équilibrage dynamique.
L'apprentissage par imitation à partir de vidéo est devenu un axe majeur de la robotique humanoïde, porté par des travaux comme Pi-0 de Physical Intelligence ou les pipelines de données de téléopération développés chez Figure AI et Agility Robotics. Ces approches cherchent à exploiter l'immense corpus de vidéos de mouvements humains disponibles en ligne pour réduire le coût prohibitif de la collecte de données sur robot. DDR s'inscrit dans cette tendance mais attaque le problème par la dynamique plutôt que par la géométrie, un pari prometteur qui reste à valider en conditions réelles : aucun résultat physique sur robot n'est présenté dans cet article, uniquement des évaluations en simulation. Le code source sera rendu public, ce qui permettra à la communauté de reproduire et d'étendre ces résultats.
Dans nos dossiers



