Aller au contenu principal
RecherchearXiv cs.RO2h

Retargeting dynamique direct pour l'apprentissage par imitation des humanoïdes à partir de vidéos

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une nouvelle méthode d'apprentissage par imitation pour robots humanoïdes vient d'être publiée sur arXiv (2605.23762, mai 2026), proposant un cadre à étape unique baptisé Direct Dynamic Retargeting (DDR). L'objectif est d'apprendre des comportements moteurs complexes à partir de simples vidéos monoculaires de démonstration humaine, sans capteurs de mouvement ni combinaisons de capture. Le défi central est morphologique : un humain et un robot humanoïde ne partagent ni les mêmes proportions, ni les mêmes centres de masse, ni les mêmes contraintes articulaires, ce qui rend la transposition directe des trajectoires impossible. Les approches standards, dites Geometric Retargeting ou Indirect Dynamic Retargeting, projettent d'abord le mouvement humain dans un espace cinématique intermédiaire avant de générer les commandes robot, introduisant ce que les auteurs appellent un biais géométrique qui restreint l'espace de solutions et produit des comportements sous-optimaux.

DDR supprime cette étape intermédiaire en formulant le problème directement dans l'espace des tâches (task space), couplé à un solveur de contrôle prédictif par modèle (Model Predictive Control, MPC) à base d'échantillonnage, exécuté au sein d'un simulateur physique. Ce couplage permet au système d'optimiser nativement les séquences de contact sol-pied tout en limitant la dérive des entrées, garantissant la faisabilité dynamique des trajectoires générées. Les expériences montrent que DDR surpasse les méthodes de référence en précision de suivi des démonstrations. Plus significatif pour les praticiens : fournir ces références physiquement viables à un agent d'apprentissage par renforcement accélère la convergence de l'entraînement et améliore l'exécution finale de comportements agiles et d'équilibrage dynamique.

L'apprentissage par imitation à partir de vidéo est devenu un axe majeur de la robotique humanoïde, porté par des travaux comme Pi-0 de Physical Intelligence ou les pipelines de données de téléopération développés chez Figure AI et Agility Robotics. Ces approches cherchent à exploiter l'immense corpus de vidéos de mouvements humains disponibles en ligne pour réduire le coût prohibitif de la collecte de données sur robot. DDR s'inscrit dans cette tendance mais attaque le problème par la dynamique plutôt que par la géométrie, un pari prometteur qui reste à valider en conditions réelles : aucun résultat physique sur robot n'est présenté dans cet article, uniquement des évaluations en simulation. Le code source sera rendu public, ce qui permettra à la communauté de reproduire et d'étendre ces résultats.

À lire aussi

Apprentissage robotique à partir de vidéos humaines : une synthèse
1arXiv cs.RO 

Apprentissage robotique à partir de vidéos humaines : une synthèse

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.27621) un état de l'art complet sur l'apprentissage des compétences robotiques à partir de vidéos humaines. Le papier recense les techniques permettant de transférer des habiletés gestuelles filmées vers des robots manipulateurs, en s'appuyant sur la masse de vidéos d'activités humaines disponibles en ligne. Les auteurs proposent une taxonomie hiérarchique structurée en trois axes : l'apprentissage orienté tâche (le robot déduit l'objectif), l'apprentissage orienté observation (alignement visuel entre humain et robot), et l'apprentissage orienté action (estimation directe des mouvements moteurs). Le survey couvre également les fondements de données, en analysant les principaux jeux de données de vidéos humaines existants ainsi que les schémas de génération vidéo synthétique. Une liste exhaustive des travaux référencés est disponible sur GitHub (IRMVLab/awesome-robot-learning-from-human-videos). Ce travail de synthèse arrive à un moment clé : le manque de données robotiques à grande échelle constitue aujourd'hui le principal goulot d'étranglement pour les systèmes d'IA incarnée généralistes. Les vidéos humaines représentent une ressource passive quasi illimitée, et leur exploitation pourrait contourner le coût exorbitant de la collecte de démonstrations téléopérées. Le papier analyse explicitement comment les différentes approches se comportent selon les paradigmes d'apprentissage (imitation, renforcement, diffusion) et les configurations de données, ce qui est directement utile pour des intégrateurs qui cherchent à choisir une architecture VLA (Vision-Language-Action) selon leur contrainte de données terrain. Le survey souligne aussi honnêtement les limitations du champ : le gap démo-réalité reste non résolu dans la plupart des pipelines, et les métriques de transfert restent hétérogènes d'un papier à l'autre. Ce type de survey émerge dans un contexte où plusieurs labos et startups misent sur le video-based learning comme levier de scalabilité : Physical Intelligence (pi-0), NVIDIA (GR00T N2), et Google DeepMind ont tous intégré des données humaines ou des vidéos internet dans leurs pipelines d'entraînement récents. Côté recherche académique, les travaux comme R3M, UniPi ou RoboAgent ont posé les jalons de cette approche ces deux dernières années. Ce survey offre donc une base de référence structurée pour les équipes qui entrent maintenant dans ce champ, avec des pistes de recherche ouvertes notamment sur la synchronisation temporelle corps-robot et la génération de données vidéo simulées pour la diversification des trajectoires.

UELes équipes de recherche françaises (CEA-List, INRIA) et les startups européennes travaillant sur des architectures VLA peuvent exploiter cette taxonomie structurée pour orienter leurs choix méthodologiques selon leurs contraintes de données terrain.

RecherchePaper
1 source
Des étiquettes aux ensembles d'actions : repenser la supervision pour l'apprentissage par imitation à partir de retours correctifs
2arXiv cs.RO 

Des étiquettes aux ensembles d'actions : repenser la supervision pour l'apprentissage par imitation à partir de retours correctifs

Le comportement par clonage (behavior cloning, BC) est l'une des méthodes les plus utilisées pour entraîner des politiques robotiques à partir de démonstrations humaines : chaque geste fourni par l'opérateur y est traité comme une étiquette exacte à reproduire. Des chercheurs ont publié en février 2025 (arXiv:2502.07645, version 3 disponible) une alternative baptisée CLIC, Contrastive policy Learning from Interactive Corrections, qui remplace ces étiquettes ponctuelles par des cibles dites à ensemble de valeurs (set-valued action targets). Au lieu d'optimiser la politique vers un seul geste cible, CLIC utilise les corrections humaines en temps réel pour construire et affiner des ensembles d'actions désirées, puis entraîne le modèle à placer de la masse de probabilité sur cet ensemble plutôt que sur un point unique. Cette reformulation adresse un problème connu mais sous-estimé du BC classique : lorsque les démonstrations humaines sont imparfaites, gestes partiels, corrections relatives ("un peu plus à gauche"), ambiguïtés multimodales, forcer la politique à reproduire chaque label à la lettre peut la faire dériver loin du comportement voulu, notamment avec des modèles expressifs tels que les energy-based models (EBMs). Les expériences en simulation et sur robot réel montrent que CLIC reste compétitif avec l'état de l'art quand les données sont propres, et se révèle substantiellement plus robuste sous données bruitées, corrections relatives ou feedback partiel. Pour les équipes de déploiement robotique, c'est une voie concrète pour réduire les coûts de collecte de démonstrations de haute qualité : CLIC tolère des opérateurs moins expérimentés ou des interfaces de téléopération imprécises sans dégradation majeure des performances. Le BC reste une brique fondamentale de l'apprentissage par imitation, popularisé par les travaux de Pieter Abbeel au début des années 2000 et au coeur aujourd'hui des politiques VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou les politiques diffusion-based d'OpenPI. CLIC s'inscrit dans un courant "human-in-the-loop" qui inclut DAgger, HG-DAgger et TAMER, mais se distingue par la formalisation ensembliste des corrections. Le code et les environnements de test sont disponibles publiquement sur clic-webpage.github.io. Les auteurs n'annoncent pas de partenariat industriel ni de déploiement terrain, ce qui positionne ce travail comme une contribution aux fondations méthodologiques de l'imitation learning, avec des implications directes pour les pipelines de téléopération et de fine-tuning de politiques générales.

UEImpact indirect : la méthode CLIC, en réduisant les besoins en démonstrations de haute qualité, pourrait bénéficier aux équipes de R&D robotique européennes travaillant sur des pipelines d'imitation learning et de téléopération, sans lien direct avec un acteur français ou une réglementation UE.

RechercheOpinion
1 source
3arXiv cs.RO 

Instrumentation pour l'apprentissage par imitation : enrichissement des données d'entraînement pour l'insertion de cintres

Des chercheurs ont publié en mai 2026 sur arXiv (2605.23847) une étude portant sur l'instrumentation des objets manipulés comme levier pour améliorer l'apprentissage par imitation en robotique. La tâche choisie est l'insertion d'un cintre sur une tringle, opération représentative des défis de manipulation fine avec contact. L'équipe a collecté 180 démonstrations téléopérées pour entraîner des politiques de diffusion (diffusion policies), en comparant des variantes avec et sans accès aux données d'instrumentation, c'est-à-dire des capteurs intégrés directement dans l'objet manipulé plutôt que dans le robot. Les résultats montrent que les politiques exploitant ces signaux surpassent les variantes vision-only de 14 à 25 points de pourcentage, avec une meilleure conscience de la tâche. Point notable : une politique boîte noire apprend à prioriser spontanément les signaux capteurs sans guidage explicite lors de l'entraînement. Une approche student-teacher complète le tableau : en enrichissant le jeu de données avec des rollouts générés par un expert instrumenté, une politique vision-only étudiante atteint des performances comparables à cet expert, surpassant ainsi la ligne de base vision-only originale. Les datasets sont disponibles sur Zenodo. Ce résultat adresse un verrou structurel du domaine : les grands modèles de comportement (large behaviour models) pour la manipulation robotique restent bridés par des exigences de données prohibitives, contrairement aux modèles de vision-langage qui ont pu capitaliser sur des corpus massifs issus d'internet. L'instrumentation des objets, en fournissant des informations d'état précises sur les contacts et les forces lors de chaque démonstration, augmente la densité informationnelle sans multiplier le nombre de démos. L'approche student-teacher est particulièrement stratégique pour le déploiement industriel : elle permet de distiller la connaissance sensorielle dans un modèle déployable avec une simple caméra, sans instrumentation permanente de la production. Ces travaux s'inscrivent dans une dynamique plus large autour des politiques de diffusion en manipulation, popularisées par Chi et al. (2023) et intégrées dans des systèmes comme Pi-0 (Physical Intelligence) ou ACT. La piste de l'instrumentation rejoint des efforts parallèles sur les peaux tactiles et les capteurs force-couple, explorés notamment par MIT CSAIL, ETH Zurich, et des équipes INRIA côté européen. La portée reste cependant à nuancer : 180 démos sur une tâche de laboratoire contrôlée ne constitue pas une validation à l'échelle industrielle, et les auteurs ne rapportent aucune expérience en environnement de production réel. La mise à disposition publique des données sur Zenodo ouvre toutefois la voie à des reproductions et extensions indépendantes sur des tâches plus complexes.

UELes équipes INRIA et laboratoires européens travaillant sur les politiques de diffusion pour la manipulation peuvent directement exploiter les datasets publics Zenodo et reproduire l'approche student-teacher pour améliorer l'efficacité de leurs pipelines d'apprentissage par imitation.

RechercheOpinion
1 source
Avant que le corps ne bouge : apprentissage de l'intention articulaire anticipatoire pour le contrôle d'humanoïdes guidé par le langage
4arXiv cs.RO 

Avant que le corps ne bouge : apprentissage de l'intention articulaire anticipatoire pour le contrôle d'humanoïdes guidé par le langage

Une équipe de chercheurs a déposé le 14 mai 2026 sur arXiv (arXiv:2605.14417) un framework hiérarchique nommé DAJI (Dynamics-Aligned Joint Intent), destiné au contrôle en continu du corps entier d'humanoïdes via des instructions en langage naturel. L'architecture repose sur deux modules distincts : DAJI-Act, une politique d'action par diffusion déployable, entraînée en distillant un modèle "teacher" conscient du futur via des rollouts guidés par un modèle étudiant ; et DAJI-Flow, qui génère de façon autorégressive des blocs d'"intentions articulaires" futures à partir d'une instruction linguistique et de l'historique d'intentions. Sur le benchmark HumanML3D, DAJI atteint 94,42 % de taux de succès en génération de séquences. Sur BABEL, le framework obtient un FID de sous-séquence de 0,152, une métrique de fidélité cinématique. Le problème que DAJI cherche à résoudre est central dans la commande des humanoïdes : les approches existantes génèrent des références cinématiques que le contrôleur bas niveau doit corriger de manière réactive, ce qui introduit des délais et des instabilités lors des transitions de support (transferts d'appui, changements de contact). DAJI propose à la place une interface d'"intention articulaire anticipatoire" qui encode explicitement les futures transitions de contact, les transferts de poids et les préparations à l'équilibre avant que le corps ne les exécute. Pour les intégrateurs de robots humanoïdes, c'est une piste sérieuse pour réduire le reality gap simulation-déploiement, puisque le pipeline diffusion + anticipation est conçu pour être réellement embarqué, pas seulement simulé. Cela valide aussi l'hypothèse qu'une représentation explicite et interprétable de l'intention mécanique future peut coexister avec un pilotage par langage naturel en streaming. Ce travail s'inscrit dans une compétition académique et industrielle dense sur le contrôle des humanoïdes conditionné par le langage. Des approches comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques VLA de Figure explorent des territoires proches, mais privilégient souvent des représentations latentes dont les sorties n'encodent pas explicitement l'état mécanique futur. DAJI se distingue en faisant de l'"intent" une variable interprétable et structurée. Il faut néanmoins noter que les résultats sont obtenus exclusivement sur des benchmarks de génération de mouvements (HumanML3D, BABEL) et non sur robot physique : il s'agit d'une preuve de concept académique, pas d'un système déployé. La validation sur plateforme réelle, sur un Unitree G1, un Agility Digit ou équivalent, reste la prochaine étape non annoncée.

RechercheOpinion
1 source