Aller au contenu principal
RecherchearXiv cs.RO1h

FADA : adaptation de domaine few-shot par alignement des dynamiques pour le contrôle humanoïde

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs du LECAR Lab (Learning, Computing and Autonomous Robots) ont publié le 30 juin 2026 sur arXiv (référence 2506.28476) un préprint décrivant FADA, un cadre d'adaptation en quelques exemples pour le contrôle de robots humanoïdes. L'architecture, baptisée Planner-IDM (Planner–Inverse Dynamics Model), fonctionne en trois étapes : entraînement d'une politique oracle avec accès à des informations privilégiées (état complet du simulateur), distillation de ce comportement dans un modèle étudiant déployable via DAgger, puis fine-tuning ciblé du seul module IDM à partir d'environ deux minutes de données collectées dans l'environnement réel. La supervision ne requiert ni démonstrations expertes ni signal de récompense : uniquement les paires (actions, observations) enregistrées lors de ces brefs rollouts. Les expériences montrent que FADA surpasse les baselines d'adaptation in-context et d'adaptation end-to-end sur des tâches whole-body à haute précision exécutées sur robot physique.

L'enjeu pratique est réel : le "dynamics mismatch", écart entre les dynamiques simulées et celles du domaine cible dues aux variations de terrain, de charge utile ou de réponse actionneur, reste l'un des principaux freins au déploiement industriel des humanoïdes. Les approches actuelles forcent un compromis inconfortable entre la randomisation de domaine (zero-shot, mais sous-spécialisée) et le recalibrage complet du modèle ou le ré-entraînement de politique (précis, mais coûteux en données et en temps). Deux minutes de rollouts pour aligner un IDM représentent un point d'équilibre opérationnellement crédible pour des intégrateurs qui ne peuvent pas interrompre une ligne de production plusieurs heures. Cela dit, les vidéos hardware présentées sur le site du projet sont sélectionnées par les auteurs ; aucune évaluation statistique robuste sur variété de terrains ou charges n'est encore disponible dans ce préprint non relu par les pairs.

Le sim-to-real gap est un problème structurel que l'ensemble de l'écosystème humanoïde, Figure (02/03), Tesla Optimus, Boston Dynamics Atlas, Physical Intelligence (pi-zero), tente de résoudre, principalement par randomisation massive en simulation ou par apprentissage en contexte (in-context RL). FADA s'inscrit dans une troisième voie, plus proche des travaux sur l'adaptation rapide de politiques (MAML, RMA) mais appliquée à l'architecture Planner-IDM. Le LECAR Lab, affilié à l'Université de Californie San Diego, capitalise ici sur des travaux antérieurs en locomotion et manipulation whole-body. Prochaine étape attendue : validation sur une plus large variété de dynamiques et de morphologies robotiques, ainsi qu'une soumission à conférence (ICRA ou CoRL) pour passer le filtre de la revue par les pairs.

À lire aussi

EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes
1arXiv cs.RO 

EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes

Des chercheurs ont publié le 9 juin 2026 sur arXiv (réf. 2606.08495) EgoPriMo, un cadre unifié d'apprentissage de prior de mouvement pour robots humanoïdes, entraîné exclusivement à partir de démonstrations humaines en vue égocentrique (caméra portée sur la personne). Le système prend en entrée une séquence vidéo égocentrique et un prompt texte, puis reconstruit, génère ou prédit des mouvements corps entier au format SMPL (Skinned Multi-Person Linear model, le standard académique de représentation du squelette humain). L'architecture centrale est un Triple-stream Diffusion Transformer (DiT) qui modélise conjointement la dynamique corporelle, le contexte visuel égocentriique et le langage naturel via un seul checkpoint partagé, des masques de conditionnement de tâche routant les trois cas d'usage sans architecture distincte. Évalué sur les datasets Nymeria et EgoExo4D, EgoPriMo surpasse UniEgoMotion sur la génération égocentrique, et les trajectoires SMPL produites ont été exécutées avec succès sur le contrôleur humanoïde Unitree (probablement G1 ou H1). Il s'agit d'un papier de recherche, pas d'un déploiement industriel. L'intérêt de cette approche tient à son vecteur de données : les vidéos égocentrique humaines (Nymeria, EgoExo4D) sont disponibles à grande échelle, contrairement aux démonstrations téléopérées sur robots qui restent coûteuses et lentes à collecter. En utilisant le langage comme signal de contrôle haut niveau plutôt que comme spécification complète du mouvement, EgoPriMo vise la généralisation comportementale sans avoir à décrire exhaustivement chaque trajectoire, ce qui est l'un des verrous historiques des systèmes VLA (Vision-Language-Action). Le fait qu'un seul checkpoint gère reconstruction, génération et prévision simplifie le déploiement et réduit la dette de maintenance. La validation sur Unitree démontre une transition sim-to-real partielle, bien qu'aucun chiffre de robustesse en environnement non contrôlé ne soit communiqué dans l'abstract. Ce travail s'inscrit dans une compétition dense autour des priors de mouvement pour humanoïdes. Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Figure (03) investissent massivement dans des pipelines VLA capables de généraliser à des tâches variées. L'originalité d'EgoPriMo est de contourner la dépendance aux données robot en exploitant l'observation humaine égocentrique, une direction explorée également par des travaux issus de CMU et Stanford sur l'imitation via vidéo. Le choix de Unitree comme cible hardware est cohérent avec sa diffusion large dans les labos académiques. Les prochaines étapes naturelles seraient une validation en environnement semi-industriel et une intégration dans une boucle de contrôle fermée, deux dimensions absentes de ce preprint.

RechercheOpinion
1 source
Au-delà de la récupération d'erreur : un cadre de contrôle humain adaptatif pour les systèmes robotiques
2arXiv cs.RO 

Au-delà de la récupération d'erreur : un cadre de contrôle humain adaptatif pour les systèmes robotiques

Des chercheurs ont publié sur arXiv en juin 2026 (arXiv:2606.18189) une méthode appelée E-MPC (Engagement-aware Model Predictive Control), conçue pour repenser le rôle de l'humain dans la supervision des robots d'assistance. L'approche a été validée en simulation puis dans une étude utilisateur réelle, sur un système robotique d'aide à l'alimentation (bite acquisition), avec des participants simulant des limitations de mobilité. Le principe central : plutôt que de solliciter l'opérateur uniquement lorsqu'un robot échoue ou est en incertitude, le système planifie proactivement des moments d'interaction pour maintenir un niveau d'engagement choisi par l'utilisateur, tout en respectant une contrainte de charge cognitive maximale. E-MPC intègre un modèle de dynamique d'interaction utilisateur qui prédit comment l'engagement évolue en fonction de la fréquence et du type d'intervention demandée. Ce travail remet en cause un postulat dominant dans la robotique d'assistance : que l'autonomie maximale est toujours préférable pour l'utilisateur. Dans des contextes de caregiving physique, les personnes à mobilité réduite risquent de devenir de simples observateurs passifs d'un robot qui agit entièrement seul, ce qui dégrade l'expérience et potentiellement l'adhésion au système. E-MPC déplace le curseur : l'interaction n'est plus un signal d'échec, mais un levier de conception du workflow. Cela a des implications concrètes pour les intégrateurs de systèmes d'assistance à domicile ou en EHPAD, où le consentement continu et le sentiment de contrôle de l'utilisateur sont des critères de certification et d'acceptabilité. La robotique d'assistance humanoïde et collaborative accumule depuis plusieurs années des travaux sur le human-in-the-loop, mais ceux-ci se concentrent presque exclusivement sur la robustesse (détection de pannes, out-of-distribution handling). E-MPC s'inscrit dans une tendance plus récente qui emprunte aux travaux sur l'interaction adaptative et la téléopération partagée, avec des connexions aux recherches sur le shared autonomy (Javdani, Srinivasa et al.). Les auteurs n'annoncent pas de commercialisation ni de partenariat industriel à ce stade : il s'agit d'un prototype de recherche avec étude utilisateur, pas d'un produit déployé. Les suites naturelles incluent des essais avec de vraies populations en situation de handicap et l'extension à des tâches multi-étapes plus complexes que l'alimentation.

UELes implications pour la certification des robots d'assistance à domicile et en EHPAD (consentement continu, sentiment de contrôle utilisateur) sont directement pertinentes pour les intégrateurs français et la réglementation médicosociale en France.

RecherchePaper
1 source
Apprentissage de dynamiques neuronales ODE adaptées au contexte pour le contrôle robotique adaptatif
3arXiv cs.RO 

Apprentissage de dynamiques neuronales ODE adaptées au contexte pour le contrôle robotique adaptatif

Des chercheurs ont proposé un modèle de dynamique contextuel fondé sur les équations différentielles ordinaires neuronales (Neural ODE) pour améliorer le contrôle de robots opérant dans des environnements incertains et variables. Le travail, déposé en juin 2026 sur arXiv (référence 2606.15469), cible les perturbations que les contrôleurs classiques peinent à absorber: variations des conditions de contact, effets aérodynamiques et perturbations externes imprévues. La méthode repose sur une procédure d'entraînement en deux phases: le modèle inspecte l'historique des états et des actions du robot pour inférer les facteurs environnementaux courants, sans capteurs dédiés supplémentaires. La compatibilité avec le MPC (Model Predictive Control) est intégrée dès la conception. Les validations portent sur trois plateformes distinctes: un drone quadrirotor en simulation, un robot sphérique Sphero BOLT et un bras manipulateur industriel Fanuc, ces deux derniers testés en conditions réelles. L'enjeu central est la dérive de modèle lors du déploiement: un robot calibré en laboratoire voit ses performances se dégrader dès que l'environnement change, que ce soit un sol différent, une charge variable ou des turbulences. Par rapport aux approches récurrentes classiques (LSTM, GRU), les Neural ODE présentent un avantage structurel: elles modélisent la dynamique en temps continu, ce qui améliore la cohérence physique et simplifie l'interface avec les solveurs MPC. L'inférence du contexte depuis le seul historique actions-états, sans instrumentation additionnelle, réduit la barrière d'intégration pour les industriels. Le test sur un Fanuc, bras omniprésent en production manufacturière, ancre les résultats dans une réalité opérationnelle tangible. Point de réserve: l'article est un preprint et l'abstract ne publie aucune métrique chiffrée de performance, ce qui rend l'évaluation indépendante difficile à ce stade. Les Neural ODE ont été introduites en 2018 par Chen et al. (NeurIPS) comme alternative aux réseaux récurrents pour modéliser des systèmes dynamiques continus. Leur application au contrôle robotique adaptatif répond à un obstacle persistant du secteur: le sim-to-real gap, qui fragilise la fiabilité des systèmes autonomes hors conditions contrôlées. Les approches concurrentes comprennent les processus gaussiens (GP) pour l'adaptation en ligne, les algorithmes méta-apprenants (MAML, PEARL) et l'identification de systèmes en temps réel. Ce travail se distingue par l'inférence contextuelle implicite, couplée nativement au MPC plutôt qu'ajoutée en couche. Le code source est ouvert sur GitHub et des démonstrations vidéo sont accessibles. La prochaine étape logique serait une validation sur des tâches de manipulation à charge variable ou un déploiement en environnement industriel non contrôlé.

RecherchePaper
1 source
Retargeting dynamique direct pour l'apprentissage par imitation des humanoïdes à partir de vidéos
4arXiv cs.RO 

Retargeting dynamique direct pour l'apprentissage par imitation des humanoïdes à partir de vidéos

Une nouvelle méthode d'apprentissage par imitation pour robots humanoïdes vient d'être publiée sur arXiv (2605.23762, mai 2026), proposant un cadre à étape unique baptisé Direct Dynamic Retargeting (DDR). L'objectif est d'apprendre des comportements moteurs complexes à partir de simples vidéos monoculaires de démonstration humaine, sans capteurs de mouvement ni combinaisons de capture. Le défi central est morphologique : un humain et un robot humanoïde ne partagent ni les mêmes proportions, ni les mêmes centres de masse, ni les mêmes contraintes articulaires, ce qui rend la transposition directe des trajectoires impossible. Les approches standards, dites Geometric Retargeting ou Indirect Dynamic Retargeting, projettent d'abord le mouvement humain dans un espace cinématique intermédiaire avant de générer les commandes robot, introduisant ce que les auteurs appellent un biais géométrique qui restreint l'espace de solutions et produit des comportements sous-optimaux. DDR supprime cette étape intermédiaire en formulant le problème directement dans l'espace des tâches (task space), couplé à un solveur de contrôle prédictif par modèle (Model Predictive Control, MPC) à base d'échantillonnage, exécuté au sein d'un simulateur physique. Ce couplage permet au système d'optimiser nativement les séquences de contact sol-pied tout en limitant la dérive des entrées, garantissant la faisabilité dynamique des trajectoires générées. Les expériences montrent que DDR surpasse les méthodes de référence en précision de suivi des démonstrations. Plus significatif pour les praticiens : fournir ces références physiquement viables à un agent d'apprentissage par renforcement accélère la convergence de l'entraînement et améliore l'exécution finale de comportements agiles et d'équilibrage dynamique. L'apprentissage par imitation à partir de vidéo est devenu un axe majeur de la robotique humanoïde, porté par des travaux comme Pi-0 de Physical Intelligence ou les pipelines de données de téléopération développés chez Figure AI et Agility Robotics. Ces approches cherchent à exploiter l'immense corpus de vidéos de mouvements humains disponibles en ligne pour réduire le coût prohibitif de la collecte de données sur robot. DDR s'inscrit dans cette tendance mais attaque le problème par la dynamique plutôt que par la géométrie, un pari prometteur qui reste à valider en conditions réelles : aucun résultat physique sur robot n'est présenté dans cet article, uniquement des évaluations en simulation. Le code source sera rendu public, ce qui permettra à la communauté de reproduire et d'étendre ces résultats.

RecherchePaper
1 source