Aller au contenu principal
EFGCL : apprentissage du mouvement dynamique par curriculum guidé par forces externes, inspiré du spotting
RecherchearXiv cs.RO6sem

EFGCL : apprentissage du mouvement dynamique par curriculum guidé par forces externes, inspiré du spotting

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (réf. 2605.10063) une méthode baptisée EFGCL (External Force Guided Curriculum Learning) pour entraîner des robots à pattes à exécuter des mouvements dynamiques complexes de tout le corps via apprentissage par renforcement. L'idée centrale emprunte au "spotting" en gymnastique artistique : comme un coach qui tient physiquement l'athlète lors des premiers essais, la méthode introduit des forces externes assistives directement dans la boucle d'entraînement simulé. Les expériences portent sur un robot quadrupède réalisant trois tâches : saut vertical (Jump), saut arrière (Backflip) et saut latéral (Lateral-Flip). Sur la tâche Jump, EFGCL réduit le temps d'apprentissage d'environ un facteur deux par rapport au RL conventionnel. Plus significatif encore, Backflip et Lateral-Flip, que les méthodes RL standard ne parviennent tout simplement pas à apprendre, deviennent accessibles. Les politiques résultantes ont été transférées et déployées sur un robot réel, avec des comportements jugés cohérents avec ceux observés en simulation.

L'intérêt technique principal est double. Premièrement, la méthode n'exige ni reward shaping spécifique à la tâche ni trajectoires de référence issues de motion capture, deux dépendances coûteuses qui compliquent habituellement le pipeline. Deuxièmement, en permettant à l'agent d'expérimenter des exécutions réussies très tôt dans l'entraînement, EFGCL contourne le problème classique de l'exploration inefficace dans les espaces à haut risque d'échec. La validation sim-to-real, bien que présentée sur un seul robot quadrupède dans un contexte académique contrôlé, apporte un signal positif sur la transférabilité des politiques apprises avec forces assistives vers des conditions physiques réelles, une question encore largement ouverte pour les mouvements acrobatiques.

Le domaine du whole-body motion learning pour robots à pattes est en pleine activité depuis plusieurs années, porté notamment par les travaux de l'ETH Zurich sur ANYmal et par Unitree (G1, H1) côté matériel accessible pour la recherche. Boston Dynamics, avec Atlas, démontre régulièrement des mouvements dynamiques impressionnants, mais son pipeline repose largement sur des trajectoires optimisées à la main. L'approche curriculum learning guidé par forces s'inscrit dans une tendance plus large visant à rendre le RL applicable sans données de démonstration, aux côtés de méthodes comme le curriculum automatique ou l'imitation d'adversaire. Il s'agit d'une publication académique préprint, sans annonce de déploiement industriel ni de partenariat commercial associé.

À lire aussi

Apprentissage par renforcement contraint via découplage dynamique sphérique-radial
1arXiv cs.RO 

Apprentissage par renforcement contraint via découplage dynamique sphérique-radial

Une équipe de chercheurs présente DD-SRad (Dynamic Decoupled Spherical Radial Squashing), une méthode d'apprentissage par renforcement contraint conçue pour respecter les limites de vitesse d'articulation lors du déploiement de politiques sur des robots physiques. Le problème cible est précis : chaque joint d'un robot a une vitesse maximale d'incrément par pas de contrôle, déterminée par l'inertie moteur, la bande passante électrique et la rigidité de transmission. Ces limites sont hétérogènes d'un joint à l'autre, formant une région admissible en forme de boîte rectangulaire dans l'espace des incréments d'action. Les benchmarks MuJoCo montrent que DD-SRad atteint le meilleur retour de tâche à zéro violation de contrainte, avec une couverture de l'espace admissible supérieure de 30 à 50 % aux méthodes de référence sphériques. Des simulations haute-fidélité dans IsaacLab valident l'approche sur les robots humanoïdes Unitree H1 et G1, en utilisant directement les spécifications officielles des joints comme paramètres d'entrée. L'apport technique central de DD-SRad est de remplacer un rayon global unique par un rayon adaptatif calculé indépendamment pour chaque actionneur, ce qui aligne précisément la contrainte imposée sur la vraie région admissible per-joint. Les méthodes existantes, projection par programme quadratique (QP) et paramétrisation sphérique, imposent une contrainte isotrope en forme de boule, qui sous-couvre exponentiellement l'espace réel à mesure que l'hétérogénéité des joints augmente. DD-SRad satisfait les contraintes dures par pas de contrôle avec probabilité 1, préserve des gradients bien conditionnés pendant l'entraînement, et ne requiert aucun solveur externe à l'exécution. Pour les intégrateurs industriels et les équipes de déploiement robotique, cela ouvre un chemin direct des fiches techniques hardware vers une politique sûre, sans étape de calibration manuelle des marges de sécurité. L'article s'inscrit dans un axe de recherche actif sur le sim-to-real pour les humanoïdes, dominé par les travaux autour des robots Unitree, Boston Dynamics Atlas, et des politiques apprises par imitation ou RL (IsaacLab, MuJoCo). Les approches concurrentes pour la gestion des contraintes d'actionneurs en RL incluent les méthodes de barrière logarithmique, les Lagrangiens augmentés, et les projections QP à chaud, chacune avec un surcoût computationnel à l'inférence que DD-SRad prétend éliminer. La validation reste pour l'instant en simulation ; aucun résultat de déploiement réel sur H1 ou G1 n'est reporté dans cette version arXiv, ce qui constitue la limite principale à surveiller avant toute généralisation industrielle.

RecherchePaper
1 source
Apprentissage de politiques dynamiques pour robots à pattes : préentraînement sur modèle simplifié et transfert inspiré de l'homotopie
2arXiv cs.RO 

Apprentissage de politiques dynamiques pour robots à pattes : préentraînement sur modèle simplifié et transfert inspiré de l'homotopie

Des chercheurs ont publié sur arXiv (arXiv:2512.24698v2, soumis fin 2025) un cadre d'apprentissage par renforcement baptisé "continuation-based learning" pour générer des comportements dynamiques complexes sur robots à pattes. L'approche se décompose en deux phases : un pré-entraînement de la politique de contrôle sur un modèle d'ordre réduit dit "corps rigide unique" (Single Rigid Body, SRB), qui simplifie le robot à un seul segment de masse, suivi d'un transfert progressif vers la dynamique corps-complet via une stratégie de continuation inspirée de l'homotopie mathématique. Ce transfert consiste à redistribuer graduellement la masse et l'inertie entre le tronc et les membres du robot, en définissant un chemin paramétrique continu entre les deux représentations. Le framework a été validé sur des tâches hautement dynamiques, saltos, manoeuvres assistées par un mur, et déployé avec succès sur un robot quadrupède réel, sans préciser le modèle matériel ni les métriques quantitatives de performance finale. L'intérêt technique est de s'attaquer directement au "sim-to-real gap" pour des comportements extrêmes, là où l'apprentissage par renforcement classique achoppe : produire un salto ou une manoeuvre murale exige une récompense finement calibrée ou des démonstrations de haute qualité, deux ressources coûteuses. En préentraînant sur un modèle SRB, la politique capture rapidement les patrons de mouvement essentiels dans un espace d'état simplifié, puis la continuation homotopique réduit les pertes de performance lors du passage au modèle complet. Les auteurs rapportent une convergence plus rapide et une stabilité supérieure aux méthodes de référence (fine-tuning direct, curriculum naïf), ce qui suggère que la structure géométrique du chemin de transition compte autant que la quantité de données d'entraînement. Pour un intégrateur ou un responsable R&D robotique, c'est un signal que le sim-to-real sur comportements acrobatiques devient méthodologiquement adressable, même sans démonstrations humaines. Ce travail s'inscrit dans un courant actif qui cherche à combiner modèles analytiques réduits et apprentissage profond pour dépasser les limites de chacun : les méthodes purement model-based (MPC sur SRB, très utilisées chez Boston Dynamics, ETH Zurich et ANYbotics) peinent sur les mouvements hors-domaine de validité du modèle, tandis que le RL pur souffre d'une exploration inefficace pour les comportements extrêmes. Des travaux récents comme ceux du groupe de Pieter Abbeel (UC Berkeley) ou de Zhuang Chen (CMU) explorent des voies similaires de curriculum progressif. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la publication ; l'article reste à ce stade un résultat de laboratoire, sans validation sur des plateformes commerciales comme Unitree B2, Spot ou ANYmal.

RecherchePaper
1 source
ReActor : apprentissage par renforcement pour le reciblage de mouvement avec physique
3arXiv cs.RO 

ReActor : apprentissage par renforcement pour le reciblage de mouvement avec physique

Une équipe de chercheurs a publié ReActor (arXiv:2605.06593, mai 2026), un cadre d'optimisation bilevel qui résout simultanément le retargeting cinématique et l'entraînement de la politique de suivi par apprentissage par renforcement. Le problème est connu : transposer une séquence de mouvement humaine capturée sur un robot aux articulations différentes génère systématiquement des artefacts physiques rédhibitoires, glissement de pieds, auto-collisions ou trajectoires dynamiquement infaisables, qui dégradent l'imitation learning en aval. ReActor élimine ces pathologies en intégrant directement le retargeting dans la simulation physique, avec un gradient approximé pour le niveau supérieur de l'optimisation et un ensemble sparse de correspondances sémantiques entre corps rigides. Aucun réglage manuel n'est requis. Le framework a été validé en simulation et sur hardware réel, notamment sur un quadrupède, morphologie particulièrement éloignée du référentiel humain. Ce résultat cible un goulet d'étranglement concret dans les pipelines d'imitation learning : la majorité des démonstrations actuelles reposent sur des données de mouvement nettoyées à la main ou des trajectoires synthétiques, deux approches coûteuses qui freinent le passage à l'échelle. En garantissant la cohérence physique dès le retargeting, ReActor produit des données directement exploitables sans post-traitement, réduisant le cycle de production de policies. L'absence de tuning manuel est stratégique pour les intégrateurs : le même framework peut s'appliquer à des morphologies très différentes sans réingénierie spécifique. La validation hardware sur quadrupède renforce la crédibilité face à des travaux restés confinés au sim-to-sim. Ce champ de recherche s'est intensifié avec l'essor des modèles d'action visuels (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui exigent de larges corpus de démonstrations physiquement cohérentes pour généraliser. ReActor se positionne face à des approches comme PHC ou MoCapAct en se distinguant par son couplage natif à la simulation physique plutôt qu'une correction post-hoc. Il s'agit pour l'instant d'un preprint académique sans partenariat industriel annoncé. La prochaine étape logique serait une validation sur robot humanoïde complet, où les contraintes dynamiques et les degrés de liberté supplémentaires rendent le problème encore plus sévère.

RecherchePaper
1 source
Planification du mouvement multi-robots par modèle de diffusion guidé par apprentissage par renforcement multi-agents
4arXiv cs.RO 

Planification du mouvement multi-robots par modèle de diffusion guidé par apprentissage par renforcement multi-agents

Une équipe de chercheurs propose, dans un préprint arXiv (2606.00933) publié début juin 2026, un cadre de planification de trajectoires pour flottes de robots mobiles combinant modèles de diffusion génératifs et apprentissage par renforcement multi-agents (MARL). Concrètement, chaque robot génère indépendamment des trajectoires candidates via un modèle de diffusion entraîné sur des données mono-agent, puis une fonction de valeur centralisée, apprise par MARL, oriente le processus de débruitage par gradient pour réduire les conflits entre agents. Ce mécanisme dit d'"exponential tilting" pousse la distribution de débruitage vers les trajectoires associées au meilleur retour collectif attendu. Évalué en simulation sur un labyrinthe avec quatre robots mobiles, le système réduit le taux d'interférence inter-agents de 55,4 % à 41,8 %, sans nécessiter de ré-entraînement du modèle génératif ni de planification jointe centralisée. Ce résultat attaque directement le compromis historique entre planification centralisée (précise mais peu scalable à mesure que la flotte grossit) et planification décentralisée (scalable mais aveugle aux autres agents). Le fait que la coordination soit injectée via un signal de guidage externe sans modifier le planificateur diffusion de base ouvre la voie à des architectures modulaires : on entraîne une fois le modèle de trajectoire mono-agent, puis on greffe la coordination selon l'environnement de déploiement. Pour les intégrateurs de systèmes multi-robots en entrepôt ou en manufacture, cela suggère qu'un découplage entre planification locale et coordination globale est techniquement praticable, ce qui simplifierait la mise à l'échelle des flottes hétérogènes sans refonte complète du pipeline. Le domaine est depuis longtemps dominé par des méthodes à base de graphes comme CBS (Conflict-Based Search) ou des approches réactives décentralisées comme ORCA, avec des tentatives d'apprentissage profond restées limitées en conditions réelles. L'application des modèles de diffusion à la génération de trajectoires robotiques constitue un courant émergent, illustré notamment par Diffusion Policy (Chi et al., 2023) en manipulation, mais rarement couplé au MARL pour la coordination de flotte. Ce travail reste pour l'instant une preuve de concept en simulation sur quatre robots dans un environnement simple, et la généralisation à des scènes dynamiques, à des flottes plus larges ou à des robots hétérogènes demeure un défi non adressé. Les prochaines étapes naturelles incluent la validation sur hardware réel et la confrontation aux benchmarks de référence du MAPF (Multi-Agent Path Finding).

RecherchePaper
1 source