Aller au contenu principal
Apprentissage par renforcement contraint via découplage dynamique sphérique-radial
RecherchearXiv cs.RO7sem

Apprentissage par renforcement contraint via découplage dynamique sphérique-radial

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs présente DD-SRad (Dynamic Decoupled Spherical Radial Squashing), une méthode d'apprentissage par renforcement contraint conçue pour respecter les limites de vitesse d'articulation lors du déploiement de politiques sur des robots physiques. Le problème cible est précis : chaque joint d'un robot a une vitesse maximale d'incrément par pas de contrôle, déterminée par l'inertie moteur, la bande passante électrique et la rigidité de transmission. Ces limites sont hétérogènes d'un joint à l'autre, formant une région admissible en forme de boîte rectangulaire dans l'espace des incréments d'action. Les benchmarks MuJoCo montrent que DD-SRad atteint le meilleur retour de tâche à zéro violation de contrainte, avec une couverture de l'espace admissible supérieure de 30 à 50 % aux méthodes de référence sphériques. Des simulations haute-fidélité dans IsaacLab valident l'approche sur les robots humanoïdes Unitree H1 et G1, en utilisant directement les spécifications officielles des joints comme paramètres d'entrée.

L'apport technique central de DD-SRad est de remplacer un rayon global unique par un rayon adaptatif calculé indépendamment pour chaque actionneur, ce qui aligne précisément la contrainte imposée sur la vraie région admissible per-joint. Les méthodes existantes, projection par programme quadratique (QP) et paramétrisation sphérique, imposent une contrainte isotrope en forme de boule, qui sous-couvre exponentiellement l'espace réel à mesure que l'hétérogénéité des joints augmente. DD-SRad satisfait les contraintes dures par pas de contrôle avec probabilité 1, préserve des gradients bien conditionnés pendant l'entraînement, et ne requiert aucun solveur externe à l'exécution. Pour les intégrateurs industriels et les équipes de déploiement robotique, cela ouvre un chemin direct des fiches techniques hardware vers une politique sûre, sans étape de calibration manuelle des marges de sécurité.

L'article s'inscrit dans un axe de recherche actif sur le sim-to-real pour les humanoïdes, dominé par les travaux autour des robots Unitree, Boston Dynamics Atlas, et des politiques apprises par imitation ou RL (IsaacLab, MuJoCo). Les approches concurrentes pour la gestion des contraintes d'actionneurs en RL incluent les méthodes de barrière logarithmique, les Lagrangiens augmentés, et les projections QP à chaud, chacune avec un surcoût computationnel à l'inférence que DD-SRad prétend éliminer. La validation reste pour l'instant en simulation ; aucun résultat de déploiement réel sur H1 ou G1 n'est reporté dans cette version arXiv, ce qui constitue la limite principale à surveiller avant toute généralisation industrielle.

À lire aussi

Apprentissage par renforcement visuel sur politique efficace via gradient de politique stochastique découplé
1arXiv cs.RO 

Apprentissage par renforcement visuel sur politique efficace via gradient de politique stochastique découplé

Une équipe de recherche publie sur arXiv (2605.26478, mai 2026) une méthode d'apprentissage par renforcement visuel appelée SDPG (Stochastic Decoupled Policy Gradient), capable d'entraîner des politiques visuomotrices end-to-end en quelques heures sur un seul GPU NVIDIA RTX 4080. La clé : estimer les gradients de politique via des perturbations stochastiques de trajectoires, plutôt que via des centaines d'environnements rendus en batch, réduisant drastiquement mémoire et temps de calcul. Sur les benchmarks visuels MuJoCo, référence standard pour l'évaluation des politiques de contrôle à entrées visuelles, SDPG surpasse les méthodes concurrentes sur les trois critères mesurés : temps d'entraînement, empreinte mémoire et récompenses obtenues. L'article inclut également un premier transfert sim-to-real démontré sur matériel physique, couvrant des tâches de manipulation dextère et de locomotion en terrain difficile. L'enjeu touche directement à l'accessibilité du RL visuel pour la robotique. Jusqu'ici, les méthodes on-policy visuomotrices exigeaient des clusters GPU pour rester compétitives, concentrant de fait la recherche dans quelques grands laboratoires. Ramener le coût d'entraînement à un seul GPU grand public ouvre potentiellement la voie aux équipes académiques moins dotées et aux startups. La publication simultanée d'une suite de benchmarks de robotique visuelle réaliste tente de combler un autre manque structurel : la fragmentation des protocoles d'évaluation dans le domaine. Le transfert sim-to-real annoncé reste cependant à confirmer à plus grande échelle, un résultat sur hardware physique dans un preprint n'équivalant pas à une validation industrielle. Ce travail s'inscrit dans une dynamique de démocratisation du RL pour la robotique. Des approches comme DrQ-v2 (DeepMind) ou DreamerV3 ont progressivement amélioré l'efficacité en entrées visuelles, mais restent lourdes pour les environnements réalistes. Les VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) contournent entièrement la boucle RL via des architectures de fondation préentraînées. SDPG choisit une troisième voie : rester dans le paradigme RL pur tout en réduisant radicalement le coût computationnel. La prochaine étape observable sera l'adoption ou le rejet de leurs benchmarks par la communauté comme référence standard de comparaison.

UEL'accessibilité réduite à un seul GPU grand public pourrait bénéficier aux équipes académiques européennes moins dotées en infrastructure de calcul, réduisant leur dépendance aux clusters HPC pour la recherche en RL visuel.

RecherchePaper
1 source
Apprentissage par renforcement conditionné par objectif et informé par la physique sous dynamique de contact hybride
2arXiv cs.RO 

Apprentissage par renforcement conditionné par objectif et informé par la physique sous dynamique de contact hybride

Des chercheurs ont publié sur arXiv (réf. 2605.30503) une analyse critique des méthodes de GCRL physico-informé (Pi-GCRL) appliquées à la manipulation robotique en contact, accompagnée de deux nouvelles formulations architecturales pour corriger leurs limites. Le GCRL (goal-conditioned reinforcement learning) vise à entraîner des agents capables d'atteindre des objectifs arbitraires à partir d'un signal de récompense rare, en apprenant une notion générale d'accessibilité dans l'espace état-but. Les approches Pi-GCRL enrichissent cette idée en injectant des biais inductifs issus de la commande optimale dans l'apprentissage de la fonction de valeur. L'article montre que, dès lors que les dynamiques deviennent hybrides, c'est-à-dire discontinues lors de transitions de contact, ces biais, appliqués naïvement, dégradent la performance : les paysages de valeur deviennent non-lisses, la contrôlabilité dépend du mode de contact actif, et les hypothèses de régularité sous-jacentes aux méthodes Pi-GCRL ne tiennent plus. L'enjeu est structurel pour la robotique de manipulation industrielle. La quasi-totalité des tâches réelles, assemblage, insertion, saisie d'objets déformables, impliquent des contacts intermittents qui créent précisément ces dynamiques hybrides. Jusqu'ici, Pi-GCRL avait démontré sa robustesse sur la navigation et le goal-reaching sans contact, mais son extension aux tâches de manipulation restait une question ouverte. Ce travail répond en quantifiant rigoureusement l'échec et en proposant deux correctifs : une formulation contact-aware qui adapte les biais inductifs au mode de contact détecté, et une formulation hiérarchique qui décompose le problème de manipulation en sous-problèmes à dynamiques plus régulières. Ces contributions ouvrent une voie méthodologique précise, distincte des approches VLA (vision-language-action) et sim-to-real classiques qui dominent actuellement les annonces industrielles. Le contexte est celui d'une compétition intense dans l'apprentissage pour la manipulation : DeepMind avec RoboCAT, Physical Intelligence avec pi0, Google avec RT-X, et des dizaines de labos universitaires cherchent à franchir le fossé démo-vers-réalité. Pi-GCRL représente une ligne de recherche distincte, héritée des travaux en commande optimale et en GCRL (Andrychowicz, Plappert et al., 2017 et suivants), qui mise sur la structure mathématique du problème plutôt que sur la puissance brute des données. Ce preprint est une contribution académique sans déploiement annoncé ni partenaire industriel identifié ; les suites probables sont des benchmarks sur des environnements contact-rich standardisés (MuJoCo, IsaacGym) et une éventuelle extension aux robots à plusieurs points de contact.

RecherchePaper
1 source
Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne
3arXiv cs.RO 

Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne

Des chercheurs ont publié sur arXiv (arXiv:2510.18518v2) un algorithme d'apprentissage par renforcement basé sur un modèle (MBRL) conçu pour contrôler des systèmes robotiques complexes directement dans le monde réel, sans passer par une phase de simulation intensive. L'approche construit un modèle de dynamique à partir des données d'interaction en temps réel, puis effectue des mises à jour de politique guidées par ce modèle appris. Les validations expérimentales ont été conduites sur deux plateformes distinctes : un bras d'excavatrice hydraulique et un bras robot souple. Dans les deux cas, l'algorithme atteint des performances comparables aux méthodes model-free en quelques heures d'entraînement, là où ces dernières réclament habituellement des millions d'interactions simulées. La robustesse de l'adaptation a également été évaluée sous conditions de charge utile (payload) aléatoire, avec des résultats stables malgré le changement de dynamique. L'enjeu principal est la réduction de ce que le secteur appelle le "sim-to-real gap" : l'écart entre les politiques apprises en simulation et leur comportement réel une fois déployées sur du matériel. Les pipelines dominants, adoptés aussi bien par des labos académiques que par des industriels comme Boston Dynamics ou Figure AI, reposent sur des millions de rollouts en simulation avant tout contact avec un robot physique, ce qui introduit un biais systématique difficile à corriger. Cet algorithme court-circuite cette étape en apprenant directement sur données réelles, avec une garantie formelle de progression : les auteurs démontrent des bornes de regret sous-linéaires (sublinear regret bounds) sous hypothèses d'optimisation stochastique en ligne, ce qui est rare dans la littérature MBRL appliquée à la robotique physique. Pour un intégrateur ou un industriel, cela se traduit par une réduction potentielle du temps de mise en service sur des tâches à dynamique variable (variation de charge, usure mécanique, changement de matériau). Ce travail s'inscrit dans un débat structurant du champ : model-based vs model-free RL pour la robotique physique. Les méthodes model-free comme PPO ou SAC dominent les benchmarks simulés mais peinent à s'adapter efficacement en production réelle. Des approches hybrides comme MBPO ou DreamerV3 ont tenté de combler cet écart, mais rarement validées sur des systèmes aussi hétérogènes qu'un bras hydraulique industriel et un manipulateur souple. La prochaine étape naturelle serait une validation sur des plateformes humanoïdes ou des AMR (autonomous mobile robots) à haute dimension, où les enjeux de sample efficiency sont directement liés aux coûts d'exploitation et à la durée de vie des actionneurs.

RecherchePaper
1 source
ZAPS-DA : lissage de politique à phase zéro avec acteur découplé pour le contrôle continu en apprentissage par renforcement
4arXiv cs.RO 

ZAPS-DA : lissage de politique à phase zéro avec acteur découplé pour le contrôle continu en apprentissage par renforcement

ZAPS-DA (arXiv:2605.30612, juin 2026) est un cadre d'apprentissage par renforcement qui s'attaque à un problème concret de déploiement : les politiques de contrôle continu entraînées avec des algorithmes off-policy comme Soft Actor-Critic (SAC) produisent des commandes oscillantes à haute fréquence, le "jitter", qui rendent le transfert sur des actionneurs physiques hasardeux. L'approche couple l'acteur RL principal non modifié à un second acteur découplé, entraîné par imitation supervisée à partir de cibles filtrées zéro-phase (filtre Savitzky-Golay) stockées dans le replay buffer. L'acteur déployé est ce second acteur : une fonction feed-forward directe observation-action, sans filtre à l'inférence ni historique d'actions en entrée. Les auteurs nomment ce mécanisme "distillation causale d'un filtre non-causal". Validé sur deux simulateurs de conduite (MetaDrive et un environnement Webots de régulation de vitesse adaptative, protocoles n=150), ZAPS-DA affiche sur MetaDrive une réduction du jitter de direction de 14 à 21x et du jitter d'accélération de 3 à 5x (p < 10^-4, correction Bonferroni), sans dégradation de la complétion de tâche (p=0,28 réussite), pour un coût de 6,3 % en récompense. Sur Webots, l'amélioration est de type Pareto : parité de récompense (p=0,121), réduction du jitter de 8 à 45x, taux d'échec total ramené de 2,0 % à 0,7 %. Le problème est structurant pour le déploiement robotique : un signal de commande oscillant use prématurément les actionneurs, complique le sim-to-real et génère des comportements imprévisibles. Les deux solutions classiques avaient des défauts durs : le filtrage post-hoc introduit un délai de phase qui peut déstabiliser une boucle fermée ; pénaliser le jitter directement dans la perte RL mélange deux objectifs et fait régresser la performance de tâche. ZAPS-DA sépare proprement les deux responsabilités. La perte MSE à magnitude calibrée supprime aussi le besoin de re-tuning selon l'optimiseur, ce qui rend le cadre directement portable. Le papier s'inscrit dans les travaux sur le lissage de politiques RL (TD3 target policy smoothing, action repetition, action chunking d'ACT/Diffusion Policy), mais formalise pour la première fois la distillation d'un filtre non-causal dans un acteur causal. Les expériences restent limitées à deux simulateurs de conduite ; aucune validation sur plateforme physique ni code public ne sont annoncés, ce qui laisse ouverte la question du transfert vers la manipulation ou la locomotion. Les prochaines étapes naturelles seraient un test sur AMR, bras manipulateur ou véhicule RC, et une comparaison directe avec les méthodes de chunking temporel. ZAPS-DA demeure un preprint arXiv sans revue par les pairs confirmée.

RecherchePaper
1 source