
Apprentissage par renforcement contraint via découplage dynamique sphérique-radial
Une équipe de chercheurs présente DD-SRad (Dynamic Decoupled Spherical Radial Squashing), une méthode d'apprentissage par renforcement contraint conçue pour respecter les limites de vitesse d'articulation lors du déploiement de politiques sur des robots physiques. Le problème cible est précis : chaque joint d'un robot a une vitesse maximale d'incrément par pas de contrôle, déterminée par l'inertie moteur, la bande passante électrique et la rigidité de transmission. Ces limites sont hétérogènes d'un joint à l'autre, formant une région admissible en forme de boîte rectangulaire dans l'espace des incréments d'action. Les benchmarks MuJoCo montrent que DD-SRad atteint le meilleur retour de tâche à zéro violation de contrainte, avec une couverture de l'espace admissible supérieure de 30 à 50 % aux méthodes de référence sphériques. Des simulations haute-fidélité dans IsaacLab valident l'approche sur les robots humanoïdes Unitree H1 et G1, en utilisant directement les spécifications officielles des joints comme paramètres d'entrée.
L'apport technique central de DD-SRad est de remplacer un rayon global unique par un rayon adaptatif calculé indépendamment pour chaque actionneur, ce qui aligne précisément la contrainte imposée sur la vraie région admissible per-joint. Les méthodes existantes, projection par programme quadratique (QP) et paramétrisation sphérique, imposent une contrainte isotrope en forme de boule, qui sous-couvre exponentiellement l'espace réel à mesure que l'hétérogénéité des joints augmente. DD-SRad satisfait les contraintes dures par pas de contrôle avec probabilité 1, préserve des gradients bien conditionnés pendant l'entraînement, et ne requiert aucun solveur externe à l'exécution. Pour les intégrateurs industriels et les équipes de déploiement robotique, cela ouvre un chemin direct des fiches techniques hardware vers une politique sûre, sans étape de calibration manuelle des marges de sécurité.
L'article s'inscrit dans un axe de recherche actif sur le sim-to-real pour les humanoïdes, dominé par les travaux autour des robots Unitree, Boston Dynamics Atlas, et des politiques apprises par imitation ou RL (IsaacLab, MuJoCo). Les approches concurrentes pour la gestion des contraintes d'actionneurs en RL incluent les méthodes de barrière logarithmique, les Lagrangiens augmentés, et les projections QP à chaud, chacune avec un surcoût computationnel à l'inférence que DD-SRad prétend éliminer. La validation reste pour l'instant en simulation ; aucun résultat de déploiement réel sur H1 ou G1 n'est reporté dans cette version arXiv, ce qui constitue la limite principale à surveiller avant toute généralisation industrielle.
Dans nos dossiers




