Introduction aux représentations d'actions SO(3) en apprentissage par renforcement profond
Une étude publiée sur arXiv (référence 2510.11103, troisième révision) analyse systématiquement comment les différentes représentations mathématiques du groupe SO(3), l'espace des rotations 3D, influencent l'apprentissage par renforcement appliqué au contrôle robotique. Les chercheurs ont comparé quatre familles de représentations courantes : angles d'Euler, quaternions, matrices de rotation et coordonnées d'algèbre de Lie, en les évaluant sur trois algorithmes d'RL continus de référence (PPO, SAC et TD3), sous deux régimes de récompenses (dense et sparse), et sur une suite de benchmarks robotiques standardisés. Le résultat central : représenter les actions comme des vecteurs tangents dans le repère local donne les résultats les plus fiables et les plus stables, quel que soit l'algorithme utilisé. Le code et la page projet sont disponibles à amacati.github.io/so3_primer.
Ce résultat a une portée directe pour les ingénieurs qui développent des politiques de contrôle pour la manipulation ou la locomotion humanoïde. Le choix de représentation n'est pas neutre : la géométrie induite par chaque paramétrisation conditionne la manière dont l'agent explore l'espace des actions, interagit avec la régularisation entropique (notamment dans SAC), et converge, ou échoue à converger, lors de l'entraînement. Les angles d'Euler souffrent de singularités connues (gimbal lock), les quaternions imposent une contrainte de norme unitaire difficile à respecter en sortie de réseau neuronal, et les matrices de rotation introduisent des redondances qui compliquent la projection sur SO(3) valide. L'étude fournit des recommandations directement applicables, ce qui est rare dans la littérature RL sur la rotation.
La problématique SO(3) est bien documentée pour l'apprentissage supervisé, notamment dans les pipelines d'estimation de pose, mais ses implications pour les actions en RL restaient peu explorées. Ce travail comble ce manque à un moment où les politiques d'entrée-sortie continues (VLA, diffusion policies, flux-matching) deviennent centrales dans les robots manipulateurs commerciaux. Les équipes qui développent des politiques pour des plateformes comme Figure 03, Unitree H1 ou des manipulateurs industriels s'appuient de plus en plus sur SAC et TD3 ; savoir que la représentation en vecteur tangent surpasse systématiquement les alternatives simplifie un choix d'architecture souvent fait de manière empirique. Les auteurs publient le code en open source, ce qui permettra à la communauté de valider ces résultats sur d'autres benchmarks et accélérera potentiellement l'adoption de cette convention dans les frameworks d'RL robotique.
Dans nos dossiers




