
Combler le fossé : permettre au Soft Actor Critic des performances élevées en locomotion sur pattes
Une équipe de chercheurs publie sur arXiv (preprint 2605.24975, mai 2026) une série de modifications ciblées permettant à l'algorithme Soft Actor-Critic (SAC) d'atteindre les performances de Proximal Policy Optimization (PPO) dans l'entraînement à grande échelle de robots à pattes. PPO s'impose depuis plusieurs années comme l'algorithme de référence pour la locomotion bipède et quadrupède, notamment dans les environnements de simulation massivement parallèles comme IsaacLab (NVIDIA). Son défaut structurel est son caractère on-policy : chaque mise à jour de gradient exige de nouvelles données fraîches, le rendant inutilisable pour un apprentissage continu directement sur le robot physique. SAC, algorithme off-policy capable de réutiliser l'expérience passée, était un candidat naturel, mais échouait systématiquement à rivaliser en performance dans ces mêmes conditions. Les auteurs identifient trois correctifs spécifiques : une initialisation améliorée de la politique, un calcul de la valeur cible corrigé pour les épisodes tronqués (timeout-aware critic targets), et une estimation multi-pas du retour (multi-step return estimation). Ces ajustements ferment entièrement l'écart avec PPO, validé sur plusieurs plateformes de robots à pattes et une diversité de tâches de locomotion.
L'enjeu pour l'industrie robotique est concret. PPO contraint les équipes à retourner systématiquement en simulation pour chaque cycle d'amélioration, allongeant les boucles de développement et compliquant l'adaptation à des environnements physiques non anticipés. Un SAC équivalent en performance à l'entraînement offline ouvre la voie à un workflow unifié : un seul algorithme pour la phase de simulation initiale, puis pour l'adaptation en ligne sur le robot déployé, sans boucle retour sim-to-real. Pour les intégrateurs travaillant sur des robots mobiles à pattes en inspection industrielle ou logistique, cela réduit potentiellement les cycles de re-entraînement lors de changements de terrain ou de configuration. Ce résultat conteste aussi l'hypothèse selon laquelle le sim-to-real gap exige des algorithmes fondamentalement différents entre entraînement et déploiement.
PPO a été popularisé pour la locomotion robotique par les travaux de l'ETH Zurich sur ANYmal (2019-2022) et s'est généralisé avec l'adoption massive d'IsaacLab comme environnement de référence. SAC avait été introduit en 2018 par Tuomas Haarnoja et ses collègues à l'UC Berkeley, mais ses applications à la locomotion à grande échelle se heurtaient à des instabilités numériques en parallèle massif. Boston Dynamics, Unitree et Agility Robotics n'ont pas divulgué leurs pipelines d'entraînement internes, mais la littérature académique récente sur les robots H1 (Unitree) ou Digit (Agility) reste majoritairement dans l'écosystème PPO. Ce preprint demeure une contribution de recherche et non un produit déployé : sa portée pratique dépendra d'implémentations publiques dans IsaacLab ou MuJoCo et de validations indépendantes par la communauté.
Dans nos dossiers




