
ACSAC : acteur-critique à taille de segment adaptative avec réseau-Q à Transformer causal
Des chercheurs proposent ACSAC (Adaptive Chunk Size Actor-Critic), une méthode d'apprentissage par renforcement publiée sur arXiv en mai 2025 (arXiv:2605.11009). L'architecture repose sur un réseau critique de type Transformer causal, qui évalue les retours attendus pour des séquences d'actions -- appelées "chunks" -- de longueurs variables. À chaque frontière de chunk, la politique sélectionne dynamiquement la taille qui maximise le retour estimé, sans nécessiter de réglage manuel par tâche. Évaluée sur OGBench, la suite de référence pour le RL offline longue horizon, ACSAC atteint des performances état de l'art sur des tâches de manipulation à horizon long et récompenses rares, aussi bien en RL offline pur qu'en RL offline-to-online.
L'action chunking -- exécuter une séquence d'actions prédite en un seul bloc -- est devenu un mécanisme central dans les politiques robotiques modernes : il réduit l'horizon effectif, accélère les mises à jour de valeur et favorise une exploration cohérente dans le temps. Mais toutes les méthodes existantes, dont ACT, Diffusion Policy ou les récents VLA comme pi-0 de Physical Intelligence, utilisent une taille de chunk fixe, imposant un compromis difficile : un chunk long améliore la cohérence temporelle mais dégrade la réactivité aux nouvelles observations, tandis qu'un chunk court produit des mouvements erratiques. ACSAC supprime ce compromis en rendant la taille dépendante de l'état courant. Les auteurs démontrent formellement que l'opérateur de Bellman associé est une contraction ayant un unique point fixe, garantissant la convergence de l'algorithme -- une propriété que les méthodes heuristiques à chunk fixe ne peuvent pas revendiquer.
Le concept d'action chunking a été popularisé par ACT (Action Chunking with Transformers, Zhao et al., 2023), puis généralisé par les politiques de diffusion et intégré dans les VLA de nouvelle génération comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). OGBench, développé par Park et al. en 2024, s'est imposé comme le benchmark standard pour évaluer le RL offline sur des tâches de manipulation complexes. ACSAC se positionne directement contre ces approches à chunk fixe, avec une promesse de généralisation sans tuning par tâche -- une propriété critique pour le déploiement multi-tâches en industrie. Les résultats actuels restent limités à des environnements simulés ; les prochaines étapes naturelles incluent la validation sur matériel réel et l'intégration dans des architectures fondation à grande échelle.
Dans nos dossiers




