Apprentissage de politiques hiérarchiques par décomposition spectrale
Des chercheurs ont publié le 30 juin 2026 sur arXiv (réf. 2606.29570) une nouvelle architecture de politique robotique appelée Causal Spectral Policy (CSP), fondée sur une décomposition spectrale des séquences d'actions via la transformée en cosinus discrète (DCT). L'observation centrale est la suivante : les composantes basse fréquence d'une séquence de mouvements encodent la trajectoire globale et l'intention de tâche, tandis que les composantes haute fréquence capturent le timing précis, l'alignement et les comportements de contact. CSP génère d'abord un mouvement grossier conditionné sur l'observation visuelle et l'instruction en langage naturel, puis produit des corrections fines conditionnellement sur la trajectoire réalisée, selon un processus causal dit "coarse-to-fine". Les évaluations en simulation et en environnement réel montrent des performances supérieures aux baselines sur des tâches de manipulation sensibles à la précision. L'équipe propose également une augmentation de données par injection de bruit de télé-opération humaine, simulant les imperfections naturelles des démonstrations collectées par opérateur.
Cette approche répond à un défi structurel persistant de l'apprentissage par imitation (behavior cloning) : les politiques standards peinent à concilier cohérence globale du mouvement et précision locale au moment du contact. En séparant explicitement ces deux niveaux via la décomposition spectrale, CSP évite que les perturbations haute fréquence ne corrompent la planification de trajectoire, et inversement. La robustesse aux démonstrations bruitées est particulièrement pertinente pour les intégrateurs industriels qui collectent des données de télé-opération à grande échelle, où la qualité des démonstrations est intrinsèquement variable. Cela adresse aussi partiellement le problème du sim-to-real gap : traiter séparément la dynamique globale et les ajustements fins rend la politique moins sensible aux écarts entre simulation et réel.
CSP s'inscrit dans un mouvement plus large de raffinement des politiques d'imitation, qui a vu émerger ces dernières années Diffusion Policy (Chi et al., 2023), ACT (Action Chunking with Transformers) ou des modèles VLA comme Pi-0 de Physical Intelligence et OpenVLA. Là où ces approches misent sur l'expressivité de l'architecture ou le volume de données d'entraînement, CSP parie sur un biais inductif structurel emprunté au traitement du signal. Il s'agit à ce stade d'un résultat de preprint sans déploiement industriel annoncé. Les prochaines étapes naturelles incluent des benchmarks sur des tâches de haute précision type assemblage ou vissage, et une validation sur des plateformes matérielles standardisées comme Franka ou UR.
Dans nos dossiers




