
FocalPolicy : découpage fréquentiel et flow matching ancré localement pour une politique visuomotrice cohérente
Une équipe de chercheurs a déposé en mai 2026 sur arXiv (référence 2605.15944) FocalPolicy, une nouvelle architecture de politique visuomotrice pour la manipulation robotique apprise par démonstration. Le problème ciblé est celui des discontinuités inter-chunks : les politiques actuelles découpent les séquences d'action en segments successifs (chunks), et les raccords entre ces segments génèrent des saccades qui perturbent l'apprentissage de tâches longues. FocalPolicy propose deux contributions principales : le Frequency-Optimized Chunking, qui régularise la structure des actions dans le domaine fréquentiel sur plusieurs chunks futurs, et le Locally Anchored flow matching, qui améliore la propagation du signal lors de l'entraînement par consistency flow matching. Un objectif composite dit de "foresight" supervise simultanément l'alignement temporel des actions proximales et la cohérence fréquentielle à plus long horizon. Les auteurs déclarent surpasser les approches existantes sur des benchmarks de manipulation, sans détailler les marges d'amélioration dans l'abstract.
Pour les équipes travaillant sur la manipulation dextère, cette contribution s'attaque à un problème concret : les politiques issues de Diffusion Policy ou de Pi-0 (Physical Intelligence) produisent des trajectoires localement précises mais saccadées sur des horizons longs, comme l'assemblage multi-étapes ou la manipulation d'objets souples. La contrainte fréquentielle proposée impose une régularité globale sans augmenter la fenêtre de contexte ni le coût d'inférence, avantage réel pour les systèmes embarqués. La généralisation annoncée à d'autres architectures de base ouvre la porte à une intégration dans des pipelines existants, à condition que les gains tiennent sur hardware réel : les expériences publiées restent sur bancs standardisés, sans déploiement industriel déclaré.
Le problème de cohérence inter-chunks a émergé avec ACT (Action Chunking with Transformers, Zhao et al. 2023), architecture phare des robots bimanuel ALOHA, avant que Diffusion Policy (Chi et al. 2023) et Physical Intelligence, avec Pi-0 puis Pi-0.5, n'adoptent les modèles génératifs pour distribuer des actions complexes. FocalPolicy s'inscrit dans cette lignée comme une amélioration structurelle ciblée, sans proposer de changement de paradigme. Le code et des démos sont annoncés sur focalpolicy.github.io, mais aucune timeline de mise à disposition ni partenariat industriel ne figure dans le preprint.
Dans nos dossiers




