
Mise en cache adaptative par blocs pour accélérer les politiques de diffusion
Une équipe de chercheurs a publié sur arXiv (2506.13456) BAC, pour Block-wise Adaptive Caching, une méthode d'accélération de l'inférence pour Diffusion Policy. Le principe : mettre en cache les features d'action intermédiaires générées lors des étapes répétitives de débruitage (denoising), puis les réutiliser sélectivement selon un schéma adaptatif au niveau de chaque bloc du transformeur. Résultat annoncé : jusqu'à 3x de speedup à l'inférence, sans dégradation des performances en génération d'action. BAC est training-free et compatible avec les architectures Diffusion Policy à base de transformeur ainsi qu'avec les modèles vision-language-action (VLA). Les expériences couvrent plusieurs benchmarks robotiques standards, sans déploiement matériel réel annoncé dans ce papier.
L'enjeu est direct pour le déploiement industriel : Diffusion Policy est l'une des approches les plus solides pour le contrôle visuomoteur de robots manipulateurs, mais son coût computationnel élevé la rend impraticable en contrôle temps-réel embarqué. Un facteur 3x sans re-training représente un gain opérationnel concret, il suffit d'intégrer BAC sur un modèle existant déjà entraîné. Deux mécanismes y contribuent : un Adaptive Caching Scheduler qui identifie les pas de temps optimaux pour rafraîchir le cache en maximisant la similarité globale des features, et un Bubbling Union Algorithm qui corrige la propagation d'erreurs entre blocs FFN (Feed-Forward Network), principale limite des approches naïves de caching.
Diffusion Policy, introduite par Chi et al. en 2023, s'est imposée comme référence pour la manipulation précise, mais son inférence multi-step la pénalise face aux politiques autorégressives ou MLP sur les contraintes de latence. Les techniques d'accélération des modèles de diffusion conçues pour la génération d'images (DDIM, DeepCache) ne se transfèrent pas directement à la robotique en raison de divergences architecturales et de la nature séquentielle des données d'action, c'est précisément le gap que BAC prétend combler. La méthode est compatible avec les VLA récents comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), ce qui lui confère un périmètre d'application large sur l'écosystème actuel. La validation reste cependant limitée aux benchmarks simulés ; une confirmation sur hardware réel en conditions d'inférence embarquée sera nécessaire pour évaluer l'impact opérationnel réel.
Dans nos dossiers




