
Google présente TurboQuant : un nouvel algorithme de compression qui réduit de 6x la mémoire cache clé-valeur des LLM et offre jusqu'à 8x d'accélération, sans aucune perte de précision
Google vient de présenter TurboQuant, un nouvel algorithme de quantification vectorielle capable de réduire jusqu'à 6 fois la mémoire nécessaire au cache clé-valeur (KV cache) des grands modèles de langage, tout en offrant des gains d'accélération allant jusqu'à 8x — le tout sans aucune dégradation mesurable de la précision. Une avancée qui s'attaque directement à l'un des goulots d'étranglement les plus critiques de l'inférence en contexte long.
Le cache KV est au cœur du problème de scalabilité des LLM : sa taille croît proportionnellement aux dimensions du modèle et à la longueur du contexte, saturant rapidement la mémoire à haute bande passante (HBM) et ralentissant les transferts vers la SRAM. Ce "mur mémoire" pénalise directement les performances en production, notamment pour les applications nécessitant de très longs contextes. La solution habituelle — la quantification — introduit généralement des biais dans les calculs de produits scalaires essentiels au mécanisme d'attention des transformers, ce que TurboQuant prétend résoudre de manière rigoureuse et provablement optimale.
L'approche repose sur une rotation aléatoire appliquée aux vecteurs d'entrée, forçant leurs coordonnées à suivre une distribution Beta concentrée, quasi-indépendante en haute dimension. Cela ramène le problème à une quantification scalaire 1D optimisable une seule fois, stockée en codebooks réutilisables à l'inférence — sans calibration sur des données spécifiques, contrairement aux méthodes classiques comme le Product Quantization. Pour éliminer le biais sur les produits scalaires, Google Research a développé une variante en deux étapes, TurboQuant_prod, combinant une quantification MSE à b-1 bits avec un transform QJL (Quantized Johnson-Lindenstrauss) 1 bit sur le résidu. Les benchmarks sur Llama-3.1-8B-Instruct et Ministral-7B-Instruct confirment une précision de récupération de 100% sur le test Needle-In-A-Haystack jusqu'à 104 000 tokens sous une compression 4x, et la distorsion MSE se situe à seulement un facteur ≈ 1,45 de la limite théorique absolue au niveau 1 bit.
D'un point de vue théorique, TurboQuant est garanti dans un facteur ≈ 2,7 de la borne de Shannon — un résultat rarissime pour un algorithme pratique. Sa conception data-oblivious et sa compatibilité native avec les opérations vectorisées des GPU le rendent directement déployable sans phase d'entraînement préalable, ce qui facilite son intégration dans les pipelines d'inférence existants. Si ces résultats se confirment en déploiement industriel, TurboQuant pourrait devenir un composant standard dans l'optimisation des inférences à grande échelle.


