
Google : TurboQuant réduit la mémoire des modèles d'IA sans perte de qualité
Google Research vient de dévoiler TurboQuant, un algorithme de compression capable de réduire drastiquement l'empreinte mémoire des grands modèles de langage tout en améliorant leurs performances. Les premiers résultats sont frappants : jusqu'à 8 fois plus rapide et 6 fois moins gourmand en mémoire, sans dégradation de la qualité des sorties.
L'enjeu est considérable pour l'ensemble du secteur de l'IA. Les LLMs sont notoires pour leur consommation mémoire excessive, un goulot d'étranglement qui freine leur déploiement à grande échelle et sur des appareils aux ressources limitées. Une compression efficace sans perte de qualité représente l'un des défis techniques les plus critiques du moment, aussi bien pour les fournisseurs cloud que pour les acteurs souhaitant embarquer ces modèles en local.
TurboQuant cible spécifiquement le cache clé-valeur (key-value cache), que Google décrit comme une "antisèche numérique" stockant les informations calculées pour éviter de les retraiter à chaque génération de token. Ce cache repose sur des vecteurs haute dimension — pouvant compter des centaines ou milliers d'embeddings — qui encodent le sens sémantique du texte traité. Ces structures sont précisément ce qui gonfle la mémoire. Là où les techniques classiques de quantification (réduction de la précision numérique) dégradent inévitablement la qualité des prédictions, TurboQuant parvient à contourner ce compromis.
Si ces résultats se confirment à plus grande échelle, Google Research pourrait redéfinir les standards d'optimisation des LLMs — ouvrant la voie à des modèles puissants tournant sur du matériel bien moins onéreux, et réduisant significativement les coûts d'inférence pour les services en production.



