
TinyLoRA : une méthode d'affinage à 13 paramètres qui atteint 91,8 % sur GSM8K avec Qwen2.5-7B
Une équipe de chercheurs de FAIR (Meta), de l'Université Cornell et de Carnegie Mellon University vient de démontrer qu'un grand modèle de langage peut apprendre à raisonner en n'entraînant que 13 paramètres — soit 26 octets en précision bf16. Leur méthode, baptisée TinyLoRA, appliquée au modèle Qwen2.5-7B-Instruct, atteint 91,8 % de précision sur le benchmark mathématique GSM8K, dépassant même le modèle de base non affiné (88,2 %) et rivalisant avec un affinage complet sur l'ensemble des 7,6 milliards de paramètres.
Ce résultat bouscule un dogme implicite du domaine : la performance d'un modèle serait proportionnelle au volume de paramètres modifiés lors de l'affinage. TinyLoRA prouve que l'essentiel de l'adaptation peut être capturé dans un espace d'une compacité extrême, ce qui ouvre des perspectives importantes pour le déploiement sur des appareils contraints, la réduction des coûts d'affinage, et la compréhension théorique de la façon dont les LLM encodent de nouvelles capacités.
Sur le plan technique, TinyLoRA s'appuie sur LoRA-XS, une variante de la méthode d'adaptation à bas rang LoRA, en remplaçant les matrices entraînables par un vecteur de faible dimension projeté à travers un tenseur aléatoire fixe. Le facteur clé est le recours à l'apprentissage par renforcement — spécifiquement GRPO (Group Relative Policy Optimization) — plutôt qu'au Supervised Fine-Tuning (SFT). Les chercheurs rapportent que le SFT exige des mises à jour 100 à 1 000 fois plus volumineuses pour atteindre des performances équivalentes : son signal d'entraînement "dilue" l'information utile dans du bruit stylistique, là où le signal de récompense binaire du RL reste dense et ciblé. Côté architecture, un rang SVD figé de r=2 s'avère optimal, et le partage de paramètres par "tuilage" entre couches adjacentes surpasse le partage structuré par type de projection.
Sur des benchmarks plus exigeants comme MATH500 et AIME24, une mise à jour à 196 paramètres pour Qwen2.5-7B conserve 87 % du gain absolu d'un affinage complet sur six tests mathématiques difficiles. Les auteurs notent par ailleurs que les modèles Qwen-2.5 nécessitent environ 10 fois moins de paramètres que les modèles LLaMA-3 pour atteindre des performances comparables dans ce cadre — une disparité qui pointe vers des différences architecturales profondes dans la façon dont ces modèles organisent leur connaissance interne.



