Résultats critiques: Moonshot AI dévoile des résultats pour remplacer le mélange résiduel fixe par une attention depth-wise pour une meilleure évolutivité dans les transformateurs
Moonshot AI remet en question l'un des fondements les plus établis de l'architecture Transformer : les connexions résiduelles. Baptisée Attention Residuals (AttnRes), la nouvelle approche proposée par les chercheurs de la startup chinoise remplace l'accumulation résiduelle classique par un mécanisme d'attention depth-wise — une attention portant non plus sur la séquence de tokens, mais sur la dimension de profondeur du réseau. L'idée : laisser chaque couche choisir dynamiquement quelles représentations des couches précédentes lui sont utiles, plutôt que de toutes les consommer avec un poids uniforme.
L'enjeu est significatif pour la scalabilité des grands modèles de langage. Dans les architectures PreNorm standard, la magnitude de l'état caché croît avec la profondeur du réseau, diluant progressivement la contribution de chaque couche individuelle. Ce phénomène constitue un frein à l'optimisation des modèles très profonds et rend l'accès sélectif à des représentations antérieures structurellement impossible — une fois l'information fusionnée dans le flux résiduel, elle ne peut être récupérée de façon ciblée.
Les chercheurs identifient trois problèmes concrets avec les résidus classiques : absence d'accès sélectif (toutes les couches reçoivent le même état agrégé), perte irréversible d'information, et croissance des sorties en profondeur pouvant déstabiliser l'entraînement. Deux variantes d'AttnRes sont proposées : Full AttnRes, qui calcule une attention sur toutes les couches précédentes avec un coût mémoire en O(Ld), et Block AttnRes, une version pratique pour les grands modèles qui partitionne les couches en blocs N, ramenant le coût à O(Nd). Cette dernière affiche moins de 4% de surcoût à l'entraînement sous pipeline parallèle et moins de 2% de latence supplémentaire à l'inférence.
Les expériences portent sur cinq tailles de modèles, comparant AttnRes aux résidus standards sur plusieurs variantes. Le code source est disponible publiquement sur GitHub (MoonshotAI/Attention-Residuals). Si les résultats de scalabilité se confirment à très grande échelle, AttnRes pourrait s'imposer comme une alternative sérieuse aux connexions résiduelles fixes — un composant que la communauté questionne rarement mais qui conditionne pourtant l'ensemble de la dynamique d'apprentissage des Transformers modernes.



