
Auto-attention exclusive
Une équipe de chercheurs propose une modification simple mais efficace du mécanisme d'auto-attention au cœur des Transformers : l'auto-attention exclusive (XSA, pour Exclusive Self-Attention). Cette variante améliore les capacités de modélisation de séquences sans bouleverser l'architecture existante.
L'idée centrale repose sur une contrainte appliquée à l'attention : au lieu de laisser chaque token s'appuyer sur sa propre représentation vectorielle, XSA force le modèle à ne capter que les informations orthogonales à son propre vecteur de valeur. En excluant ainsi l'information de position propre au token, le mécanisme est contraint de mieux exploiter le contexte environnant — ce qui est précisément l'objectif d'un bon modèle de langage.
Les résultats sont mesurés sur la tâche standard de modélisation du langage et montrent que XSA surpasse systématiquement l'auto-attention classique sur toutes les tailles de modèles testées, jusqu'à 2,7 milliards de paramètres. Fait notable : les gains augmentent à mesure que la longueur des séquences s'allonge, ce qui suggère un avantage particulièrement marqué pour les contextes longs — un enjeu central dans le développement des LLMs actuels.
Cette contribution s'inscrit dans un courant de recherche visant à optimiser les briques fondamentales des Transformers sans en alourdir le coût computationnel. Si ces gains se confirment à plus grande échelle et sur des benchmarks variés, XSA pourrait devenir une modification standard intégrée dans les prochaines générations de modèles de langage.



