NeurIPS 2025において最優秀論文賞を受賞した「Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free」について、技術的観点から調査・考察してみました。本論文はアリババQwenチームを中心とした共同研究であり、Transformerアーキテクチャの根幹であるAttention機構に対するシンプルかつ効果的な改良を提案しています。LLM研究に携わる方々の参考になれば幸いです。
続きを読む
カテゴリー: 5.3 Transformer
Transformerアーキテクチャ
2017年に登場したTransformerは深層学習に革命をもたらしましたが、その二次的な計算量が長いシーケンス処理のボトルネックとなっています。こうした課題を解決する次世代アーキテクチャとして、State Space Model(SSM)、特にMambaが注目を集めています。Transformerを完全に置き換えるのか、それとも共存するのか。個人的な関心から最新の研究動向を調査・考察してみました。同じように次世代アーキテクチャに関心をお持ちの方の参考になれば幸いです。
続きを読む