1. 進化のタイムライン
1.1 主要なマイルストーン
- 2017:Transformer(Post-LN、正弦波PE、ReLU FFN)
- 2018:GPT(Decoder-only)、BERT(Encoder-only)
- 2019:GPT-2(Pre-LN採用)、T5(相対位置)
- 2020:GPT-3(スケーリング)、ViT
- 2021:RoPE、PaLM(SwiGLU)
- 2022:FlashAttention、LLaMA初期設計
- 2023:LLaMA 2(GQA)、Mistral(Sliding Window)
- 2024:FlashAttention-3、DeepSeek-V2(MLA)
- 2025:さらなる効率化と長文脈対応
1.2 進化の原動力
- スケーリング:より大きなモデルの訓練安定性
- 効率性:訓練・推論コストの削減
- 長文脈:より長い入力への対応
- 性能:同一計算量でのベンチマーク向上
2. 正規化の配置とRMSNorm
2.1 Post-LN(オリジナル)
残差接続の後にLayerNormを適用。
x = x + SubLayer(x)
x = LayerNorm(x)
問題:深いネットワークで勾配が不安定。Warmupが必須。
2.2 Pre-LN(GPT-2以降)
残差接続の前にLayerNormを適用。
x = x + SubLayer(LayerNorm(x))
利点:
- 残差パスが正規化されない→勾配が安定
- Warmupなしでも訓練可能
- 深いネットワークでの安定性
現在のLLMの標準。
2.3 RMSNorm
Zhang & Sennrich (2019)。LayerNormの簡略版。
LayerNorm:
y = (x - μ) / √(σ² + ε) * γ + β
RMSNorm:
y = x / √(mean(x²) + ε) * γ
違い:
- 平均の計算を省略(re-centering不要)
- バイアス項βを削除
- 計算量約10-15%削減
LLaMA、Mistral、GPT系で採用。
主要論文:
- Xiong et al. (2020) "On Layer Normalization in the Transformer Architecture", ICML
- Zhang & Sennrich (2019) "Root Mean Square Layer Normalization", NeurIPS
3. 活性化関数の進化
3.1 ReLU(オリジナル)
Transformer FFN:ReLU活性化。
FFN(x) = ReLU(xW₁ + b₁)W₂ + b₂
シンプルだが、GELUに性能で劣る。
3.2 GELU
Hendrycks & Gimpel (2016)。BERT、GPT-2で採用。
GELU(x) = x · Φ(x)
Φは標準正規分布のCDF。滑らかなゲーティング。
3.3 SwiGLU
Shazeer (2020)。PaLM、LLaMA、Mistralで採用。
SwiGLU(x) = (Swish(xW₁) ⊙ xV)W₂
Swish(x) = x · σ(x)(σはsigmoid)
GLU(Gated Linear Unit)の構造:
- 2つの線形変換の要素積
- 一方が「ゲート」として機能
- 表現力の向上
注意:パラメータ数が増加(3つの重み行列)。隠れ層サイズを2/3に調整して総パラメータを揃える。
3.4 性能比較
同一パラメータ数での言語モデリング性能:
SwiGLU > GEGLU ≈ GELU > ReLU
主要論文:
- Hendrycks & Gimpel (2016) "Gaussian Error Linear Units", arXiv
- Shazeer (2020) "GLU Variants Improve Transformer", arXiv
- Dauphin et al. (2017) "Language Modeling with Gated Convolutional Networks", ICML(元のGLU)
4. Attentionの効率化
4.1 Multi-Query Attention(MQA)
Shazeer (2019)。全Queryヘッドが1つのK, Vを共有。
効果:KVキャッシュを1/nに削減(nはヘッド数)
問題:品質低下の可能性
4.2 Grouped Query Attention(GQA)
Ainslie et al. (2023)。MHAとMQAの中間。
- Queryヘッドをグループ化
- 各グループが1つのK, Vを共有
- 例:32 Queryヘッド、8 KVヘッド
MHAに近い品質を維持しつつKVキャッシュを削減。LLaMA 2/3、Mistralで採用。
4.3 FlashAttention
Dao et al. (2022)。IO-aware実装。
問題:標準実装はAttention行列(n²サイズ)をHBMに書き出す。
解決:タイリングによりSRAMで計算を完結。
- メモリ:O(n²) → O(n)
- 速度:2-4倍高速化
- Exact attention(近似なし)
FlashAttention-2(2023):さらに2倍高速化
FlashAttention-3(2024):Hopper GPUに最適化
4.4 Sliding Window Attention
各トークンが固定ウィンドウ内のみ参照。
計算量:O(n²) → O(n · w)
層を重ねることで受容野が拡大。Mistralで採用。
4.5 Multi-head Latent Attention(MLA)
DeepSeek-V2(2024)。K, Vを低ランク圧縮。
GQAよりさらに効率的。KVキャッシュを大幅削減。
主要論文:
- Shazeer (2019) "Fast Transformer Decoding: One Write-Head is All You Need" (MQA)
- Ainslie et al. (2023) "GQA", EMNLP
- Dao et al. (2022, 2023) "FlashAttention 1 & 2"
5. 訓練の安定化
5.1 重み初期化
残差スケーリング:
GPT-2:残差接続の出力を $1/\sqrt{N}$ でスケーリング(Nは層数)
深いネットワークでの勾配安定化。
5.2 QK正規化
Query-Key Normalization。Attentionスコアの安定化。
ViT-22Bなど超大規模モデルで採用。
5.3 μP(Maximal Update Parameterization)
Yang et al. (2022)。ハイパーパラメータのスケーリング則。
小さなモデルで見つけたハイパーパラメータを大きなモデルに転移可能。
5.4 勾配クリッピング
標準的に適用。閾値は通常1.0。
勾配爆発の防止。
5.5 学習率スケジュール
Warmup + Cosine Decayが標準:
- Warmup:学習率を0から目標値まで線形増加
- Cosine Decay:余弦関数で徐々に減衰
主要論文:
- Yang et al. (2022) "Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer", arXiv
6. 2024-2025年の標準構成
6.1 典型的なLLMアーキテクチャ
| コンポーネント |
2017(オリジナル) |
2024-2025(標準) |
| 正規化 |
Post-LN |
Pre-LN + RMSNorm |
| 位置エンコーディング |
正弦波(加算) |
RoPE |
| Attention |
MHA |
GQA + FlashAttention |
| 活性化 |
ReLU |
SwiGLU |
| バイアス |
あり |
なし(多くの場合) |
| 文脈長 |
512 |
8K-128K+ |
6.2 代表的モデルの構成
LLaMA 3(Meta):
- Pre-LN + RMSNorm
- RoPE
- GQA
- SwiGLU
Mistral / Mixtral:
- 上記 + Sliding Window Attention
- Mixtral:MoE
DeepSeek-V3:
- MLA(Multi-head Latent Attention)
- DeepSeekMoE
- FP8訓練
6.3 今後の方向性
- さらなるAttention効率化(線形Attention、SSMハイブリッド)
- 長文脈の標準化(100K+)
- 推論最適化(量子化、投機的デコーディング)
- マルチモーダル統合アーキテクチャ
7. 参考文献
アーキテクチャ論文
- Vaswani et al. (2017) "Attention Is All You Need", NeurIPS
- Radford et al. (2019) "Language Models are Unsupervised Multitask Learners" (GPT-2)
- Touvron et al. (2023) "LLaMA: Open and Efficient Foundation Language Models"
- Jiang et al. (2023) "Mistral 7B"
効率化技術
- Dao et al. (2022, 2023) "FlashAttention 1 & 2"
- Ainslie et al. (2023) "GQA", EMNLP
- Shazeer (2020) "GLU Variants Improve Transformer"
関連ページ