アーキテクチャの進化(2017-2025)

オリジナルTransformer(2017)から現代のLLM(2025)までのアーキテクチャ進化。正規化の配置、活性化関数、Attention効率化、訓練安定化技術。各改良の動機と効果を体系的に解説。

最終更新:2025年11月

1. 進化のタイムライン

1.1 主要なマイルストーン

  • 2017:Transformer(Post-LN、正弦波PE、ReLU FFN)
  • 2018:GPT(Decoder-only)、BERT(Encoder-only)
  • 2019:GPT-2(Pre-LN採用)、T5(相対位置)
  • 2020:GPT-3(スケーリング)、ViT
  • 2021:RoPE、PaLM(SwiGLU)
  • 2022:FlashAttention、LLaMA初期設計
  • 2023:LLaMA 2(GQA)、Mistral(Sliding Window)
  • 2024:FlashAttention-3、DeepSeek-V2(MLA)
  • 2025:さらなる効率化と長文脈対応

1.2 進化の原動力

  • スケーリング:より大きなモデルの訓練安定性
  • 効率性:訓練・推論コストの削減
  • 長文脈:より長い入力への対応
  • 性能:同一計算量でのベンチマーク向上

2. 正規化の配置とRMSNorm

2.1 Post-LN(オリジナル)

残差接続の後にLayerNormを適用。

x = x + SubLayer(x)
x = LayerNorm(x)

問題:深いネットワークで勾配が不安定。Warmupが必須。

2.2 Pre-LN(GPT-2以降)

残差接続の前にLayerNormを適用。

x = x + SubLayer(LayerNorm(x))

利点:

  • 残差パスが正規化されない→勾配が安定
  • Warmupなしでも訓練可能
  • 深いネットワークでの安定性

現在のLLMの標準。

2.3 RMSNorm

Zhang & Sennrich (2019)。LayerNormの簡略版。

LayerNorm:

y = (x - μ) / √(σ² + ε) * γ + β

RMSNorm:

y = x / √(mean(x²) + ε) * γ

違い:

  • 平均の計算を省略(re-centering不要)
  • バイアス項βを削除
  • 計算量約10-15%削減

LLaMA、Mistral、GPT系で採用。

主要論文:

  • Xiong et al. (2020) "On Layer Normalization in the Transformer Architecture", ICML
  • Zhang & Sennrich (2019) "Root Mean Square Layer Normalization", NeurIPS

3. 活性化関数の進化

3.1 ReLU(オリジナル)

Transformer FFN:ReLU活性化。

FFN(x) = ReLU(xW₁ + b₁)W₂ + b₂

シンプルだが、GELUに性能で劣る。

3.2 GELU

Hendrycks & Gimpel (2016)。BERT、GPT-2で採用。

GELU(x) = x · Φ(x)

Φは標準正規分布のCDF。滑らかなゲーティング。

3.3 SwiGLU

Shazeer (2020)。PaLM、LLaMA、Mistralで採用。

SwiGLU(x) = (Swish(xW₁) ⊙ xV)W₂

Swish(x) = x · σ(x)(σはsigmoid)

GLU(Gated Linear Unit)の構造:

  • 2つの線形変換の要素積
  • 一方が「ゲート」として機能
  • 表現力の向上

注意:パラメータ数が増加(3つの重み行列)。隠れ層サイズを2/3に調整して総パラメータを揃える。

3.4 性能比較

同一パラメータ数での言語モデリング性能:

SwiGLU > GEGLU ≈ GELU > ReLU

主要論文:

  • Hendrycks & Gimpel (2016) "Gaussian Error Linear Units", arXiv
  • Shazeer (2020) "GLU Variants Improve Transformer", arXiv
  • Dauphin et al. (2017) "Language Modeling with Gated Convolutional Networks", ICML(元のGLU)

4. Attentionの効率化

4.1 Multi-Query Attention(MQA)

Shazeer (2019)。全Queryヘッドが1つのK, Vを共有。

効果:KVキャッシュを1/nに削減(nはヘッド数)

問題:品質低下の可能性

4.2 Grouped Query Attention(GQA)

Ainslie et al. (2023)。MHAとMQAの中間。

  • Queryヘッドをグループ化
  • 各グループが1つのK, Vを共有
  • 例:32 Queryヘッド、8 KVヘッド

MHAに近い品質を維持しつつKVキャッシュを削減。LLaMA 2/3、Mistralで採用。

4.3 FlashAttention

Dao et al. (2022)。IO-aware実装。

問題:標準実装はAttention行列(n²サイズ)をHBMに書き出す。

解決:タイリングによりSRAMで計算を完結。

  • メモリ:O(n²) → O(n)
  • 速度:2-4倍高速化
  • Exact attention(近似なし)

FlashAttention-2(2023):さらに2倍高速化

FlashAttention-3(2024):Hopper GPUに最適化

4.4 Sliding Window Attention

各トークンが固定ウィンドウ内のみ参照。

計算量:O(n²) → O(n · w)

層を重ねることで受容野が拡大。Mistralで採用。

4.5 Multi-head Latent Attention(MLA)

DeepSeek-V2(2024)。K, Vを低ランク圧縮。

GQAよりさらに効率的。KVキャッシュを大幅削減。

主要論文:

  • Shazeer (2019) "Fast Transformer Decoding: One Write-Head is All You Need" (MQA)
  • Ainslie et al. (2023) "GQA", EMNLP
  • Dao et al. (2022, 2023) "FlashAttention 1 & 2"

5. 訓練の安定化

5.1 重み初期化

残差スケーリング:

GPT-2:残差接続の出力を $1/\sqrt{N}$ でスケーリング(Nは層数)

深いネットワークでの勾配安定化。

5.2 QK正規化

Query-Key Normalization。Attentionスコアの安定化。

ViT-22Bなど超大規模モデルで採用。

5.3 μP(Maximal Update Parameterization)

Yang et al. (2022)。ハイパーパラメータのスケーリング則。

小さなモデルで見つけたハイパーパラメータを大きなモデルに転移可能。

5.4 勾配クリッピング

標準的に適用。閾値は通常1.0。

勾配爆発の防止。

5.5 学習率スケジュール

Warmup + Cosine Decayが標準:

  1. Warmup:学習率を0から目標値まで線形増加
  2. Cosine Decay:余弦関数で徐々に減衰

主要論文:

  • Yang et al. (2022) "Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer", arXiv

6. 2024-2025年の標準構成

6.1 典型的なLLMアーキテクチャ

コンポーネント 2017(オリジナル) 2024-2025(標準)
正規化 Post-LN Pre-LN + RMSNorm
位置エンコーディング 正弦波(加算) RoPE
Attention MHA GQA + FlashAttention
活性化 ReLU SwiGLU
バイアス あり なし(多くの場合)
文脈長 512 8K-128K+

6.2 代表的モデルの構成

LLaMA 3(Meta):

  • Pre-LN + RMSNorm
  • RoPE
  • GQA
  • SwiGLU

Mistral / Mixtral:

  • 上記 + Sliding Window Attention
  • Mixtral:MoE

DeepSeek-V3:

  • MLA(Multi-head Latent Attention)
  • DeepSeekMoE
  • FP8訓練

6.3 今後の方向性

  • さらなるAttention効率化(線形Attention、SSMハイブリッド)
  • 長文脈の標準化(100K+)
  • 推論最適化(量子化、投機的デコーディング)
  • マルチモーダル統合アーキテクチャ

7. 参考文献

アーキテクチャ論文

  • Vaswani et al. (2017) "Attention Is All You Need", NeurIPS
  • Radford et al. (2019) "Language Models are Unsupervised Multitask Learners" (GPT-2)
  • Touvron et al. (2023) "LLaMA: Open and Efficient Foundation Language Models"
  • Jiang et al. (2023) "Mistral 7B"

効率化技術

  • Dao et al. (2022, 2023) "FlashAttention 1 & 2"
  • Ainslie et al. (2023) "GQA", EMNLP
  • Shazeer (2020) "GLU Variants Improve Transformer"

関連ページ