アーキテクチャの進化（2017-2025）

1. 進化のタイムライン

1.1 主要なマイルストーン

2017：Transformer（Post-LN、正弦波PE、ReLU FFN）
2018：GPT（Decoder-only）、BERT（Encoder-only）
2019：GPT-2（Pre-LN採用）、T5（相対位置）
2020：GPT-3（スケーリング）、ViT
2021：RoPE、PaLM（SwiGLU）
2022：FlashAttention、LLaMA初期設計
2023：LLaMA 2（GQA）、Mistral（Sliding Window）
2024：FlashAttention-3、DeepSeek-V2（MLA）
2025：さらなる効率化と長文脈対応

1.2 進化の原動力

スケーリング：より大きなモデルの訓練安定性
効率性：訓練・推論コストの削減
長文脈：より長い入力への対応
性能：同一計算量でのベンチマーク向上

2. 正規化の配置とRMSNorm

2.1 Post-LN（オリジナル）

残差接続の後にLayerNormを適用。

x = x + SubLayer(x)
x = LayerNorm(x)

問題：深いネットワークで勾配が不安定。Warmupが必須。

2.2 Pre-LN（GPT-2以降）

残差接続の前にLayerNormを適用。

x = x + SubLayer(LayerNorm(x))

利点：

残差パスが正規化されない→勾配が安定
Warmupなしでも訓練可能
深いネットワークでの安定性

現在のLLMの標準。

2.3 RMSNorm

Zhang & Sennrich (2019)。LayerNormの簡略版。

LayerNorm：

y = (x - μ) / √(σ² + ε) * γ + β

RMSNorm：

y = x / √(mean(x²) + ε) * γ

違い：

平均の計算を省略（re-centering不要）
バイアス項βを削除
計算量約10-15%削減

LLaMA、Mistral、GPT系で採用。

主要論文：

Xiong et al. (2020) "On Layer Normalization in the Transformer Architecture", ICML
Zhang & Sennrich (2019) "Root Mean Square Layer Normalization", NeurIPS

3. 活性化関数の進化

3.1 ReLU（オリジナル）

Transformer FFN：ReLU活性化。

FFN(x) = ReLU(xW₁ + b₁)W₂ + b₂

シンプルだが、GELUに性能で劣る。

3.2 GELU

Hendrycks & Gimpel (2016)。BERT、GPT-2で採用。

GELU(x) = x · Φ(x)

Φは標準正規分布のCDF。滑らかなゲーティング。

3.3 SwiGLU

Shazeer (2020)。PaLM、LLaMA、Mistralで採用。

SwiGLU(x) = (Swish(xW₁) ⊙ xV)W₂

Swish(x) = x · σ(x)（σはsigmoid）

GLU（Gated Linear Unit）の構造：

2つの線形変換の要素積
一方が「ゲート」として機能
表現力の向上

注意：パラメータ数が増加（3つの重み行列）。隠れ層サイズを2/3に調整して総パラメータを揃える。

3.4 性能比較

同一パラメータ数での言語モデリング性能：

SwiGLU > GEGLU ≈ GELU > ReLU

主要論文：

Hendrycks & Gimpel (2016) "Gaussian Error Linear Units", arXiv
Shazeer (2020) "GLU Variants Improve Transformer", arXiv
Dauphin et al. (2017) "Language Modeling with Gated Convolutional Networks", ICML（元のGLU）

4. Attentionの効率化

4.1 Multi-Query Attention（MQA）

Shazeer (2019)。全Queryヘッドが1つのK, Vを共有。

効果：KVキャッシュを1/nに削減（nはヘッド数）

問題：品質低下の可能性

4.2 Grouped Query Attention（GQA）

Ainslie et al. (2023)。MHAとMQAの中間。

Queryヘッドをグループ化
各グループが1つのK, Vを共有
例：32 Queryヘッド、8 KVヘッド

MHAに近い品質を維持しつつKVキャッシュを削減。LLaMA 2/3、Mistralで採用。

4.3 FlashAttention

Dao et al. (2022)。IO-aware実装。

問題：標準実装はAttention行列（n²サイズ）をHBMに書き出す。

解決：タイリングによりSRAMで計算を完結。

メモリ：O(n²) → O(n)
速度：2-4倍高速化
Exact attention（近似なし）

FlashAttention-2（2023）：さらに2倍高速化

FlashAttention-3（2024）：Hopper GPUに最適化

4.4 Sliding Window Attention

各トークンが固定ウィンドウ内のみ参照。

計算量：O(n²) → O(n · w)

層を重ねることで受容野が拡大。Mistralで採用。

4.5 Multi-head Latent Attention（MLA）

DeepSeek-V2（2024）。K, Vを低ランク圧縮。

GQAよりさらに効率的。KVキャッシュを大幅削減。

主要論文：

Shazeer (2019) "Fast Transformer Decoding: One Write-Head is All You Need" (MQA)
Ainslie et al. (2023) "GQA", EMNLP
Dao et al. (2022, 2023) "FlashAttention 1 & 2"

5. 訓練の安定化

5.1 重み初期化

残差スケーリング：

GPT-2：残差接続の出力を $1/\sqrt{N}$ でスケーリング（Nは層数）

深いネットワークでの勾配安定化。

5.2 QK正規化

Query-Key Normalization。Attentionスコアの安定化。

ViT-22Bなど超大規模モデルで採用。

5.3 μP（Maximal Update Parameterization）

Yang et al. (2022)。ハイパーパラメータのスケーリング則。

小さなモデルで見つけたハイパーパラメータを大きなモデルに転移可能。

5.4 勾配クリッピング

標準的に適用。閾値は通常1.0。

勾配爆発の防止。

5.5 学習率スケジュール

Warmup + Cosine Decayが標準：

Warmup：学習率を0から目標値まで線形増加
Cosine Decay：余弦関数で徐々に減衰

主要論文：

Yang et al. (2022) "Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer", arXiv

6. 2024-2025年の標準構成

6.1 典型的なLLMアーキテクチャ

コンポーネント	2017（オリジナル）	2024-2025（標準）
正規化	Post-LN	Pre-LN + RMSNorm
位置エンコーディング	正弦波（加算）	RoPE
Attention	MHA	GQA + FlashAttention
活性化	ReLU	SwiGLU
バイアス	あり	なし（多くの場合）
文脈長	512	8K-128K+

6.2 代表的モデルの構成

LLaMA 3（Meta）：

Pre-LN + RMSNorm
RoPE
GQA
SwiGLU

Mistral / Mixtral：

上記 + Sliding Window Attention
Mixtral：MoE

DeepSeek-V3：

MLA（Multi-head Latent Attention）
DeepSeekMoE
FP8訓練

6.3 今後の方向性

さらなるAttention効率化（線形Attention、SSMハイブリッド）
長文脈の標準化（100K+）
推論最適化（量子化、投機的デコーディング）
マルチモーダル統合アーキテクチャ

7. 参考文献

アーキテクチャ論文

Vaswani et al. (2017) "Attention Is All You Need", NeurIPS
Radford et al. (2019) "Language Models are Unsupervised Multitask Learners" (GPT-2)
Touvron et al. (2023) "LLaMA: Open and Efficient Foundation Language Models"
Jiang et al. (2023) "Mistral 7B"

効率化技術

Dao et al. (2022, 2023) "FlashAttention 1 & 2"
Ainslie et al. (2023) "GQA", EMNLP
Shazeer (2020) "GLU Variants Improve Transformer"

1. 進化のタイムライン

1.1 主要なマイルストーン

1.2 進化の原動力

2. 正規化の配置とRMSNorm

2.1 Post-LN（オリジナル）

2.2 Pre-LN（GPT-2以降）

2.3 RMSNorm

3. 活性化関数の進化

3.1 ReLU（オリジナル）

3.2 GELU

3.3 SwiGLU

3.4 性能比較

4. Attentionの効率化

4.1 Multi-Query Attention（MQA）

4.2 Grouped Query Attention（GQA）

4.3 FlashAttention

4.4 Sliding Window Attention

4.5 Multi-head Latent Attention（MLA）

5. 訓練の安定化

5.1 重み初期化

5.2 QK正規化

5.3 μP（Maximal Update Parameterization）

5.4 勾配クリッピング

5.5 学習率スケジュール

6. 2024-2025年の標準構成

6.1 典型的なLLMアーキテクチャ

6.2 代表的モデルの構成

6.3 今後の方向性

7. 参考文献

アーキテクチャ論文

効率化技術

関連ページ