1. 現在のアーキテクチャ状況
1.1 Transformerの支配と課題
2017年以来、Transformerが深層学習の標準アーキテクチャとして君臨。しかし、以下の課題が顕在化:
- 計算量:Self-Attentionの$O(n^2)$が長文脈でボトルネック
- メモリ:KVキャッシュが推論時に膨大に
- 効率性:パラメータの大半が毎回使用される非効率
1.2 3つの主要アプローチ
- 効率的Attention:FlashAttention、GQA、Sliding Window
- 条件付き計算:Mixture of Experts(MoE)
- 代替アーキテクチャ:State Space Models(Mamba)
1.3 2024-2025年のトレンド
- オープンソースモデルの急速な進化
- MoEの実用化(Mixtral、DeepSeek)
- 長文脈対応(128K〜1M+トークン)
- 推論効率の重視(エッジデプロイ)
- マルチモーダル統合
2. 効率的Attention手法
2.1 FlashAttention
Dao et al. (2022)。メモリ階層を考慮したIO-aware実装。
原理:Attentionをタイリングし、中間結果をHBMに書き出さずSRAMで処理。
効果:
- メモリ使用量:$O(n^2) \to O(n)$
- 速度:2-4倍高速化
- 長文脈処理が実用的に
FlashAttention-2(2023)、FlashAttention-3(2024)でさらに改良。
2.2 Grouped Query Attention(GQA)
Ainslie et al. (2023)。KとVのヘッドを複数Queryヘッドで共有。
- MHA:各ヘッドが独自のQ, K, V
- MQA:全Qヘッドが1つのK, Vを共有
- GQA:グループごとにK, Vを共有(MHAとMQAの中間)
LLaMA 2/3、Mistralで採用。推論時のKVキャッシュを大幅削減。
2.3 Sliding Window Attention
Mistralで採用。各トークンは固定ウィンドウ内のみ参照。
特徴:
- 計算量:$O(n \cdot w)$($w$:ウィンドウサイズ)
- 層を重ねることで受容野が拡大
- 長距離依存は間接的に学習
2.4 その他の効率化手法
- Sparse Attention:Longformer、BigBird
- Linear Attention:計算量を$O(n)$に(精度とトレードオフ)
- Ring Attention:分散環境での長文脈処理
主要論文:
- Dao et al. (2022) "FlashAttention", NeurIPS
- Dao (2023) "FlashAttention-2", ICLR
- Ainslie et al. (2023) "GQA: Training Generalized Multi-Query Transformer", EMNLP
3. Mixture of Experts(MoE)
3.1 基本原理
条件付き計算:入力に応じて一部のパラメータのみ活性化。
総パラメータ数は大きいが、推論時の計算量は小さい。
構成要素:
- Expert:複数のFFN(通常8-64個)
- Router/Gating Network:入力をどのExpertに送るか決定
3.2 主要なMoEモデル
Mixtral 8x7B(Mistral AI, 2023)
- 8 Expert、各7B、Top-2ルーティング
- 総パラメータ47B、活性化パラメータ13B
- LLaMA 2 70Bに匹敵する性能
DeepSeek-V2/V3(DeepSeek, 2024-2025)
- DeepSeekMoE:細粒度Expert、共有Expert
- V3:671Bパラメータ、37B活性化
- 圧倒的なコスト効率
Grok(xAI)、DBRX(Databricks)も MoE採用。
3.3 技術的課題
- 負荷分散:特定Expertに偏らないよう補助損失
- 通信コスト:分散環境でのExpert間通信
- 訓練安定性:ルーターの学習
→ 詳細は Mixture of Experts詳細
4. State Space Models
4.1 Transformerの代替として
RNNの効率性(線形計算量)とTransformerの性能を両立する試み。
4.2 S4(Structured State Space)
Gu et al. (2022)。連続時間状態空間モデルの離散化。
長距離依存の学習に優れる。Long Range Arenaベンチマークで優位。
4.3 Mamba
Gu & Dao (2023)。選択的状態空間モデル。
革新:入力依存のパラメータ(Selective SSM)
- Transformerに匹敵する言語モデリング性能
- 線形計算量、高速な推論
- KVキャッシュ不要
Mamba-2(2024):さらなる効率化とスケーリング。
4.4 SSMの課題
- In-Context Learning能力がTransformerに劣る可能性
- 長距離コピーなど特定タスクで弱点
- 大規模での検証が不十分
→ 詳細は State Space Models詳細
5. ハイブリッドアーキテクチャ
5.1 Attention + SSMの組み合わせ
両者の長所を組み合わせる試み。
Jamba(AI21 Labs, 2024)
- Transformer層とMamba層を交互に配置
- MoEも組み込み
- 256Kトークン文脈
Zamba、その他のハイブリッドモデルも登場。
5.2 設計上のトレードオフ
- Attention:In-Context Learning、精密な参照に強い
- SSM:長系列処理、推論効率に優れる
- ハイブリッド:両者のバランス、最適な比率は研究中
6. 主要モデルの設計比較
6.1 LLaMA 3シリーズ(Meta)
| 要素 |
選択 |
| Attention |
GQA |
| 位置エンコーディング |
RoPE |
| 正規化 |
RMSNorm (Pre-LN) |
| 活性化 |
SwiGLU |
| 文脈長 |
8K(拡張で128K+) |
6.2 Mistral / Mixtral
- Sliding Window Attention
- GQA
- Mixtral:MoE(8 Expert、Top-2)
- 効率重視の設計
6.3 DeepSeek-V3
- Multi-head Latent Attention(MLA):KVを圧縮
- DeepSeekMoE:細粒度Expert + 共有Expert
- FP8訓練:計算効率化
- 671B総パラメータ、37B活性化
6.4 Claude(Anthropic)
- 詳細な技術仕様は非公開
- 200K文脈対応(Claude 3)
- Constitutional AI による訓練
- 安全性とアライメントを重視
6.5 GPT-4(OpenAI)
- MoE使用が報告されている(非公式)
- マルチモーダル(GPT-4V)
- 128K文脈
7. 今後の方向性
7.1 効率性の追求
- さらなるMoEの洗練
- SSMとAttentionの最適な組み合わせ
- 量子化、蒸留との統合
7.2 長文脈
- 1M+トークンへの対応
- 効率的な検索・圧縮機構
- 無限文脈への挑戦
7.3 マルチモーダル統合
- テキスト・画像・音声・動画の統一アーキテクチャ
- モダリティ固有の最適化とのバランス
7.4 新しい計算パラダイム
- Test-Time Compute(推論時計算の活用)
- メモリ拡張アーキテクチャ
- ニューロシンボリック統合
8. 参考文献
効率的Attention
- Dao et al. (2022, 2023) "FlashAttention 1 & 2"
- Ainslie et al. (2023) "GQA", EMNLP
MoE
- Shazeer et al. (2017) "Outrageously Large Neural Networks: The Sparsely-Gated MoE Layer", ICLR
- Jiang et al. (2024) "Mixtral of Experts"
- DeepSeek-AI (2024) "DeepSeek-V2"
SSM
- Gu et al. (2022) "Efficiently Modeling Long Sequences with Structured State Spaces (S4)", ICLR
- Gu & Dao (2023) "Mamba: Linear-Time Sequence Modeling with Selective State Spaces"
関連ページ