最新アーキテクチャ概観

2024-2025年のLLMアーキテクチャ動向。効率的Attention、Mixture of Experts、State Space Models、ハイブリッドアプローチ。主要モデル(LLaMA、Mistral、DeepSeek、Mamba)の設計思想と技術的選択。

最終更新:2025年11月

1. 現在のアーキテクチャ状況

1.1 Transformerの支配と課題

2017年以来、Transformerが深層学習の標準アーキテクチャとして君臨。しかし、以下の課題が顕在化:

  • 計算量:Self-Attentionの$O(n^2)$が長文脈でボトルネック
  • メモリ:KVキャッシュが推論時に膨大に
  • 効率性:パラメータの大半が毎回使用される非効率

1.2 3つの主要アプローチ

  • 効率的Attention:FlashAttention、GQA、Sliding Window
  • 条件付き計算:Mixture of Experts(MoE)
  • 代替アーキテクチャ:State Space Models(Mamba)

1.3 2024-2025年のトレンド

  • オープンソースモデルの急速な進化
  • MoEの実用化(Mixtral、DeepSeek)
  • 長文脈対応(128K〜1M+トークン)
  • 推論効率の重視(エッジデプロイ)
  • マルチモーダル統合

2. 効率的Attention手法

2.1 FlashAttention

Dao et al. (2022)。メモリ階層を考慮したIO-aware実装。

原理:Attentionをタイリングし、中間結果をHBMに書き出さずSRAMで処理。

効果:

  • メモリ使用量:$O(n^2) \to O(n)$
  • 速度:2-4倍高速化
  • 長文脈処理が実用的に

FlashAttention-2(2023)、FlashAttention-3(2024)でさらに改良。

2.2 Grouped Query Attention(GQA)

Ainslie et al. (2023)。KとVのヘッドを複数Queryヘッドで共有。

  • MHA:各ヘッドが独自のQ, K, V
  • MQA:全Qヘッドが1つのK, Vを共有
  • GQA:グループごとにK, Vを共有(MHAとMQAの中間)

LLaMA 2/3、Mistralで採用。推論時のKVキャッシュを大幅削減。

2.3 Sliding Window Attention

Mistralで採用。各トークンは固定ウィンドウ内のみ参照。

特徴:

  • 計算量:$O(n \cdot w)$($w$:ウィンドウサイズ)
  • 層を重ねることで受容野が拡大
  • 長距離依存は間接的に学習

2.4 その他の効率化手法

  • Sparse Attention:Longformer、BigBird
  • Linear Attention:計算量を$O(n)$に(精度とトレードオフ)
  • Ring Attention:分散環境での長文脈処理

主要論文:

  • Dao et al. (2022) "FlashAttention", NeurIPS
  • Dao (2023) "FlashAttention-2", ICLR
  • Ainslie et al. (2023) "GQA: Training Generalized Multi-Query Transformer", EMNLP

3. Mixture of Experts(MoE)

3.1 基本原理

条件付き計算:入力に応じて一部のパラメータのみ活性化。

総パラメータ数は大きいが、推論時の計算量は小さい。

構成要素:

  • Expert:複数のFFN(通常8-64個)
  • Router/Gating Network:入力をどのExpertに送るか決定

3.2 主要なMoEモデル

Mixtral 8x7B(Mistral AI, 2023)

  • 8 Expert、各7B、Top-2ルーティング
  • 総パラメータ47B、活性化パラメータ13B
  • LLaMA 2 70Bに匹敵する性能

DeepSeek-V2/V3(DeepSeek, 2024-2025)

  • DeepSeekMoE:細粒度Expert、共有Expert
  • V3:671Bパラメータ、37B活性化
  • 圧倒的なコスト効率

Grok(xAI)、DBRX(Databricks)も MoE採用。

3.3 技術的課題

  • 負荷分散:特定Expertに偏らないよう補助損失
  • 通信コスト:分散環境でのExpert間通信
  • 訓練安定性:ルーターの学習

→ 詳細は Mixture of Experts詳細

4. State Space Models

4.1 Transformerの代替として

RNNの効率性(線形計算量)とTransformerの性能を両立する試み。

4.2 S4(Structured State Space)

Gu et al. (2022)。連続時間状態空間モデルの離散化。

長距離依存の学習に優れる。Long Range Arenaベンチマークで優位。

4.3 Mamba

Gu & Dao (2023)。選択的状態空間モデル。

革新:入力依存のパラメータ(Selective SSM)

  • Transformerに匹敵する言語モデリング性能
  • 線形計算量、高速な推論
  • KVキャッシュ不要

Mamba-2(2024):さらなる効率化とスケーリング。

4.4 SSMの課題

  • In-Context Learning能力がTransformerに劣る可能性
  • 長距離コピーなど特定タスクで弱点
  • 大規模での検証が不十分

→ 詳細は State Space Models詳細

5. ハイブリッドアーキテクチャ

5.1 Attention + SSMの組み合わせ

両者の長所を組み合わせる試み。

Jamba(AI21 Labs, 2024)

  • Transformer層とMamba層を交互に配置
  • MoEも組み込み
  • 256Kトークン文脈

Zamba、その他のハイブリッドモデルも登場。

5.2 設計上のトレードオフ

  • Attention:In-Context Learning、精密な参照に強い
  • SSM:長系列処理、推論効率に優れる
  • ハイブリッド:両者のバランス、最適な比率は研究中

6. 主要モデルの設計比較

6.1 LLaMA 3シリーズ(Meta)

要素 選択
Attention GQA
位置エンコーディング RoPE
正規化 RMSNorm (Pre-LN)
活性化 SwiGLU
文脈長 8K(拡張で128K+)

6.2 Mistral / Mixtral

  • Sliding Window Attention
  • GQA
  • Mixtral:MoE(8 Expert、Top-2)
  • 効率重視の設計

6.3 DeepSeek-V3

  • Multi-head Latent Attention(MLA):KVを圧縮
  • DeepSeekMoE:細粒度Expert + 共有Expert
  • FP8訓練:計算効率化
  • 671B総パラメータ、37B活性化

6.4 Claude(Anthropic)

  • 詳細な技術仕様は非公開
  • 200K文脈対応(Claude 3)
  • Constitutional AI による訓練
  • 安全性とアライメントを重視

6.5 GPT-4(OpenAI)

  • MoE使用が報告されている(非公式)
  • マルチモーダル(GPT-4V)
  • 128K文脈

7. 今後の方向性

7.1 効率性の追求

  • さらなるMoEの洗練
  • SSMとAttentionの最適な組み合わせ
  • 量子化、蒸留との統合

7.2 長文脈

  • 1M+トークンへの対応
  • 効率的な検索・圧縮機構
  • 無限文脈への挑戦

7.3 マルチモーダル統合

  • テキスト・画像・音声・動画の統一アーキテクチャ
  • モダリティ固有の最適化とのバランス

7.4 新しい計算パラダイム

  • Test-Time Compute(推論時計算の活用)
  • メモリ拡張アーキテクチャ
  • ニューロシンボリック統合

8. 参考文献

効率的Attention

  • Dao et al. (2022, 2023) "FlashAttention 1 & 2"
  • Ainslie et al. (2023) "GQA", EMNLP

MoE

  • Shazeer et al. (2017) "Outrageously Large Neural Networks: The Sparsely-Gated MoE Layer", ICLR
  • Jiang et al. (2024) "Mixtral of Experts"
  • DeepSeek-AI (2024) "DeepSeek-V2"

SSM

  • Gu et al. (2022) "Efficiently Modeling Long Sequences with Structured State Spaces (S4)", ICLR
  • Gu & Dao (2023) "Mamba: Linear-Time Sequence Modeling with Selective State Spaces"

関連ページ