最新アーキテクチャ概観

1. 現在のアーキテクチャ状況

1.1 Transformerの支配と課題

2017年以来、Transformerが深層学習の標準アーキテクチャとして君臨。しかし、以下の課題が顕在化：

計算量：Self-Attentionの$O(n^2)$が長文脈でボトルネック
メモリ：KVキャッシュが推論時に膨大に
効率性：パラメータの大半が毎回使用される非効率

1.2 3つの主要アプローチ

効率的Attention：FlashAttention、GQA、Sliding Window
条件付き計算：Mixture of Experts（MoE）
代替アーキテクチャ：State Space Models（Mamba）

1.3 2024-2025年のトレンド

オープンソースモデルの急速な進化
MoEの実用化（Mixtral、DeepSeek）
長文脈対応（128K〜1M+トークン）
推論効率の重視（エッジデプロイ）
マルチモーダル統合

2. 効率的Attention手法

2.1 FlashAttention

Dao et al. (2022)。メモリ階層を考慮したIO-aware実装。

原理：Attentionをタイリングし、中間結果をHBMに書き出さずSRAMで処理。

効果：

メモリ使用量：$O(n^2) \to O(n)$
速度：2-4倍高速化
長文脈処理が実用的に

FlashAttention-2（2023）、FlashAttention-3（2024）でさらに改良。

2.2 Grouped Query Attention（GQA）

Ainslie et al. (2023)。KとVのヘッドを複数Queryヘッドで共有。

MHA：各ヘッドが独自のQ, K, V
MQA：全Qヘッドが1つのK, Vを共有
GQA：グループごとにK, Vを共有（MHAとMQAの中間）

LLaMA 2/3、Mistralで採用。推論時のKVキャッシュを大幅削減。

2.3 Sliding Window Attention

Mistralで採用。各トークンは固定ウィンドウ内のみ参照。

特徴：

計算量：$O(n \cdot w)$（$w$：ウィンドウサイズ）
層を重ねることで受容野が拡大
長距離依存は間接的に学習

2.4 その他の効率化手法

Sparse Attention：Longformer、BigBird
Linear Attention：計算量を$O(n)$に（精度とトレードオフ）
Ring Attention：分散環境での長文脈処理

主要論文：

Dao et al. (2022) "FlashAttention", NeurIPS
Dao (2023) "FlashAttention-2", ICLR
Ainslie et al. (2023) "GQA: Training Generalized Multi-Query Transformer", EMNLP

3. Mixture of Experts（MoE）

3.1 基本原理

条件付き計算：入力に応じて一部のパラメータのみ活性化。

総パラメータ数は大きいが、推論時の計算量は小さい。

構成要素：

Expert：複数のFFN（通常8-64個）
Router/Gating Network：入力をどのExpertに送るか決定

3.2 主要なMoEモデル

Mixtral 8x7B（Mistral AI, 2023）

8 Expert、各7B、Top-2ルーティング
総パラメータ47B、活性化パラメータ13B
LLaMA 2 70Bに匹敵する性能

DeepSeek-V2/V3（DeepSeek, 2024-2025）

DeepSeekMoE：細粒度Expert、共有Expert
V3：671Bパラメータ、37B活性化
圧倒的なコスト効率

Grok（xAI）、DBRX（Databricks）も MoE採用。

3.3 技術的課題

負荷分散：特定Expertに偏らないよう補助損失
通信コスト：分散環境でのExpert間通信
訓練安定性：ルーターの学習

→ 詳細は Mixture of Experts詳細

4. State Space Models

4.1 Transformerの代替として

RNNの効率性（線形計算量）とTransformerの性能を両立する試み。

4.2 S4（Structured State Space）

Gu et al. (2022)。連続時間状態空間モデルの離散化。

長距離依存の学習に優れる。Long Range Arenaベンチマークで優位。

4.3 Mamba

Gu & Dao (2023)。選択的状態空間モデル。

革新：入力依存のパラメータ（Selective SSM）

Transformerに匹敵する言語モデリング性能
線形計算量、高速な推論
KVキャッシュ不要

Mamba-2（2024）：さらなる効率化とスケーリング。

4.4 SSMの課題

In-Context Learning能力がTransformerに劣る可能性
長距離コピーなど特定タスクで弱点
大規模での検証が不十分

→ 詳細は State Space Models詳細

5. ハイブリッドアーキテクチャ

5.1 Attention + SSMの組み合わせ

両者の長所を組み合わせる試み。

Jamba（AI21 Labs, 2024）

Transformer層とMamba層を交互に配置
MoEも組み込み
256Kトークン文脈

Zamba、その他のハイブリッドモデルも登場。

5.2 設計上のトレードオフ

Attention：In-Context Learning、精密な参照に強い
SSM：長系列処理、推論効率に優れる
ハイブリッド：両者のバランス、最適な比率は研究中

6. 主要モデルの設計比較

6.1 LLaMA 3シリーズ（Meta）

要素	選択
Attention	GQA
位置エンコーディング	RoPE
正規化	RMSNorm (Pre-LN)
活性化	SwiGLU
文脈長	8K（拡張で128K+）

6.2 Mistral / Mixtral

Sliding Window Attention
GQA
Mixtral：MoE（8 Expert、Top-2）
効率重視の設計

6.3 DeepSeek-V3

Multi-head Latent Attention（MLA）：KVを圧縮
DeepSeekMoE：細粒度Expert + 共有Expert
FP8訓練：計算効率化
671B総パラメータ、37B活性化

6.4 Claude（Anthropic）

詳細な技術仕様は非公開
200K文脈対応（Claude 3）
Constitutional AI による訓練
安全性とアライメントを重視

6.5 GPT-4（OpenAI）

MoE使用が報告されている（非公式）
マルチモーダル（GPT-4V）
128K文脈

7. 今後の方向性

7.1 効率性の追求

さらなるMoEの洗練
SSMとAttentionの最適な組み合わせ
量子化、蒸留との統合

7.2 長文脈

1M+トークンへの対応
効率的な検索・圧縮機構
無限文脈への挑戦

7.3 マルチモーダル統合

テキスト・画像・音声・動画の統一アーキテクチャ
モダリティ固有の最適化とのバランス

7.4 新しい計算パラダイム

Test-Time Compute（推論時計算の活用）
メモリ拡張アーキテクチャ
ニューロシンボリック統合

8. 参考文献

効率的Attention

Dao et al. (2022, 2023) "FlashAttention 1 & 2"
Ainslie et al. (2023) "GQA", EMNLP

MoE

Shazeer et al. (2017) "Outrageously Large Neural Networks: The Sparsely-Gated MoE Layer", ICLR
Jiang et al. (2024) "Mixtral of Experts"
DeepSeek-AI (2024) "DeepSeek-V2"

SSM

Gu et al. (2022) "Efficiently Modeling Long Sequences with Structured State Spaces (S4)", ICLR
Gu & Dao (2023) "Mamba: Linear-Time Sequence Modeling with Selective State Spaces"