1. 背景と動機
1.1 Transformerの限界
- 計算量:Self-Attentionは$O(n^2)$で系列長に対して二乗
- メモリ:KVキャッシュが推論時に線形増加
- 推論:各トークン生成で全履歴を参照
長文脈(100K+トークン)では深刻なボトルネック。
1.2 RNNの再評価
RNNの利点:
- 固定サイズの隠れ状態
- 線形計算量$O(n)$
- 推論時のKVキャッシュ不要
課題は長距離依存の学習困難さ。これをSSMで解決できないか?
1.3 SSMへの期待
制御理論・信号処理のState Space Modelを深層学習に応用。
- RNNの効率性
- Transformerに匹敵する長距離モデリング
- 畳み込みによる並列訓練
2. SSMの基礎
2.1 連続時間SSM
制御理論の線形時不変(LTI)システム:
$$\dot{h}(t) = Ah(t) + Bx(t)$$
$$y(t) = Ch(t) + Dx(t)$$
- $h(t) \in \mathbb{R}^N$:隠れ状態
- $x(t) \in \mathbb{R}$:入力
- $y(t) \in \mathbb{R}$:出力
- $A \in \mathbb{R}^{N \times N}$, $B \in \mathbb{R}^{N \times 1}$, $C \in \mathbb{R}^{1 \times N}$:パラメータ
2.2 離散化
デジタル信号処理のために離散化。Zero-Order Hold (ZOH):
$$\bar{A} = \exp(\Delta A)$$
$$\bar{B} = (\Delta A)^{-1}(\exp(\Delta A) - I) \cdot \Delta B$$
$\Delta$:サンプリング間隔(学習可能)
離散時間更新式:
$$h_k = \bar{A}h_{k-1} + \bar{B}x_k$$
$$y_k = Ch_k$$
2.3 畳み込みとしての解釈
LTIシステムは畳み込みと等価:
$$y = x * \bar{K}$$
$$\bar{K} = (C\bar{B}, C\bar{A}\bar{B}, C\bar{A}^2\bar{B}, ...)$$
畳み込みカーネル$\bar{K}$を事前計算可能。FFTで$O(n \log n)$で計算。
2.4 二つのモード
- 訓練時:畳み込みモード(並列処理)
- 推論時:再帰モード(逐次処理、固定メモリ)
この柔軟性がSSMの強み。
3. S4:Structured State Space
3.1 HiPPO理論
Gu et al. (2020)。長期記憶のための状態空間初期化。
HiPPO行列:入力履歴の直交多項式近似を維持。
特に HiPPO-LegS:ルジャンドル多項式による圧縮。
3.2 S4の構造
Gu et al. (2022)。HiPPOを実用化。
課題:$N \times N$行列$A$の計算が$O(N^2)$
解決:対角+低ランク構造(DPLR)
$$A = \Lambda - PQ^*$$
$\Lambda$:対角行列、$P, Q$:低ランク行列
これにより$O(N)$で計算可能。
3.3 S4の性能
Long Range Arena (LRA):長距離依存ベンチマーク
- Path-X(16Kトークン):S4が解けた初のモデル
- 画像、テキスト、数学など多様なタスクで優位
しかし言語モデリングではTransformerに劣る。
3.4 S4の変種
- S4D:対角SSM(さらに単純化)
- S5:並列スキャン実装
- H3:SSM + Attention のハイブリッド
主要論文:
- Gu et al. (2020) "HiPPO: Recurrent Memory with Optimal Polynomial Projections", NeurIPS
- Gu et al. (2022) "Efficiently Modeling Long Sequences with Structured State Spaces (S4)", ICLR
4. Mamba:Selective SSM
4.1 S4の限界
S4はLTI(線形時不変):パラメータ$(A, B, C)$が入力に依存しない。
問題:コンテンツ依存の選択ができない。
例:「重要なトークンに注目」「無関係な情報を忘却」が困難。
4.2 Selective SSM
Gu & Dao (2023)。パラメータを入力依存に。
$$B_t = f_B(x_t), \quad C_t = f_C(x_t), \quad \Delta_t = f_\Delta(x_t)$$
$f_B, f_C, f_\Delta$:線形射影
直感:
- $\Delta$が大きい→入力を強く記憶
- $\Delta$が小さい→以前の状態を維持
- 入力依存で選択的に記憶・忘却
4.3 ハードウェア効率的実装
入力依存でLTI性が失われる→FFT畳み込みが使えない。
解決:Parallel Scan(並列プレフィックス和)+ カーネル融合
- SRAMに状態を保持
- HBMとの転送を最小化
- FlashAttentionと同様のIO-aware実装
4.4 Mambaアーキテクチャ
SSMブロックの構成:
- 線形射影で次元拡大
- 1D畳み込み
- Selective SSM
- 乗算ゲート
- 線形射影で次元削減
TransformerのAttention + FFNをSSMブロックに置換。
4.5 性能
言語モデリング:
- Transformerに匹敵するperplexity
- 特に長文脈で優位
- 推論速度:最大5倍高速
その他のタスク:
4.6 Mamba-2
Dao & Gu (2024)。さらなる効率化。
- 状態空間双対性(SSD):SSMと線形Attentionの統一理論
- より効率的な実装
- スケーリング性の改善
主要論文:
- Gu & Dao (2023) "Mamba: Linear-Time Sequence Modeling with Selective State Spaces", arXiv
- Dao & Gu (2024) "Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality", ICML
5. Transformerとの比較
5.1 計算量とメモリ
| 特性 |
Transformer |
Mamba |
| 訓練計算量 |
$O(n^2 d)$ |
$O(n d N)$ |
| 推論(1トークン) |
$O(n d)$(KVキャッシュ参照) |
$O(d N)$(固定) |
| KVキャッシュ |
$O(n d)$(系列長に比例) |
$O(d N)$(固定) |
| 長距離依存 |
直接参照 |
状態に圧縮 |
$n$:系列長、$d$:隠れ次元、$N$:状態次元
5.2 能力の比較
Transformerが優位:
- In-Context Learning
- 長距離のコピー・検索
- 精密な位置参照
Mambaが優位:
5.3 スケーリングの検証
Mambaは現時点で〜3Bパラメータで主に検証。
100B+でのTransformerとの比較は限定的。
2024-2025年に大規模検証が進行中。
6. ハイブリッドアーキテクチャ
6.1 Attention + SSMの組み合わせ
両者の長所を活かす設計。
6.2 Jamba(AI21 Labs, 2024)
- Transformer層とMamba層を交互に配置
- MoEも組み込み
- 256Kトークン文脈
- 52B総パラメータ、12B活性化
主要論文:
- Lieber et al. (2024) "Jamba: A Hybrid Transformer-Mamba Language Model"
6.3 その他のハイブリッド
- Zamba:類似のハイブリッド設計
- Griffin(DeepMind):ゲート付きリニアRNN
- RWKV:RNNライクな効率性 + Transformer性能
6.4 設計上の考慮
- Attention層の配置頻度
- どの機能をどちらに任せるか
- 訓練安定性への影響
7. 応用と展望
7.1 現在の主な応用
- 言語モデリング:効率的なLLM
- DNA配列:ゲノム解析
- 音声・オーディオ:長時間音声処理
- 時系列:センサーデータ、金融
- ビジョン:Vision Mamba(ViM)
7.2 未解決の課題
- 大規模(100B+)でのスケーリング検証
- In-Context Learningの改善
- マルチモーダル対応
- 最適なハイブリッド比率の探索
7.3 今後の方向性
- SSM + Attentionの最適な組み合わせ
- ハードウェア最適化(専用アクセラレータ)
- 新しい状態空間構造の探索
- 理論的理解の深化
8. 参考文献
SSM基礎
- Gu et al. (2020) "HiPPO", NeurIPS
- Gu et al. (2022) "S4", ICLR
Mamba
- Gu & Dao (2023) "Mamba", arXiv
- Dao & Gu (2024) "Mamba-2 / SSD", ICML
ハイブリッド
- Lieber et al. (2024) "Jamba"
- De et al. (2024) "Griffin: Mixing Gated Linear Recurrences with Local Attention", arXiv
解説リソース
- Sasha Rush "The Annotated S4"
- Albert Gu "Lecture: State Space Models"
関連ページ