State Space Models（SSM）とMamba

1. 背景と動機

1.1 Transformerの限界

計算量：Self-Attentionは$O(n^2)$で系列長に対して二乗
メモリ：KVキャッシュが推論時に線形増加
推論：各トークン生成で全履歴を参照

長文脈（100K+トークン）では深刻なボトルネック。

1.2 RNNの再評価

RNNの利点：

固定サイズの隠れ状態
線形計算量$O(n)$
推論時のKVキャッシュ不要

課題は長距離依存の学習困難さ。これをSSMで解決できないか？

1.3 SSMへの期待

制御理論・信号処理のState Space Modelを深層学習に応用。

RNNの効率性
Transformerに匹敵する長距離モデリング
畳み込みによる並列訓練

2. SSMの基礎

2.1 連続時間SSM

制御理論の線形時不変（LTI）システム：

$$\dot{h}(t) = Ah(t) + Bx(t)$$ $$y(t) = Ch(t) + Dx(t)$$

$h(t) \in \mathbb{R}^N$：隠れ状態
$x(t) \in \mathbb{R}$：入力
$y(t) \in \mathbb{R}$：出力
$A \in \mathbb{R}^{N \times N}$, $B \in \mathbb{R}^{N \times 1}$, $C \in \mathbb{R}^{1 \times N}$：パラメータ

2.2 離散化

デジタル信号処理のために離散化。Zero-Order Hold (ZOH)：

$$\bar{A} = \exp(\Delta A)$$ $$\bar{B} = (\Delta A)^{-1}(\exp(\Delta A) - I) \cdot \Delta B$$

$\Delta$：サンプリング間隔（学習可能）

離散時間更新式：

$$h_k = \bar{A}h_{k-1} + \bar{B}x_k$$ $$y_k = Ch_k$$

2.3 畳み込みとしての解釈

LTIシステムは畳み込みと等価：

$$y = x * \bar{K}$$ $$\bar{K} = (C\bar{B}, C\bar{A}\bar{B}, C\bar{A}^2\bar{B}, ...)$$

畳み込みカーネル$\bar{K}$を事前計算可能。FFTで$O(n \log n)$で計算。

2.4 二つのモード

訓練時：畳み込みモード（並列処理）
推論時：再帰モード（逐次処理、固定メモリ）

この柔軟性がSSMの強み。

3. S4：Structured State Space

3.1 HiPPO理論

Gu et al. (2020)。長期記憶のための状態空間初期化。

HiPPO行列：入力履歴の直交多項式近似を維持。

特に HiPPO-LegS：ルジャンドル多項式による圧縮。

3.2 S4の構造

Gu et al. (2022)。HiPPOを実用化。

課題：$N \times N$行列$A$の計算が$O(N^2)$

解決：対角+低ランク構造（DPLR）

$$A = \Lambda - PQ^*$$

$\Lambda$：対角行列、$P, Q$：低ランク行列

これにより$O(N)$で計算可能。

3.3 S4の性能

Long Range Arena (LRA)：長距離依存ベンチマーク

Path-X（16Kトークン）：S4が解けた初のモデル
画像、テキスト、数学など多様なタスクで優位

しかし言語モデリングではTransformerに劣る。

3.4 S4の変種

S4D：対角SSM（さらに単純化）
S5：並列スキャン実装
H3：SSM + Attention のハイブリッド

主要論文：

Gu et al. (2020) "HiPPO: Recurrent Memory with Optimal Polynomial Projections", NeurIPS
Gu et al. (2022) "Efficiently Modeling Long Sequences with Structured State Spaces (S4)", ICLR

4. Mamba：Selective SSM

4.1 S4の限界

S4はLTI（線形時不変）：パラメータ$(A, B, C)$が入力に依存しない。

問題：コンテンツ依存の選択ができない。

例：「重要なトークンに注目」「無関係な情報を忘却」が困難。

4.2 Selective SSM

Gu & Dao (2023)。パラメータを入力依存に。

$$B_t = f_B(x_t), \quad C_t = f_C(x_t), \quad \Delta_t = f_\Delta(x_t)$$

$f_B, f_C, f_\Delta$：線形射影

直感：

$\Delta$が大きい→入力を強く記憶
$\Delta$が小さい→以前の状態を維持
入力依存で選択的に記憶・忘却

4.3 ハードウェア効率的実装

入力依存でLTI性が失われる→FFT畳み込みが使えない。

解決：Parallel Scan（並列プレフィックス和）+ カーネル融合

SRAMに状態を保持
HBMとの転送を最小化
FlashAttentionと同様のIO-aware実装

4.4 Mambaアーキテクチャ

SSMブロックの構成：

線形射影で次元拡大
1D畳み込み
Selective SSM
乗算ゲート
線形射影で次元削減

TransformerのAttention + FFNをSSMブロックに置換。

4.5 性能

言語モデリング：

Transformerに匹敵するperplexity
特に長文脈で優位
推論速度：最大5倍高速

その他のタスク：

DNA配列モデリング
音声認識
時系列予測

4.6 Mamba-2

Dao & Gu (2024)。さらなる効率化。

状態空間双対性（SSD）：SSMと線形Attentionの統一理論
より効率的な実装
スケーリング性の改善

主要論文：

Gu & Dao (2023) "Mamba: Linear-Time Sequence Modeling with Selective State Spaces", arXiv
Dao & Gu (2024) "Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality", ICML

5. Transformerとの比較

5.1 計算量とメモリ

特性	Transformer	Mamba
訓練計算量	$O(n^2 d)$	$O(n d N)$
推論（1トークン）	$O(n d)$（KVキャッシュ参照）	$O(d N)$（固定）
KVキャッシュ	$O(n d)$（系列長に比例）	$O(d N)$（固定）
長距離依存	直接参照	状態に圧縮

$n$：系列長、$d$：隠れ次元、$N$：状態次元

5.2 能力の比較

Transformerが優位：

In-Context Learning
長距離のコピー・検索
精密な位置参照

Mambaが優位：

超長文脈処理
推論効率
連続的なストリーム処理

5.3 スケーリングの検証

Mambaは現時点で〜3Bパラメータで主に検証。

100B+でのTransformerとの比較は限定的。

2024-2025年に大規模検証が進行中。

6. ハイブリッドアーキテクチャ

6.1 Attention + SSMの組み合わせ

両者の長所を活かす設計。

6.2 Jamba（AI21 Labs, 2024）

Transformer層とMamba層を交互に配置
MoEも組み込み
256Kトークン文脈
52B総パラメータ、12B活性化

主要論文：

Lieber et al. (2024) "Jamba: A Hybrid Transformer-Mamba Language Model"

6.3 その他のハイブリッド

Zamba：類似のハイブリッド設計
Griffin（DeepMind）：ゲート付きリニアRNN
RWKV：RNNライクな効率性 + Transformer性能

6.4 設計上の考慮

Attention層の配置頻度
どの機能をどちらに任せるか
訓練安定性への影響

7. 応用と展望

7.1 現在の主な応用

言語モデリング：効率的なLLM
DNA配列：ゲノム解析
音声・オーディオ：長時間音声処理
時系列：センサーデータ、金融
ビジョン：Vision Mamba（ViM）

7.2 未解決の課題

大規模（100B+）でのスケーリング検証
In-Context Learningの改善
マルチモーダル対応
最適なハイブリッド比率の探索

7.3 今後の方向性

SSM + Attentionの最適な組み合わせ
ハードウェア最適化（専用アクセラレータ）
新しい状態空間構造の探索
理論的理解の深化

8. 参考文献

SSM基礎

Gu et al. (2020) "HiPPO", NeurIPS
Gu et al. (2022) "S4", ICLR

Mamba

Gu & Dao (2023) "Mamba", arXiv
Dao & Gu (2024) "Mamba-2 / SSD", ICML

ハイブリッド

Lieber et al. (2024) "Jamba"
De et al. (2024) "Griffin: Mixing Gated Linear Recurrences with Local Attention", arXiv

解説リソース

Sasha Rush "The Annotated S4"
Albert Gu "Lecture: State Space Models"

1. 背景と動機

1.1 Transformerの限界

1.2 RNNの再評価

1.3 SSMへの期待

2. SSMの基礎

2.1 連続時間SSM

2.2 離散化

2.3 畳み込みとしての解釈

2.4 二つのモード

3. S4：Structured State Space

3.1 HiPPO理論

3.2 S4の構造

3.3 S4の性能

3.4 S4の変種

4. Mamba：Selective SSM

4.1 S4の限界

4.2 Selective SSM

4.3 ハードウェア効率的実装

4.4 Mambaアーキテクチャ

4.5 性能

4.6 Mamba-2

5. Transformerとの比較

5.1 計算量とメモリ

5.2 能力の比較

5.3 スケーリングの検証

6. ハイブリッドアーキテクチャ

6.1 Attention + SSMの組み合わせ

6.2 Jamba（AI21 Labs, 2024）

6.3 その他のハイブリッド

6.4 設計上の考慮

7. 応用と展望

7.1 現在の主な応用

7.2 未解決の課題

7.3 今後の方向性

8. 参考文献

SSM基礎

Mamba

ハイブリッド

解説リソース

関連ページ