Transformer以後のアーキテクチャ動向検討|State Spaceモデルの可能性評価

Transformer以後のアーキテクチャ動向検討|State Spaceモデルの可能性評価

更新日:2025年12月12日

2017年の「Attention Is All You Need」以来、Transformerアーキテクチャは深層学習の基盤モデルとして不動の地位を築いてきた。しかし、シーケンス長に対する二次計算量という本質的な制約が、長文脈処理やリアルタイム推論において課題となっている。2023年末に発表されたMamba以降、State Space Models(SSM)を中心とした代替アーキテクチャが急速に発展し、2024年から2025年にかけてハイブリッドモデルが産業界で実用化され始めている。本記事では、これらのPost-Transformerアーキテクチャの理論的基盤、実装上の特性、および今後の展望について個人的な観点から考察してみた。同様の技術動向に関心をお持ちの方の参考になれば幸いである。
Transformer以後のアーキテクチャ動向検討|State Spaceモデルの可能性評価

1. Transformerの限界と代替アーキテクチャの登場

1.1 二次計算量問題の本質

Transformerアーキテクチャの中核をなす自己注意機構(Self-Attention)は、入力シーケンス内のすべてのトークン間の関係を計算することで、長距離依存関係を効果的に捕捉する。しかし、この全対全比較は計算量とメモリ使用量がシーケンス長Nに対してO(N²)でスケールするという本質的な制約を持つ。

コンテキストウィンドウのサイズが2倍になると、処理コストは4倍に増加する。この「二次ボトルネック」は、モデルに質問を投げかけてから回答を得るまでの遅延の主要因となっており、大量の冗長な計算を生成している。ChatGPTが2022年にTransformerを普及させる頃には、研究者たちはすでに代替アーキテクチャを模索し始めていた。

計算量の比較
Transformerの自己注意機構:O(N²)の時間計算量・空間計算量
State Space Models:O(N)の時間計算量(線形)
xLSTM:O(N)の時間計算量、O(1)のメモリ計算量

1.2 主要な代替アーキテクチャの概観

Post-Transformerアーキテクチャは、大きく3つの系統に分類できる。第一に、制御理論に起源を持つState Space Models(SSM)系統であり、S4、Mamba、Mamba-2がこれに該当する。第二に、RNNの復権を目指すアプローチであり、RWKVやxLSTMが代表例である。第三に、これらを組み合わせたハイブリッドアーキテクチャであり、Jamba、Bamba、Granite 4.0などが実用化されている。

これらのアーキテクチャに共通する設計思想は、固定サイズの状態(state)を維持することで、シーケンス長に依存しない一定のメモリ消費と線形時間計算を実現することにある。人間の脳が生きている毎秒ごとに肥大化しないのと同様に、効率的なシーケンス処理には固定状態サイズが本質的に重要であるという考え方に基づいている。

1.3 RWKVとxLSTMの位置づけ

RWKV(Receptance Weighted Key Value)は、オープンソースコミュニティが開発したアーキテクチャで、RNNの回帰性とTransformerの注意機構を融合させた設計となっている。RWKV v5(コードネームEagle)は15億台のWindows 10およびWindows 11マシンに搭載され、Microsoftのオンデバイス・省電力Windows Copilot用途に採用されている。線形注意機構により、Transformerと比較して10倍から100倍のコスト削減が可能とされている。

xLSTM(Extended LSTM)は、LSTMの発明者であるSepp Hochreiterが25年後に提案した改良版アーキテクチャである。行列メモリ、メモリ混合の排除、指数ゲーティングなどの革新により、O(N)の時間計算量とO(1)のメモリ計算量を実現している。15億トークンのテキストで訓練した比較評価において、xLSTM[1:0](1 mLSTM、0 sLSTMブロック)がTransformer LLMやRWKVを上回る性能を示した。

2. State Space Modelsの理論と実装

2.1 SSMの基本原理

State Space Models(状態空間モデル)は、元々電気工学における信号処理、ロボティクス、制御理論で広く使用されてきた数学的フレームワークである。連続シーケンスの次の状態を、現在の状態、前の状態、および可能性の範囲(状態空間)からの情報のみを使用して予測するよう設計されている。

SSMの基本方程式は以下のように表される:

SSMの状態方程式
h(t) = A·h(t-1) + B·x(t) (状態更新)
y(t) = C·h(t)      (出力計算)
ここで、A, B, Cは学習可能な構造化行列

従来のRNNとは異なり、SSMは状態空間操作を効率的な畳み込み表現に変換することで、高速な並列計算を可能にする。この構造化された定式化の利点は、長距離依存関係を暗黙的に維持できることにあり、回帰アーキテクチャと自己注意機構の両方の根本的な弱点に対処している。

2.2 Mambaの選択メカニズム

2023年12月に発表されたMambaは、Selective State Space Model(選択的状態空間モデル)として、SSMの重要な弱点を克服した。従来の線形時不変SSMでは、すべての入力に対して同じA行列とB行列を適用するため、入力シーケンスに基づいて潜在状態に保持する情報を選択する機構がなく、選択的コピーのようなコンテンツ認識推論を必要とするタスクで性能が低下していた。

Mambaアーキテクチャの中核には2つの革新がある。第一に、選択的状態空間モデルにより、Transformerモデルのみが以前持っていた能力、すなわち現在の関連性に基づいて過去の入力履歴の特定部分に選択的に焦点を当てるか無視する能力を提供する。第二に、ハードウェア対応の並列スキャンアルゴリズムにより、GPUがメモリ階層内で計算を処理する方法を最適化し、速度と計算効率を最大化する。

具体的には、SSMパラメータ(Δ, B, C)を入力の関数として計算することで、各トークンが自身のニーズに固有の方法で状態に変換される。この選択性により、バニラSSMモデル(すべての入力に同じ忘却行列Aと記憶行列Bを適用)からMamba(選択的状態空間モデル)への進化が実現した。

2.3 Mamba-2とStructured State Space Duality

2024年5月に発表されたMamba-2は、Structured State Space Duality(SSD)という新しい理論的・計算的フレームワークを導入した。SSDはSSMとTransformerの間の数学的な橋渡しを提供し、特に注意機構との接続を明確化している。これは、TransformerとSSMの訓練の難易度差に対する懸念への対応として開発された。

SSMアーキテクチャの発展史
2020年:HiPPO - メモリを圧縮能力として理解する新フレームワーク
2021年:S4 - 構造化状態空間層の効率化
2022年:H3 - 言語モデリングタスクへのSSM適用
2023年12月:Mamba - 選択的SSMの導入(Gu & Dao)
2024年5月:Mamba-2 - SSD理論による効率化と理論的統一

SSDの主要な貢献は、Mamba-1では対角行列に制限されていた状態空間A行列を、スカラー×単位行列にさらに制限することで、数学的な双対形式を可能にした点にある。この制限により、Mamba-2はTransformer向けに開発された多くのシステムレベル最適化を継承しながら、線形時間スケーラビリティを維持できるようになった。

2.4 アーキテクチャ比較

アーキテクチャ 計算量 推論速度 長文脈処理 ICL能力
Transformer O(N²) 基準 KVキャッシュ増大 優秀
Mamba O(N) 5倍高速 固定メモリ やや劣る
Mamba-2 O(N) さらに効率化 固定メモリ やや劣る
RWKV O(N) 10-100倍効率的 固定状態 要検証
xLSTM O(N) 高効率 固定メモリ 研究段階
ハイブリッド O(N)〜 2-8倍高速 256K+対応 Transformer同等

3. ハイブリッドモデルの台頭と今後の展望

3.1 純粋SSMモデルの課題

純粋なSSMベースのモデルは多くのタスクでTransformerに匹敵または上回る性能を示すが、特定のタスクにおいて顕著な弱点が確認されている。NVIDIAの8Bパラメータ規模での比較研究によると、MambaおよびMamba-2モデルは強力なコピーまたはin-context learning能力を必要とするタスク(5-shot MMLU、Phonebook Lookupなど)や長文脈推論において、Transformerモデルに遅れをとることが示されている。

具体的には、1.1Tトークンの訓練後、MambaとMamba-2モデルは5-shot MMLUタスクでTransformerモデルと比較して約15ポイント低い精度を示した。この精度差は追加訓練(3.5Tトークン)により部分的に改善されるが、PhonebookタスクやIn-Context Learning関連のベンチマークでは依然として課題が残る。

SSMのICL課題の仮説
純粋SSMモデルは、複数選択問題において各回答の知識を単一の回答トークンに直接ルーティングできないと考えられている。対照的に、Transformerの自己注意層はそのようなルーティングに特に優れており、複数のin-context例によってルーティング方法を学習できる。

3.2 Jamba:最初の大規模ハイブリッドモデル

AI21 Labsが2024年3月に発表したJambaは、Transformer、Mamba、およびMixture of Experts(MoE)を組み合わせた最初の大規模ハイブリッドアーキテクチャである。Jambaは、TransformerとMambaの層を交互に配置し、両方のモデルファミリーの利点を享受する設計となっている。

アブレーション実験により、アテンション対Mamba層の比率が1:5から1:7の範囲が、高品質と高効率のバランスを提供する「スイートスポット」であることが判明した。Transformer層の比率を高める(1:1など)と標準ベンチマークでの品質は一般的に向上するが、効率性とスループットに大きなコストがかかる。逆に、Mamba層の比率を高めると効率性は向上する。

Jamba-1.5は398B総パラメータ(94Bアクティブ)に到達し、256Kトークンのコンテキスト長をサポートする。NVIDIAのRULERベンチマークで長文脈性能のState-of-the-artを達成し、オープンウェイトモデルとして256Kの主張を実証した唯一のモデルとなっている。

3.3 Bamba/Granite 4.0:エンタープライズ向けハイブリッド

IBM Researchは、CMU、Princeton、UIUC(University of Illinois at Urbana-Champaign)との協力により、Bambaを開発した。Bamba-9Bは、TransformerのKV(キー値)キャッシュメモリのメモリ要件を大幅に削減することで、同様のサイズのTransformerの少なくとも2倍の速度で実行でき、精度を維持することを示した。

この研究成果はIBM Granite 4.0に組み込まれている。Granite 4.0はMamba-2ハイブリッドを採用し、9つのMambaブロックに対して1つのTransformerブロックという比率で構成されている。SSM層が長距離メモリを管理し、Transformer層が推論とパターン認識に必要な細かいアテンションを追加する設計により、メモリ使用量と遅延の劇的な削減を性能トレードオフなしに実現している。

Granite 4.0の主要特性

  • メモリ削減:従来Transformerと比較して70%以上のRAM削減
  • 推論速度:同等サイズモデルの2倍以上(将来的に4-5倍の可能性)
  • コンテキスト長:128Kトークン検証済み、理論上は制限なし
  • 位置エンコーディング:NoPE(No Positional Encoding)採用
  • ライセンス:Apache 2.0オープンソース

3.4 8BパラメータMamba-2-Hybridの評価

NVIDIAの研究によると、8BパラメータのMamba-2-Hybrid(43% Mamba-2、7%自己注意、50% MLP層で構成)は、評価した12の標準タスクすべてで8BパラメータのTransformerを上回り(平均+2.65ポイント)、推論時のトークン生成で最大8倍高速と予測されている。これは、純粋なSSMモデルの課題を少量のTransformer層の追加で克服できることを示している。

3.5 今後の展望と考察

2024年から2025年にかけての動向を総括すると、Post-Transformerアーキテクチャは「純粋な代替」から「戦略的なハイブリッド化」へと進化している。純粋なSSMモデルは効率性で優れるもののICL能力に課題があり、ハイブリッドアーキテクチャがこの問題を解決しつつある。

今後2年間で、ハイブリッドおよび状態空間アーキテクチャが新しいデフォルトになる可能性がある。特に以下の領域での進展が期待される:

領域 現状 今後の展望
エッジデバイス RWKV v5がWindows Copilotに採用 オンデバイスAIの標準化
エンタープライズ Granite 4.0が商用化 コスト削減とスケーラビリティ向上
長文脈処理 256Kトークン実用化 1M+トークンへの拡張
推論エンジン vLLMがSSMサポート開始 最適化カーネルの成熟

ただし、これらの技術発展は予測困難であり、Transformerアーキテクチャ自体もFlashAttentionなどの最適化により継続的に改善されている点に留意が必要である。ハイブリッドモデルの最適な層比率やタスク特性との関係についても、さらなる研究が求められる。

参考・免責事項
本記事は2025年12月12日時点の情報に基づいて作成されています。技術の進展は予測困難であり、本記事の分析や予測が外れる可能性も十分にあります。記事内容は個人的な考察に基づくものであり、専門的な判断については関連分野の専門家にご相談ください。重要な技術選定については、複数の情報源を参考にし、自己責任で行ってください。主要な参考文献:Gu & Dao (2023) "Mamba: Linear-Time Sequence Modeling with Selective State Spaces", Dao & Gu (2024) "Transformers are SSMs", Lieber et al. (2024) "Jamba: A Hybrid Transformer-Mamba Language Model", IBM Research (2025) "Bamba/Granite 4.0 Technical Reports"。