アーキテクチャ進化(Architectures)

RNN/LSTMからTransformerへのパラダイムシフトを科学的に解説します。Self-Attention機構の革新性、最新の最適化手法(RoPE、GQA、Flash Attention)、代替アーキテクチャ(MoE、Mamba)まで、2017年から2024年までのアーキテクチャ進化を体系的に理解します。

学習記事一覧

記事 説明
[執筆中] RNN/LSTMの限界 Recurrent Neural Networks(RNN)とLSTMの基本構造と限界。勾配消失・爆発問題、長期依存関係の学習困難性、逐次処理による並列化の制約など、Transformer開発の動機となった本質的問題を理解。
[執筆中] Transformer革命 2017年のVaswaniら「Attention Is All You Need」論文が引き起こした革命。Self-Attention機構による全トークン間の並列処理、Multi-Head Attention、位置エンコーディングなど革新的設計を理解。
[執筆中] Attention機構の数学的理解 Self-Attention機構の数学的原理を詳解。Query、Key、Valueの概念、スケールドドット積注意(Attention(Q,K,V) = softmax(QK^T/√d_k)V)、Multi-Head Attention、計算量O(n²)の意味を理解。
[執筆中] 位置エンコーディングの進化 位置情報をモデルに伝える手法の進化。正弦波ベースの位置エンコーディング(2017年)の原理と限界、RoPE(Rotary Position Embedding、2021年)による革新、ALiBi等の代替手法を理解。
[執筆中] アーキテクチャの進化 2017年から2024年までのTransformerアーキテクチャの洗練。Pre-normalization、RMSNorm、Grouped Query Attention(GQA)、Flash Attention、SwiGLU活性化関数など効率性と性能向上の改良を理解。
[執筆中] Mixture of Experts(MoE) Mixture of Expertsアーキテクチャの原理と応用。モデルを複数の専門家に分割し、Gating Networkが最適な専門家を選択する仕組み、スパース活性化によるモデル容量と計算効率の両立を理解。
[執筆中] State Space Models(Mamba) State Space Models(SSMs)、特にMambaの原理と可能性。Transformerの二次複雑度O(n²)を線形複雑度O(n)に削減する仕組み、Selective State Space Modelsによる動的パラメータ調整を理解。

推奨学習順序

  1. RNN/LSTMの限界 - 従来手法の問題点を把握
  2. Transformer革命 - パラダイムシフトを理解
  3. Attention機構の数学的理解 - 核心メカニズムを学ぶ
  4. 位置エンコーディングの進化 - 重要な改良を理解
  5. アーキテクチャの進化 - 2017-2024年の洗練を把握
  6. Mixture of Experts(MoE) - 効率的大規模化を学ぶ
  7. State Space Models(Mamba) - 代替アーキテクチャの可能性を理解

このカテゴリーについて

アーキテクチャ進化カテゴリーでは、AI技術の根幹を支えるニューラルネットワークの構造がどのように進化してきたかを学びます。特に2017年のTransformer登場が引き起こした革命的変化と、その後2024年までの技術的洗練に焦点を当てます。

学習目標

  • RNN/LSTMの限界とTransformerによる解決を理解する
  • Self-Attention機構の数学的原理を把握する
  • 位置エンコーディング(正弦波、RoPE)の進化を学ぶ
  • 最新の最適化手法(GQA、Flash Attention)の効果を理解する
  • 代替アーキテクチャ(MoE、Mamba)の特徴と利点を把握する

対象読者

技術者、研究者、エンジニアを対象としています。線形代数の基礎知識があると理解が深まりますが、数式の直感的理解も重視します。

推定学習時間

全7記事を通読:約10-15時間

主要参考文献

このカテゴリーの記事は以下の査読付き論文を主な出典としています。各記事で詳細な引用を行います。

Transformer関連

  • Vaswani et al. (2017) "Attention Is All You Need" - NeurIPS 2017
  • Su et al. (2021) "RoFormer: Enhanced Transformer with Rotary Position Embedding" - arXiv:2104.09864
  • Dao et al. (2022) "FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness" - NeurIPS 2022

代替アーキテクチャ

  • Shazeer et al. (2017) "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer" - ICLR 2017
  • Gu & Dao (2023) "Mamba: Linear-Time Sequence Modeling with Selective State Spaces" - arXiv:2312.00752

※個別記事では、各論文への直接リンクと詳細な引用情報を提供します。

次のステップ

アーキテクチャを学習した後は、以下のカテゴリーに進むことを推奨します: