RNN/LSTMからTransformerへのパラダイムシフトを科学的に解説します。Self-Attention機構の革新性、最新の最適化手法(RoPE、GQA、Flash Attention)、代替アーキテクチャ(MoE、Mamba)まで、2017年から2024年までのアーキテクチャ進化を体系的に理解します。
| 記事 | 説明 |
|---|---|
| [執筆中] RNN/LSTMの限界 | Recurrent Neural Networks(RNN)とLSTMの基本構造と限界。勾配消失・爆発問題、長期依存関係の学習困難性、逐次処理による並列化の制約など、Transformer開発の動機となった本質的問題を理解。 |
| [執筆中] Transformer革命 | 2017年のVaswaniら「Attention Is All You Need」論文が引き起こした革命。Self-Attention機構による全トークン間の並列処理、Multi-Head Attention、位置エンコーディングなど革新的設計を理解。 |
| [執筆中] Attention機構の数学的理解 | Self-Attention機構の数学的原理を詳解。Query、Key、Valueの概念、スケールドドット積注意(Attention(Q,K,V) = softmax(QK^T/√d_k)V)、Multi-Head Attention、計算量O(n²)の意味を理解。 |
| [執筆中] 位置エンコーディングの進化 | 位置情報をモデルに伝える手法の進化。正弦波ベースの位置エンコーディング(2017年)の原理と限界、RoPE(Rotary Position Embedding、2021年)による革新、ALiBi等の代替手法を理解。 |
| [執筆中] アーキテクチャの進化 | 2017年から2024年までのTransformerアーキテクチャの洗練。Pre-normalization、RMSNorm、Grouped Query Attention(GQA)、Flash Attention、SwiGLU活性化関数など効率性と性能向上の改良を理解。 |
| [執筆中] Mixture of Experts(MoE) | Mixture of Expertsアーキテクチャの原理と応用。モデルを複数の専門家に分割し、Gating Networkが最適な専門家を選択する仕組み、スパース活性化によるモデル容量と計算効率の両立を理解。 |
| [執筆中] State Space Models(Mamba) | State Space Models(SSMs)、特にMambaの原理と可能性。Transformerの二次複雑度O(n²)を線形複雑度O(n)に削減する仕組み、Selective State Space Modelsによる動的パラメータ調整を理解。 |
アーキテクチャ進化カテゴリーでは、AI技術の根幹を支えるニューラルネットワークの構造がどのように進化してきたかを学びます。特に2017年のTransformer登場が引き起こした革命的変化と、その後2024年までの技術的洗練に焦点を当てます。
技術者、研究者、エンジニアを対象としています。線形代数の基礎知識があると理解が深まりますが、数式の直感的理解も重視します。
全7記事を通読:約10-15時間
このカテゴリーの記事は以下の査読付き論文を主な出典としています。各記事で詳細な引用を行います。
※個別記事では、各論文への直接リンクと詳細な引用情報を提供します。
アーキテクチャを学習した後は、以下のカテゴリーに進むことを推奨します: