アーキテクチャ進化 - AI入門 2024年版

学習記事一覧

記事	説明
[執筆中] RNN/LSTMの限界	Recurrent Neural Networks（RNN）とLSTMの基本構造と限界。勾配消失・爆発問題、長期依存関係の学習困難性、逐次処理による並列化の制約など、Transformer開発の動機となった本質的問題を理解。
[執筆中] Transformer革命	2017年のVaswaniら「Attention Is All You Need」論文が引き起こした革命。Self-Attention機構による全トークン間の並列処理、Multi-Head Attention、位置エンコーディングなど革新的設計を理解。
[執筆中] Attention機構の数学的理解	Self-Attention機構の数学的原理を詳解。Query、Key、Valueの概念、スケールドドット積注意（Attention(Q,K,V) = softmax(QK^T/√d_k)V）、Multi-Head Attention、計算量O(n²)の意味を理解。
[執筆中] 位置エンコーディングの進化	位置情報をモデルに伝える手法の進化。正弦波ベースの位置エンコーディング（2017年）の原理と限界、RoPE（Rotary Position Embedding、2021年）による革新、ALiBi等の代替手法を理解。
[執筆中] アーキテクチャの進化	2017年から2024年までのTransformerアーキテクチャの洗練。Pre-normalization、RMSNorm、Grouped Query Attention（GQA）、Flash Attention、SwiGLU活性化関数など効率性と性能向上の改良を理解。
[執筆中] Mixture of Experts（MoE）	Mixture of Expertsアーキテクチャの原理と応用。モデルを複数の専門家に分割し、Gating Networkが最適な専門家を選択する仕組み、スパース活性化によるモデル容量と計算効率の両立を理解。
[執筆中] State Space Models（Mamba）	State Space Models（SSMs）、特にMambaの原理と可能性。Transformerの二次複雑度O(n²)を線形複雑度O(n)に削減する仕組み、Selective State Space Modelsによる動的パラメータ調整を理解。

推奨学習順序

RNN/LSTMの限界 - 従来手法の問題点を把握
Transformer革命 - パラダイムシフトを理解
Attention機構の数学的理解 - 核心メカニズムを学ぶ
位置エンコーディングの進化 - 重要な改良を理解
アーキテクチャの進化 - 2017-2024年の洗練を把握
Mixture of Experts（MoE） - 効率的大規模化を学ぶ
State Space Models（Mamba） - 代替アーキテクチャの可能性を理解

このカテゴリーについて

アーキテクチャ進化カテゴリーでは、AI技術の根幹を支えるニューラルネットワークの構造がどのように進化してきたかを学びます。特に2017年のTransformer登場が引き起こした革命的変化と、その後2024年までの技術的洗練に焦点を当てます。

学習目標

RNN/LSTMの限界とTransformerによる解決を理解する
Self-Attention機構の数学的原理を把握する
位置エンコーディング（正弦波、RoPE）の進化を学ぶ
最新の最適化手法（GQA、Flash Attention）の効果を理解する
代替アーキテクチャ（MoE、Mamba）の特徴と利点を把握する

対象読者

技術者、研究者、エンジニアを対象としています。線形代数の基礎知識があると理解が深まりますが、数式の直感的理解も重視します。

推定学習時間

全7記事を通読：約10-15時間

主要参考文献

このカテゴリーの記事は以下の査読付き論文を主な出典としています。各記事で詳細な引用を行います。

Transformer関連

Vaswani et al. (2017) "Attention Is All You Need" - NeurIPS 2017
Su et al. (2021) "RoFormer: Enhanced Transformer with Rotary Position Embedding" - arXiv:2104.09864
Dao et al. (2022) "FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness" - NeurIPS 2022

代替アーキテクチャ

Shazeer et al. (2017) "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer" - ICLR 2017
Gu & Dao (2023) "Mamba: Linear-Time Sequence Modeling with Selective State Spaces" - arXiv:2312.00752

※個別記事では、各論文への直接リンクと詳細な引用情報を提供します。

次のステップ

アーキテクチャを学習した後は、以下のカテゴリーに進むことを推奨します：

基盤モデル - LLMの本質とスケーリング則を学ぶ
訓練技術 - 最新の訓練手法を理解

アーキテクチャ進化（Architectures）