基盤モデル(Foundation Models)

LLM(大規模言語モデル)の本質を科学的に解説します。スケーリング則の理論、創発的能力のメカニズム、In-Context Learningの内部プロセス、GPT/Claude/Gemini/Llamaの技術的特徴まで、基盤モデルの核心を理解します。

学習記事一覧

記事 説明
LLMとは何か**【執筆中】** Large Language Model(大規模言語モデル)の定義と本質。数千億~数兆パラメータの規模、多様なタスクを単一モデルで実行する汎用性、Few-shot/Zero-shot能力、事前学習と微調整の2段階学習など体系的に理解。
スケーリング則**【執筆中】** モデルサイズ、データ量、計算量と性能の関係を示すスケーリング則を解説。Kaplan則(2020年)のべき乗則(L(N) ∝ N^(-α))、Chinchilla則(2022年)の計算最適訓練、推論時計算のスケーリング(2024年)を理解。
創発的能力**【執筆中】** モデルサイズが臨界点を超えると突然出現する能力(Emergent Abilities)を解説。In-Context Learning、Chain-of-Thought推論、算術計算、Tool Useなど、事前に訓練されていない能力の発現メカニズムを科学的に理解。
事前学習と微調整の役割分担**【執筆中】** 事前学習(Pre-training)と微調整(Fine-tuning)の明確な役割分担を解説。LIMA論文(Zhou et al., 2023)の洞察「知識と能力はほぼ完全に事前学習中に学習される」を理解し、わずか1,000例での微調整が効果的な理由を学ぶ。
In-Context Learning**【執筆中】** プロンプト内の例から、パラメータ更新なしに新しいタスクを学習する能力(ICL)を解説。内部最適化仮説(Transformerが勾配降下法を内部実装)、ベイズ推論としてのICL、2023-2024年の理論を理解。
主要モデル比較**【執筆中】** GPT、Claude、Gemini、Llamaなど主要LLMの技術的特徴を比較。各モデルのアーキテクチャ、パラメータ数、コンテキスト長、訓練データ量、ベンチマーク性能(MMLU、HumanEval等)、特徴的な技術を理解。
マルチモーダルモデル**【執筆中】** テキスト、画像、音声、動画を統合処理するマルチモーダルモデルを解説。Vision Transformer(ViT)、CLIP、DALL-Eの技術的基盤、GPT-4oのネイティブマルチモーダル処理、Gemini 1.5の多感覚統合を理解。
モデル進化年表**【執筆中】** 2020年から2024年までの主要LLMの進化を時系列で解説。GPT-3(2020年、175B)からGPT-4、Claude 3.5 Sonnet、Gemini 1.5、Llama 3.1 405B、o1までの技術的進化とパラメータ数、コンテキスト長、性能の爆発的拡大を理解。

推奨学習順序

  1. LLMとは何か - 基盤モデルの全体像を把握
  2. スケーリング則 - 大規模化の科学的根拠を理解
  3. 創発的能力 - 質的変化のメカニズムを学ぶ
  4. 事前学習と微調整の役割分担 - 学習プロセスを理解
  5. In-Context Learning - 重要な能力の内部メカニズムを学ぶ
  6. 主要モデル比較 - 具体的なモデルの特徴を把握
  7. マルチモーダルモデル - 多感覚統合の技術を理解
  8. モデル進化年表 - 全体の進化の流れを把握

このカテゴリーについて

基盤モデルカテゴリーでは、2020年代のAI革命を牽引したLLM(大規模言語モデル)の本質を深く学びます。なぜ大規模化が質的変化をもたらすのか、どのようなメカニズムで多様なタスクを実行できるのか、科学的根拠に基づいて理解します。

学習目標

  • LLMの定義と従来の機械学習との本質的違いを理解する
  • スケーリング則(Kaplan、Chinchilla)の理論を把握する
  • 創発的能力が出現するメカニズムを科学的に理解する
  • 事前学習と微調整の役割分担(知識注入 vs アライメント)を学ぶ
  • In-Context Learningの内部メカニズムを理解する
  • 主要モデル(GPT、Claude、Gemini、Llama)の技術的特徴を比較する

対象読者

研究者、エンジニア、AI技術の本質的理解を求める方を対象としています。アーキテクチャの基礎知識があると理解が深まります。

推定学習時間

全8記事を通読:約12-18時間

主要参考文献

このカテゴリーの記事は以下の査読付き論文を主な出典としています。各記事で詳細な引用を行います。

スケーリング則

  • Kaplan et al. (2020) "Scaling Laws for Neural Language Models" - arXiv:2001.08361
  • Hoffmann et al. (2022) "Training Compute-Optimal Large Language Models" (Chinchilla) - arXiv:2203.15556

創発的能力とICL

  • Wei et al. (2022) "Emergent Abilities of Large Language Models" - TMLR
  • Brown et al. (2020) "Language Models are Few-Shot Learners" (GPT-3) - NeurIPS 2020

微調整とアライメント

  • Zhou et al. (2023) "LIMA: Less Is More for Alignment" - arXiv:2305.11206
  • Ouyang et al. (2022) "Training language models to follow instructions with human feedback" (InstructGPT) - NeurIPS 2022

マルチモーダル

  • Dosovitskiy et al. (2020) "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" (ViT) - ICLR 2021
  • Radford et al. (2021) "Learning Transferable Visual Models From Natural Language Supervision" (CLIP) - ICML 2021

※個別記事では、各論文への直接リンクと詳細な引用情報を提供します。

次のステップ

基盤モデルを学習した後は、以下のカテゴリーに進むことを推奨します: