基盤モデル - AI入門 2024年版

学習記事一覧

記事	説明
LLMとは何か【執筆中】	Large Language Model（大規模言語モデル）の定義と本質。数千億～数兆パラメータの規模、多様なタスクを単一モデルで実行する汎用性、Few-shot/Zero-shot能力、事前学習と微調整の2段階学習など体系的に理解。
スケーリング則【執筆中】	モデルサイズ、データ量、計算量と性能の関係を示すスケーリング則を解説。Kaplan則（2020年）のべき乗則（L(N) ∝ N^(-α)）、Chinchilla則（2022年）の計算最適訓練、推論時計算のスケーリング（2024年）を理解。
創発的能力【執筆中】	モデルサイズが臨界点を超えると突然出現する能力（Emergent Abilities）を解説。In-Context Learning、Chain-of-Thought推論、算術計算、Tool Useなど、事前に訓練されていない能力の発現メカニズムを科学的に理解。
事前学習と微調整の役割分担【執筆中】	事前学習（Pre-training）と微調整（Fine-tuning）の明確な役割分担を解説。LIMA論文（Zhou et al., 2023）の洞察「知識と能力はほぼ完全に事前学習中に学習される」を理解し、わずか1,000例での微調整が効果的な理由を学ぶ。
In-Context Learning【執筆中】	プロンプト内の例から、パラメータ更新なしに新しいタスクを学習する能力（ICL）を解説。内部最適化仮説（Transformerが勾配降下法を内部実装）、ベイズ推論としてのICL、2023-2024年の理論を理解。
主要モデル比較【執筆中】	GPT、Claude、Gemini、Llamaなど主要LLMの技術的特徴を比較。各モデルのアーキテクチャ、パラメータ数、コンテキスト長、訓練データ量、ベンチマーク性能（MMLU、HumanEval等）、特徴的な技術を理解。
マルチモーダルモデル【執筆中】	テキスト、画像、音声、動画を統合処理するマルチモーダルモデルを解説。Vision Transformer（ViT）、CLIP、DALL-Eの技術的基盤、GPT-4oのネイティブマルチモーダル処理、Gemini 1.5の多感覚統合を理解。
モデル進化年表【執筆中】	2020年から2024年までの主要LLMの進化を時系列で解説。GPT-3（2020年、175B）からGPT-4、Claude 3.5 Sonnet、Gemini 1.5、Llama 3.1 405B、o1までの技術的進化とパラメータ数、コンテキスト長、性能の爆発的拡大を理解。

推奨学習順序

LLMとは何か - 基盤モデルの全体像を把握
スケーリング則 - 大規模化の科学的根拠を理解
創発的能力 - 質的変化のメカニズムを学ぶ
事前学習と微調整の役割分担 - 学習プロセスを理解
In-Context Learning - 重要な能力の内部メカニズムを学ぶ
主要モデル比較 - 具体的なモデルの特徴を把握
マルチモーダルモデル - 多感覚統合の技術を理解
モデル進化年表 - 全体の進化の流れを把握

このカテゴリーについて

基盤モデルカテゴリーでは、2020年代のAI革命を牽引したLLM（大規模言語モデル）の本質を深く学びます。なぜ大規模化が質的変化をもたらすのか、どのようなメカニズムで多様なタスクを実行できるのか、科学的根拠に基づいて理解します。

学習目標

LLMの定義と従来の機械学習との本質的違いを理解する
スケーリング則（Kaplan、Chinchilla）の理論を把握する
創発的能力が出現するメカニズムを科学的に理解する
事前学習と微調整の役割分担（知識注入 vs アライメント）を学ぶ
In-Context Learningの内部メカニズムを理解する
主要モデル（GPT、Claude、Gemini、Llama）の技術的特徴を比較する

対象読者

研究者、エンジニア、AI技術の本質的理解を求める方を対象としています。アーキテクチャの基礎知識があると理解が深まります。

推定学習時間

全8記事を通読：約12-18時間

主要参考文献

このカテゴリーの記事は以下の査読付き論文を主な出典としています。各記事で詳細な引用を行います。

スケーリング則

Kaplan et al. (2020) "Scaling Laws for Neural Language Models" - arXiv:2001.08361
Hoffmann et al. (2022) "Training Compute-Optimal Large Language Models" (Chinchilla) - arXiv:2203.15556

創発的能力とICL

Wei et al. (2022) "Emergent Abilities of Large Language Models" - TMLR
Brown et al. (2020) "Language Models are Few-Shot Learners" (GPT-3) - NeurIPS 2020

微調整とアライメント

Zhou et al. (2023) "LIMA: Less Is More for Alignment" - arXiv:2305.11206
Ouyang et al. (2022) "Training language models to follow instructions with human feedback" (InstructGPT) - NeurIPS 2022

マルチモーダル

Dosovitskiy et al. (2020) "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" (ViT) - ICLR 2021
Radford et al. (2021) "Learning Transferable Visual Models From Natural Language Supervision" (CLIP) - ICML 2021

※個別記事では、各論文への直接リンクと詳細な引用情報を提供します。

次のステップ

基盤モデルを学習した後は、以下のカテゴリーに進むことを推奨します：

訓練技術 - LLMをどのように訓練するかを学ぶ
アライメント - 人間の価値観との整合技術を理解
評価 - モデル性能の評価方法を学ぶ

基盤モデル（Foundation Models）