モデル進化年表

2017年のTransformerから2025年のo3まで、LLMの技術的進化を時系列で追跡。パラメータ数、コンテキスト長、性能の爆発的拡大と、各マイルストーンの意義。

最終更新:2025年11月

1. 進化の概観

1.1 8年間の爆発的成長

代表モデル パラメータ コンテキスト 主要な進化
2017 Transformer 〜100M 512 Self-Attention
2018 GPT / BERT 110M-340M 512-1024 事前学習パラダイム
2019 GPT-2 1.5B 1024 Zero-shot能力
2020 GPT-3 175B 2048 In-Context Learning
2022 ChatGPT 〜175B 4096 RLHF、対話最適化
2023 GPT-4 〜1.76T? 8K-128K MoE、マルチモーダル
2024 Claude 3.5 / Gemini 1.5 非公開 200K-2M 長文脈、効率化
2025 o3 / Claude 4 非公開 200K+ 推論特化、エージェント

1.2 スケーリングの軌跡

  • パラメータ数:100M → 1T+(10,000倍、8年間)
  • 訓練データ:数GB → 数十TB(10,000倍)
  • 計算量:数GPU日 → 数百万GPU時間(100万倍)
  • コンテキスト:512 → 2M(4,000倍)

2. 2017-2019:Transformer革命

2.1 2017年:Transformer誕生

"Attention Is All You Need"(Vaswani et al., Google)

  • 革新:RNN/LSTMに代わるSelf-Attention
  • 利点:並列計算、長距離依存の直接モデル化
  • 影響:以後のすべてのLLMの基盤に

2.2 2018年:事前学習パラダイム

GPT(Radford et al., OpenAI):

  • Decoder-only Transformer
  • 117Mパラメータ
  • 言語モデリングによる事前学習 + ファインチューニング

BERT(Devlin et al., Google):

  • Encoder-only Transformer
  • 110M(Base)/ 340M(Large)パラメータ
  • Masked Language Modeling(MLM)
  • 双方向コンテキスト
  • NLPベンチマークを席巻

2.3 2019年:スケールの萌芽

GPT-2(Radford et al., OpenAI):

  • 1.5Bパラメータ(GPTの10倍以上)
  • WebText(40GB)で訓練
  • Zero-shot能力の発見:ファインチューニングなしでタスク実行
  • 「危険すぎる」として当初非公開

T5(Raffel et al., Google):

  • 11Bパラメータ
  • Encoder-Decoderアーキテクチャ
  • Text-to-Text統一フォーマット

3. 2020-2021:スケーリングの時代

3.1 2020年:GPT-3とIn-Context Learning

GPT-3(Brown et al., OpenAI):

  • 175Bパラメータ:GPT-2の100倍
  • 300Bトークンで訓練
  • In-Context Learning(ICL)の発見
    • Few-shot:数例の提示で新タスク実行
    • Zero-shot:例示なしでもタスク理解
  • 汎用AIへの期待が高まる

スケーリング則(Kaplan et al., OpenAI):

  • パラメータ・データ・計算量と性能の冪乗則関係
  • 「大きいほど良い」の理論的根拠

3.2 2021年:効率化と特化

Codex(OpenAI):

  • GPT-3のコード特化版
  • GitHub Copilotの基盤

FLAN(Wei et al., Google):

  • Instruction Tuning
  • 多タスクでの指示追従訓練

Gopher(DeepMind):

  • 280Bパラメータ
  • 広範なベンチマーク評価

4. 2022:ChatGPTの衝撃

4.1 Chinchilla則

Chinchilla(Hoffmann et al., DeepMind):

  • 70Bパラメータ、1.4Tトークン
  • Compute-Optimal訓練:パラメータとデータを均等にスケール
  • 同じ計算量でGopher(280B)を上回る
  • 以後のモデル設計に大きな影響

4.2 InstructGPT

InstructGPT(Ouyang et al., OpenAI):

  • RLHF(Reinforcement Learning from Human Feedback)
  • 人間の好みに合わせた出力最適化
  • 有害出力の削減
  • 指示追従能力の向上

4.3 ChatGPT

ChatGPT(OpenAI、2022年11月):

  • GPT-3.5 + RLHF
  • 対話に最適化されたインターフェース
  • 社会的インパクト
    • 2ヶ月で1億ユーザー
    • AI一般認知の転換点
    • 教育、ビジネス、創作への波及

4.4 オープンモデルの台頭

  • LLaMA(Meta, 2023年2月):7B-65B、研究公開
  • Alpaca(Stanford):LLaMA + Instruction Tuning

5. 2023:GPT-4とマルチモーダル

5.1 GPT-4

GPT-4(OpenAI、2023年3月):

  • 推定1.76T MoE(8×220B、リーク情報)
  • 大幅な性能向上(司法試験90パーセンタイル等)
  • マルチモーダル:画像入力対応(GPT-4V)
  • 128Kコンテキスト(Turbo版)

5.2 Claude 2

Claude 2(Anthropic):

  • 100Kコンテキスト
  • Constitutional AI
  • 長文書処理に強み

5.3 Llama 2

Llama 2(Meta、2023年7月):

  • 7B / 13B / 70B
  • 商用利用可能なオープンモデル
  • 2Tトークンで訓練
  • Chat版:RLHF適用

5.4 Gemini 1.0

Gemini 1.0(Google DeepMind、2023年12月):

  • Ultra / Pro / Nano
  • ネイティブマルチモーダル
  • MMLU等でGPT-4を上回ると主張(議論あり)

5.5 Mistralの登場

  • Mistral 7B:小規模ながら高効率
  • Mixtral 8x7B:MoEの実用化

6. 2024:性能競争と効率化

6.1 Claude 3シリーズ

Claude 3(Anthropic、2024年3月):

  • Opus / Sonnet / Haiku の3モデル
  • 200Kコンテキスト
  • Opus:一部ベンチマークでGPT-4超え

Claude 3.5 Sonnet(2024年6月、10月改良):

  • Opusの性能をSonnetの価格で
  • Computer Use:画面操作機能
  • コーディング性能でトップクラス

6.2 Gemini 1.5

Gemini 1.5 Pro(Google、2024年2月):

  • 1Mコンテキスト(後に2M)
  • Needle-in-a-Haystackで99%+
  • 革命的な長文脈処理

6.3 GPT-4o

GPT-4o(OpenAI、2024年5月):

  • ネイティブマルチモーダル
  • リアルタイム音声対話
  • GPT-4 Turboの2倍速、半額

6.4 Llama 3シリーズ

Llama 3 / 3.1(Meta):

  • 8B / 70B / 405B
  • Llama 3.1 405B:オープン最大モデル
  • 15T+トークン訓練
  • GPT-4に匹敵する性能

Llama 3.2(2024年9月):

  • マルチモーダル対応(11B/90B Vision)
  • 軽量モデル(1B/3B)

6.5 o1シリーズ

o1-preview / o1(OpenAI、2024年9月-12月):

  • 推論特化モデル
  • Test-Time Compute:推論時に「思考」
  • 数学・コーディングで大幅改善
  • AIME、IMOで人間専門家レベル

6.6 DeepSeek-V3

DeepSeek-V3(2024年12月):

  • 671B MoE(37B活性)
  • $5.5Mでの訓練:驚異的なコスト効率
  • GPT-4o / Claude 3.5に匹敵

7. 2025:推論革命と次のフロンティア

7.1 o3

o3(OpenAI、2024年12月発表):

  • ARC-AGI 87.5%:抽象推論ベンチマーク突破
  • GPQA Diamond 87.7%
  • Codeforces 2727 Elo
  • 推論能力の飛躍

7.2 Claude 4シリーズ

Claude Opus 4 / Sonnet 4(Anthropic、2025年):

  • 長時間エージェントタスク
  • コーディング能力の向上
  • 複雑な推論タスク

7.3 Gemini 2.0

Gemini 2.0(Google、2024年12月):

  • ネイティブマルチモーダル出力
  • Project Astra:リアルタイムエージェント
  • Thinking Mode:推論強化

7.4 2025年のトレンド

  • 推論特化:o1/o3型の思考モデル
  • エージェント:自律的タスク遂行
  • コンピュータ操作:Claude Computer Use、Project Mariner
  • 効率化:小規模・高効率モデル
  • オープン化:Llama、DeepSeekの影響

9. 参考文献

歴史的論文

  • Vaswani et al. (2017). "Attention Is All You Need" NeurIPS
  • Radford et al. (2018). "Improving Language Understanding by Generative Pre-Training"(GPT)
  • Devlin et al. (2019). "BERT: Pre-training of Deep Bidirectional Transformers" NAACL
  • Radford et al. (2019). "Language Models are Unsupervised Multitask Learners"(GPT-2)
  • Brown et al. (2020). "Language Models are Few-Shot Learners" NeurIPS(GPT-3)
  • Ouyang et al. (2022). "Training language models to follow instructions with human feedback" NeurIPS(InstructGPT)

技術レポート

  • OpenAI (2023). "GPT-4 Technical Report"
  • Meta (2024). "The Llama 3 Herd of Models"
  • Google DeepMind (2024). "Gemini 1.5: Unlocking multimodal understanding"
  • Anthropic (2024). "The Claude 3 Model Family"

分析・サーベイ

  • Zhao et al. (2023). "A Survey of Large Language Models" arXiv
  • Naveed et al. (2024). "A Comprehensive Overview of Large Language Models" arXiv