1. 進化の概観
1.1 8年間の爆発的成長
| 年 |
代表モデル |
パラメータ |
コンテキスト |
主要な進化 |
| 2017 |
Transformer |
〜100M |
512 |
Self-Attention |
| 2018 |
GPT / BERT |
110M-340M |
512-1024 |
事前学習パラダイム |
| 2019 |
GPT-2 |
1.5B |
1024 |
Zero-shot能力 |
| 2020 |
GPT-3 |
175B |
2048 |
In-Context Learning |
| 2022 |
ChatGPT |
〜175B |
4096 |
RLHF、対話最適化 |
| 2023 |
GPT-4 |
〜1.76T? |
8K-128K |
MoE、マルチモーダル |
| 2024 |
Claude 3.5 / Gemini 1.5 |
非公開 |
200K-2M |
長文脈、効率化 |
| 2025 |
o3 / Claude 4 |
非公開 |
200K+ |
推論特化、エージェント |
1.2 スケーリングの軌跡
- パラメータ数:100M → 1T+(10,000倍、8年間)
- 訓練データ:数GB → 数十TB(10,000倍)
- 計算量:数GPU日 → 数百万GPU時間(100万倍)
- コンテキスト:512 → 2M(4,000倍)
2. 2017-2019:Transformer革命
2.1 2017年:Transformer誕生
"Attention Is All You Need"(Vaswani et al., Google)
- 革新:RNN/LSTMに代わるSelf-Attention
- 利点:並列計算、長距離依存の直接モデル化
- 影響:以後のすべてのLLMの基盤に
2.2 2018年:事前学習パラダイム
GPT(Radford et al., OpenAI):
- Decoder-only Transformer
- 117Mパラメータ
- 言語モデリングによる事前学習 + ファインチューニング
BERT(Devlin et al., Google):
- Encoder-only Transformer
- 110M(Base)/ 340M(Large)パラメータ
- Masked Language Modeling(MLM)
- 双方向コンテキスト
- NLPベンチマークを席巻
2.3 2019年:スケールの萌芽
GPT-2(Radford et al., OpenAI):
- 1.5Bパラメータ(GPTの10倍以上)
- WebText(40GB)で訓練
- Zero-shot能力の発見:ファインチューニングなしでタスク実行
- 「危険すぎる」として当初非公開
T5(Raffel et al., Google):
- 11Bパラメータ
- Encoder-Decoderアーキテクチャ
- Text-to-Text統一フォーマット
3. 2020-2021:スケーリングの時代
3.1 2020年:GPT-3とIn-Context Learning
GPT-3(Brown et al., OpenAI):
- 175Bパラメータ:GPT-2の100倍
- 300Bトークンで訓練
- In-Context Learning(ICL)の発見:
- Few-shot:数例の提示で新タスク実行
- Zero-shot:例示なしでもタスク理解
- 汎用AIへの期待が高まる
スケーリング則(Kaplan et al., OpenAI):
- パラメータ・データ・計算量と性能の冪乗則関係
- 「大きいほど良い」の理論的根拠
3.2 2021年:効率化と特化
Codex(OpenAI):
- GPT-3のコード特化版
- GitHub Copilotの基盤
FLAN(Wei et al., Google):
- Instruction Tuning
- 多タスクでの指示追従訓練
Gopher(DeepMind):
4. 2022:ChatGPTの衝撃
4.1 Chinchilla則
Chinchilla(Hoffmann et al., DeepMind):
- 70Bパラメータ、1.4Tトークン
- Compute-Optimal訓練:パラメータとデータを均等にスケール
- 同じ計算量でGopher(280B)を上回る
- 以後のモデル設計に大きな影響
4.2 InstructGPT
InstructGPT(Ouyang et al., OpenAI):
- RLHF(Reinforcement Learning from Human Feedback)
- 人間の好みに合わせた出力最適化
- 有害出力の削減
- 指示追従能力の向上
4.3 ChatGPT
ChatGPT(OpenAI、2022年11月):
- GPT-3.5 + RLHF
- 対話に最適化されたインターフェース
- 社会的インパクト:
- 2ヶ月で1億ユーザー
- AI一般認知の転換点
- 教育、ビジネス、創作への波及
4.4 オープンモデルの台頭
- LLaMA(Meta, 2023年2月):7B-65B、研究公開
- Alpaca(Stanford):LLaMA + Instruction Tuning
5. 2023:GPT-4とマルチモーダル
5.1 GPT-4
GPT-4(OpenAI、2023年3月):
- 推定1.76T MoE(8×220B、リーク情報)
- 大幅な性能向上(司法試験90パーセンタイル等)
- マルチモーダル:画像入力対応(GPT-4V)
- 128Kコンテキスト(Turbo版)
5.2 Claude 2
Claude 2(Anthropic):
- 100Kコンテキスト
- Constitutional AI
- 長文書処理に強み
5.3 Llama 2
Llama 2(Meta、2023年7月):
- 7B / 13B / 70B
- 商用利用可能なオープンモデル
- 2Tトークンで訓練
- Chat版:RLHF適用
5.4 Gemini 1.0
Gemini 1.0(Google DeepMind、2023年12月):
- Ultra / Pro / Nano
- ネイティブマルチモーダル
- MMLU等でGPT-4を上回ると主張(議論あり)
5.5 Mistralの登場
- Mistral 7B:小規模ながら高効率
- Mixtral 8x7B:MoEの実用化
6. 2024:性能競争と効率化
6.1 Claude 3シリーズ
Claude 3(Anthropic、2024年3月):
- Opus / Sonnet / Haiku の3モデル
- 200Kコンテキスト
- Opus:一部ベンチマークでGPT-4超え
Claude 3.5 Sonnet(2024年6月、10月改良):
- Opusの性能をSonnetの価格で
- Computer Use:画面操作機能
- コーディング性能でトップクラス
6.2 Gemini 1.5
Gemini 1.5 Pro(Google、2024年2月):
- 1Mコンテキスト(後に2M)
- Needle-in-a-Haystackで99%+
- 革命的な長文脈処理
6.3 GPT-4o
GPT-4o(OpenAI、2024年5月):
- ネイティブマルチモーダル
- リアルタイム音声対話
- GPT-4 Turboの2倍速、半額
6.4 Llama 3シリーズ
Llama 3 / 3.1(Meta):
- 8B / 70B / 405B
- Llama 3.1 405B:オープン最大モデル
- 15T+トークン訓練
- GPT-4に匹敵する性能
Llama 3.2(2024年9月):
- マルチモーダル対応(11B/90B Vision)
- 軽量モデル(1B/3B)
6.5 o1シリーズ
o1-preview / o1(OpenAI、2024年9月-12月):
- 推論特化モデル
- Test-Time Compute:推論時に「思考」
- 数学・コーディングで大幅改善
- AIME、IMOで人間専門家レベル
6.6 DeepSeek-V3
DeepSeek-V3(2024年12月):
- 671B MoE(37B活性)
- $5.5Mでの訓練:驚異的なコスト効率
- GPT-4o / Claude 3.5に匹敵
7. 2025:推論革命と次のフロンティア
7.1 o3
o3(OpenAI、2024年12月発表):
- ARC-AGI 87.5%:抽象推論ベンチマーク突破
- GPQA Diamond 87.7%
- Codeforces 2727 Elo
- 推論能力の飛躍
7.2 Claude 4シリーズ
Claude Opus 4 / Sonnet 4(Anthropic、2025年):
- 長時間エージェントタスク
- コーディング能力の向上
- 複雑な推論タスク
7.3 Gemini 2.0
Gemini 2.0(Google、2024年12月):
- ネイティブマルチモーダル出力
- Project Astra:リアルタイムエージェント
- Thinking Mode:推論強化
7.4 2025年のトレンド
- 推論特化:o1/o3型の思考モデル
- エージェント:自律的タスク遂行
- コンピュータ操作:Claude Computer Use、Project Mariner
- 効率化:小規模・高効率モデル
- オープン化:Llama、DeepSeekの影響
8. 技術的トレンド分析
8.1 アーキテクチャの変遷
- 2017-2019:Encoder-only (BERT) vs Decoder-only (GPT)
- 2020-2022:Decoder-onlyの優位確立
- 2023-2024:MoEの主流化
- 2024-2025:SSM(Mamba)、ハイブリッド
8.2 訓練パラダイムの進化
- Pre-training:Next Token Prediction(不変)
- Post-training:
- SFT(Instruction Tuning)
- RLHF → DPO(簡素化)
- Constitutional AI(原則ベース)
8.3 コンテキスト長の進化
| 年 |
最大コンテキスト |
代表モデル |
| 2017 |
512 |
Transformer |
| 2020 |
2K |
GPT-3 |
| 2022 |
4K |
ChatGPT |
| 2023 |
128K |
GPT-4 Turbo |
| 2024 |
2M |
Gemini 1.5 |
8.4 能力の拡大
- 言語理解:基本(2018)→ 高度な推論(2024)
- コード生成:補完(2021)→ 複雑なプロジェクト(2024)
- マルチモーダル:画像入力(2023)→ ネイティブ統合(2024)
- エージェント:ツール使用(2023)→ コンピュータ操作(2024)
8.5 今後の展望
- スケーリングの限界:データ枯渇、収穫逓減
- 新しいスケーリング次元:推論時計算、エージェント能力
- 効率化:小規模高性能モデル
- 特化 vs 汎用:用途別最適化
- AGIへの道:推論、計画、学習能力の統合
9. 参考文献
歴史的論文
- Vaswani et al. (2017). "Attention Is All You Need" NeurIPS
- Radford et al. (2018). "Improving Language Understanding by Generative Pre-Training"(GPT)
- Devlin et al. (2019). "BERT: Pre-training of Deep Bidirectional Transformers" NAACL
- Radford et al. (2019). "Language Models are Unsupervised Multitask Learners"(GPT-2)
- Brown et al. (2020). "Language Models are Few-Shot Learners" NeurIPS(GPT-3)
- Ouyang et al. (2022). "Training language models to follow instructions with human feedback" NeurIPS(InstructGPT)
技術レポート
- OpenAI (2023). "GPT-4 Technical Report"
- Meta (2024). "The Llama 3 Herd of Models"
- Google DeepMind (2024). "Gemini 1.5: Unlocking multimodal understanding"
- Anthropic (2024). "The Claude 3 Model Family"
分析・サーベイ
- Zhao et al. (2023). "A Survey of Large Language Models" arXiv
- Naveed et al. (2024). "A Comprehensive Overview of Large Language Models" arXiv