※画像は生成AIによるイメージです。
1. LLMの定義
1.1 大規模言語モデルとは
大規模言語モデル(LLM: Large Language Model)とは、膨大なテキストデータで訓練された、数十億〜数兆のパラメータを持つニューラルネットワークベースの言語モデル。
特徴:
- スケール:パラメータ数が10B+(100億以上)
- 汎用性:多様なタスクを単一モデルで処理
- 創発性:明示的に訓練していない能力の出現
- In-Context Learning:プロンプトのみでの適応
1.2 「大規模」の基準
明確な閾値はないが、一般的な目安:
- Small:〜1B(BERT-base: 110M)
- Medium:1B〜10B
- Large:10B〜100B(GPT-3: 175B、LLaMA 2: 70B)
- Very Large:100B+(GPT-4、PaLM 2)
2024-2025年の文脈では、7B以上を「LLM」と呼ぶことが多い。
1.3 従来のNLPモデルとの違い
- タスク特化 vs 汎用:従来は各タスク専用モデル、LLMは1モデルで多タスク
- ファインチューニング vs プロンプティング:パラメータ更新なしで適応
- 表面的パターン vs 深い理解(?):複雑な推論、知識の統合
2. 言語モデリングの原理
2.1 言語モデルの定義
テキスト列の確率分布を学習するモデル。
系列 $x_1, x_2, ..., x_n$ の確率:
P(x₁, x₂, ..., xₙ) = P(x₁) × P(x₂|x₁) × P(x₃|x₁,x₂) × ... × P(xₙ|x₁,...,xₙ₋₁)
2.2 自己回帰言語モデル
過去のトークンから次のトークンを予測。
P(xₜ | x₁, x₂, ..., xₜ₋₁)
GPT系モデルの基本原理。シンプルだが強力。
2.3 訓練目標
Next Token Prediction:次のトークン予測の損失を最小化。
L = -Σ log P(xₜ | x₁, ..., xₜ₋₁)
大規模データでこの単純な目標を最適化→驚くべき能力の獲得。
2.4 トークン化
テキストを離散トークンに分割。
- BPE(Byte Pair Encoding):頻出部分文字列をマージ
- WordPiece:BERTで使用
- SentencePiece:言語非依存
語彙サイズ:通常32K〜128K
3. 基盤モデルの概念
3.1 Foundation Modelとは
Bommasani et al. (2021)。大規模データで事前訓練され、多様なタスクに適応可能なモデル。
特徴:
- 大規模・広範なデータでの事前訓練
- 下流タスクへの転移・適応
- 単一モデルからの多様な応用
3.2 事前訓練と適応
Pre-training:大規模データで汎用的な表現を学習
Adaptation:
- Fine-tuning:全パラメータまたは一部を更新
- Prompting:入力のみで適応(パラメータ固定)
- PEFT:LoRA等で効率的に適応
3.3 Encoder vs Decoder
- Encoder-only(BERT):双方向、理解・分類タスク
- Decoder-only(GPT):自己回帰、生成タスク
- Encoder-Decoder(T5):Seq2Seq、翻訳等
現在のLLMはDecoder-only(自己回帰)が主流。
4. LLMの能力
4.1 基本的能力
- テキスト生成:文章、コード、詩など
- 質問応答:知識に基づく回答
- 要約:長文の圧縮
- 翻訳:多言語間変換
- 分類:感情分析、カテゴリ分け
4.2 創発的能力
スケールにより出現する能力(→ 創発的能力詳細):
- Chain-of-Thought推論:段階的思考
- コード実行:プログラム理解・生成
- 算術:複数桁の計算
- 常識推論:暗黙知の活用
4.3 In-Context Learning
プロンプト内の例示のみで新タスクを学習(→ ICL詳細)。
- Zero-shot:例示なし
- Few-shot:数例の例示
パラメータ更新なしでの適応はLLMの革新的特徴。
4.4 限界
- 幻覚(Hallucination):事実でない情報の生成
- 推論の不安定性:わずかな変化で異なる結果
- 最新知識の欠如:訓練データのカットオフ
- 計算能力:複雑な数学・論理に弱点
5. アーキテクチャの概要
5.1 Transformerベース
現代のLLMはほぼ全てTransformerアーキテクチャ(→ Transformer詳細)。
主要コンポーネント:
- Self-Attention(Multi-Head)
- Feed-Forward Network(FFN)
- Layer Normalization
- 残差接続
5.2 現代的改良
→ アーキテクチャ進化詳細
- RoPE(位置エンコーディング)
- RMSNorm(正規化)
- SwiGLU(活性化関数)
- GQA(効率的Attention)
5.3 スケーリング
パラメータを増やす方法:
- 層数:深くする
- 隠れ次元:幅を広げる
- ヘッド数:Attentionヘッドを増やす
- MoE:Expert数を増やす(スパース活性化)
6. 発展の歴史
6.1 主要マイルストーン
- 2017:Transformer(Vaswani et al.)
- 2018:GPT(OpenAI)、BERT(Google)
- 2019:GPT-2(1.5B)
- 2020:GPT-3(175B)- Few-shot学習の実証
- 2022:ChatGPT - 対話インターフェースの普及
- 2023:GPT-4、Claude 2、LLaMA - マルチモーダル、オープンソース
- 2024:Claude 3、Gemini、Mixtral - 性能向上、効率化
- 2025:さらなる進化
6.2 パラダイムシフト
- タスク特化 → 汎用
- Fine-tuning → Prompting
- 小規模 → 大規模
- 単一モダリティ → マルチモーダル
6.3 主要論文
- Vaswani et al. (2017) "Attention Is All You Need", NeurIPS
- Radford et al. (2018) "Improving Language Understanding by Generative Pre-Training" (GPT)
- Devlin et al. (2019) "BERT: Pre-training of Deep Bidirectional Transformers", NAACL
- Brown et al. (2020) "Language Models are Few-Shot Learners" (GPT-3), NeurIPS
- Bommasani et al. (2021) "On the Opportunities and Risks of Foundation Models"
7. 参考文献
基礎論文
- Vaswani et al. (2017) "Attention Is All You Need"
- Brown et al. (2020) "Language Models are Few-Shot Learners"
- Bommasani et al. (2021) "Foundation Models"
サーベイ
- Zhao et al. (2023) "A Survey of Large Language Models"
- Minaee et al. (2024) "Large Language Models: A Survey"
関連ページ