LLMとは何か

大規模言語モデル(Large Language Model)の定義、特徴、能力。基盤モデルの概念、言語モデリングの原理、自己回帰生成。なぜスケールが重要なのか。

最終更新:2025年11月

大規模言語モデル

※画像は生成AIによるイメージです。

1. LLMの定義

1.1 大規模言語モデルとは

大規模言語モデル(LLM: Large Language Model)とは、膨大なテキストデータで訓練された、数十億〜数兆のパラメータを持つニューラルネットワークベースの言語モデル。

特徴:

  • スケール:パラメータ数が10B+(100億以上)
  • 汎用性:多様なタスクを単一モデルで処理
  • 創発性:明示的に訓練していない能力の出現
  • In-Context Learning:プロンプトのみでの適応

1.2 「大規模」の基準

明確な閾値はないが、一般的な目安:

  • Small:〜1B(BERT-base: 110M)
  • Medium:1B〜10B
  • Large:10B〜100B(GPT-3: 175B、LLaMA 2: 70B)
  • Very Large:100B+(GPT-4、PaLM 2)

2024-2025年の文脈では、7B以上を「LLM」と呼ぶことが多い。

1.3 従来のNLPモデルとの違い

  • タスク特化 vs 汎用:従来は各タスク専用モデル、LLMは1モデルで多タスク
  • ファインチューニング vs プロンプティング:パラメータ更新なしで適応
  • 表面的パターン vs 深い理解(?):複雑な推論、知識の統合

2. 言語モデリングの原理

2.1 言語モデルの定義

テキスト列の確率分布を学習するモデル。

系列 $x_1, x_2, ..., x_n$ の確率:

P(x₁, x₂, ..., xₙ) = P(x₁) × P(x₂|x₁) × P(x₃|x₁,x₂) × ... × P(xₙ|x₁,...,xₙ₋₁)

2.2 自己回帰言語モデル

過去のトークンから次のトークンを予測。

P(xₜ | x₁, x₂, ..., xₜ₋₁)

GPT系モデルの基本原理。シンプルだが強力。

2.3 訓練目標

Next Token Prediction:次のトークン予測の損失を最小化。

L = -Σ log P(xₜ | x₁, ..., xₜ₋₁)

大規模データでこの単純な目標を最適化→驚くべき能力の獲得。

2.4 トークン化

テキストを離散トークンに分割。

  • BPE(Byte Pair Encoding):頻出部分文字列をマージ
  • WordPiece:BERTで使用
  • SentencePiece:言語非依存

語彙サイズ:通常32K〜128K

3. 基盤モデルの概念

3.1 Foundation Modelとは

Bommasani et al. (2021)。大規模データで事前訓練され、多様なタスクに適応可能なモデル。

特徴:

  • 大規模・広範なデータでの事前訓練
  • 下流タスクへの転移・適応
  • 単一モデルからの多様な応用

3.2 事前訓練と適応

Pre-training:大規模データで汎用的な表現を学習

Adaptation

  • Fine-tuning:全パラメータまたは一部を更新
  • Prompting:入力のみで適応(パラメータ固定)
  • PEFT:LoRA等で効率的に適応

3.3 Encoder vs Decoder

  • Encoder-only(BERT):双方向、理解・分類タスク
  • Decoder-only(GPT):自己回帰、生成タスク
  • Encoder-Decoder(T5):Seq2Seq、翻訳等

現在のLLMはDecoder-only(自己回帰)が主流。

4. LLMの能力

4.1 基本的能力

  • テキスト生成:文章、コード、詩など
  • 質問応答:知識に基づく回答
  • 要約:長文の圧縮
  • 翻訳:多言語間変換
  • 分類:感情分析、カテゴリ分け

4.2 創発的能力

スケールにより出現する能力(→ 創発的能力詳細):

  • Chain-of-Thought推論:段階的思考
  • コード実行:プログラム理解・生成
  • 算術:複数桁の計算
  • 常識推論:暗黙知の活用

4.3 In-Context Learning

プロンプト内の例示のみで新タスクを学習(→ ICL詳細)。

  • Zero-shot:例示なし
  • Few-shot:数例の例示

パラメータ更新なしでの適応はLLMの革新的特徴。

4.4 限界

  • 幻覚(Hallucination):事実でない情報の生成
  • 推論の不安定性:わずかな変化で異なる結果
  • 最新知識の欠如:訓練データのカットオフ
  • 計算能力:複雑な数学・論理に弱点

5. アーキテクチャの概要

5.1 Transformerベース

現代のLLMはほぼ全てTransformerアーキテクチャ(→ Transformer詳細)。

主要コンポーネント:

  • Self-Attention(Multi-Head)
  • Feed-Forward Network(FFN)
  • Layer Normalization
  • 残差接続

5.2 現代的改良

アーキテクチャ進化詳細

  • RoPE(位置エンコーディング)
  • RMSNorm(正規化)
  • SwiGLU(活性化関数)
  • GQA(効率的Attention)

5.3 スケーリング

パラメータを増やす方法:

  • 層数:深くする
  • 隠れ次元:幅を広げる
  • ヘッド数:Attentionヘッドを増やす
  • MoE:Expert数を増やす(スパース活性化)

6. 発展の歴史

6.1 主要マイルストーン

  • 2017:Transformer(Vaswani et al.)
  • 2018:GPT(OpenAI)、BERT(Google)
  • 2019:GPT-2(1.5B)
  • 2020:GPT-3(175B)- Few-shot学習の実証
  • 2022:ChatGPT - 対話インターフェースの普及
  • 2023:GPT-4、Claude 2、LLaMA - マルチモーダル、オープンソース
  • 2024:Claude 3、Gemini、Mixtral - 性能向上、効率化
  • 2025:さらなる進化

6.2 パラダイムシフト

  • タスク特化 → 汎用
  • Fine-tuning → Prompting
  • 小規模 → 大規模
  • 単一モダリティ → マルチモーダル

6.3 主要論文

  • Vaswani et al. (2017) "Attention Is All You Need", NeurIPS
  • Radford et al. (2018) "Improving Language Understanding by Generative Pre-Training" (GPT)
  • Devlin et al. (2019) "BERT: Pre-training of Deep Bidirectional Transformers", NAACL
  • Brown et al. (2020) "Language Models are Few-Shot Learners" (GPT-3), NeurIPS
  • Bommasani et al. (2021) "On the Opportunities and Risks of Foundation Models"

7. 参考文献

基礎論文

  • Vaswani et al. (2017) "Attention Is All You Need"
  • Brown et al. (2020) "Language Models are Few-Shot Learners"
  • Bommasani et al. (2021) "Foundation Models"

サーベイ

  • Zhao et al. (2023) "A Survey of Large Language Models"
  • Minaee et al. (2024) "Large Language Models: A Survey"

関連ページ