LLMとは何か

※画像は生成AIによるイメージです。

1. LLMの定義

1.1 大規模言語モデルとは

大規模言語モデル（LLM: Large Language Model）とは、膨大なテキストデータで訓練された、数十億〜数兆のパラメータを持つニューラルネットワークベースの言語モデル。

特徴：

スケール：パラメータ数が10B+（100億以上）
汎用性：多様なタスクを単一モデルで処理
創発性：明示的に訓練していない能力の出現
In-Context Learning：プロンプトのみでの適応

1.2 「大規模」の基準

明確な閾値はないが、一般的な目安：

Small：〜1B（BERT-base: 110M）
Medium：1B〜10B
Large：10B〜100B（GPT-3: 175B、LLaMA 2: 70B）
Very Large：100B+（GPT-4、PaLM 2）

2024-2025年の文脈では、7B以上を「LLM」と呼ぶことが多い。

1.3 従来のNLPモデルとの違い

タスク特化 vs 汎用：従来は各タスク専用モデル、LLMは1モデルで多タスク
ファインチューニング vs プロンプティング：パラメータ更新なしで適応
表面的パターン vs 深い理解（？）：複雑な推論、知識の統合

2. 言語モデリングの原理

2.1 言語モデルの定義

テキスト列の確率分布を学習するモデル。

系列 $x_1, x_2, ..., x_n$ の確率：

P(x₁, x₂, ..., xₙ) = P(x₁) × P(x₂|x₁) × P(x₃|x₁,x₂) × ... × P(xₙ|x₁,...,xₙ₋₁)

2.2 自己回帰言語モデル

過去のトークンから次のトークンを予測。

P(xₜ | x₁, x₂, ..., xₜ₋₁)

GPT系モデルの基本原理。シンプルだが強力。

2.3 訓練目標

Next Token Prediction：次のトークン予測の損失を最小化。

L = -Σ log P(xₜ | x₁, ..., xₜ₋₁)

大規模データでこの単純な目標を最適化→驚くべき能力の獲得。

2.4 トークン化

テキストを離散トークンに分割。

BPE（Byte Pair Encoding）：頻出部分文字列をマージ
WordPiece：BERTで使用
SentencePiece：言語非依存

語彙サイズ：通常32K〜128K

3. 基盤モデルの概念

3.1 Foundation Modelとは

Bommasani et al. (2021)。大規模データで事前訓練され、多様なタスクに適応可能なモデル。

特徴：

大規模・広範なデータでの事前訓練
下流タスクへの転移・適応
単一モデルからの多様な応用

3.2 事前訓練と適応

Pre-training：大規模データで汎用的な表現を学習

Adaptation：

Fine-tuning：全パラメータまたは一部を更新
Prompting：入力のみで適応（パラメータ固定）
PEFT：LoRA等で効率的に適応

3.3 Encoder vs Decoder

Encoder-only（BERT）：双方向、理解・分類タスク
Decoder-only（GPT）：自己回帰、生成タスク
Encoder-Decoder（T5）：Seq2Seq、翻訳等

現在のLLMはDecoder-only（自己回帰）が主流。

4. LLMの能力

4.1 基本的能力

テキスト生成：文章、コード、詩など
質問応答：知識に基づく回答
要約：長文の圧縮
翻訳：多言語間変換
分類：感情分析、カテゴリ分け

4.2 創発的能力

スケールにより出現する能力（→ 創発的能力詳細）：

Chain-of-Thought推論：段階的思考
コード実行：プログラム理解・生成
算術：複数桁の計算
常識推論：暗黙知の活用

4.3 In-Context Learning

プロンプト内の例示のみで新タスクを学習（→ ICL詳細）。

Zero-shot：例示なし
Few-shot：数例の例示

パラメータ更新なしでの適応はLLMの革新的特徴。

4.4 限界

幻覚（Hallucination）：事実でない情報の生成
推論の不安定性：わずかな変化で異なる結果
最新知識の欠如：訓練データのカットオフ
計算能力：複雑な数学・論理に弱点

5. アーキテクチャの概要

5.1 Transformerベース

現代のLLMはほぼ全てTransformerアーキテクチャ（→ Transformer詳細）。

主要コンポーネント：

Self-Attention（Multi-Head）
Feed-Forward Network（FFN）
Layer Normalization
残差接続

5.2 現代的改良

→ アーキテクチャ進化詳細

RoPE（位置エンコーディング）
RMSNorm（正規化）
SwiGLU（活性化関数）
GQA（効率的Attention）

5.3 スケーリング

パラメータを増やす方法：

層数：深くする
隠れ次元：幅を広げる
ヘッド数：Attentionヘッドを増やす
MoE：Expert数を増やす（スパース活性化）

6. 発展の歴史

6.1 主要マイルストーン

2017：Transformer（Vaswani et al.）
2018：GPT（OpenAI）、BERT（Google）
2019：GPT-2（1.5B）
2020：GPT-3（175B）- Few-shot学習の実証
2022：ChatGPT - 対話インターフェースの普及
2023：GPT-4、Claude 2、LLaMA - マルチモーダル、オープンソース
2024：Claude 3、Gemini、Mixtral - 性能向上、効率化
2025：さらなる進化

6.2 パラダイムシフト

タスク特化 → 汎用
Fine-tuning → Prompting
小規模 → 大規模
単一モダリティ → マルチモーダル

6.3 主要論文

Vaswani et al. (2017) "Attention Is All You Need", NeurIPS
Radford et al. (2018) "Improving Language Understanding by Generative Pre-Training" (GPT)
Devlin et al. (2019) "BERT: Pre-training of Deep Bidirectional Transformers", NAACL
Brown et al. (2020) "Language Models are Few-Shot Learners" (GPT-3), NeurIPS
Bommasani et al. (2021) "On the Opportunities and Risks of Foundation Models"