08. 強化学習

環境との相互作用を通じて報酬を最大化する方策を学習。マルコフ決定過程、価値ベース手法、方策勾配法、Actor-Critic。深層強化学習とLLMアライメント(RLHF)への展開。

最終更新:2025年11月

1. 問題設定:マルコフ決定過程(MDP)

1.1 MDPの定義

5つ組 $(S, A, P, R, \gamma)$ で定義:

  • $S$:状態空間
  • $A$:行動空間
  • $P(s'|s, a)$:遷移確率
  • $R(s, a, s')$:報酬関数
  • $\gamma \in [0, 1)$:割引率

目標:累積割引報酬の期待値を最大化する方策 $\pi(a|s)$ を求める。

$$J(\pi) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t R_t \right]$$

1.2 価値関数

状態価値関数:

$$V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t R_t \mid S_0 = s \right]$$

行動価値関数(Q関数):

$$Q^\pi(s, a) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t R_t \mid S_0 = s, A_0 = a \right]$$

1.3 ベルマン方程式

$$V^\pi(s) = \sum_a \pi(a|s) \sum_{s'} P(s'|s,a) [R(s,a,s') + \gamma V^\pi(s')]$$

最適ベルマン方程式:

$$V^*(s) = \max_a \sum_{s'} P(s'|s,a) [R(s,a,s') + \gamma V^*(s')]$$

主要論文:

  • Bellman (1957) "Dynamic Programming", Princeton University Press
  • Puterman (1994) "Markov Decision Processes", Wiley

2. 価値ベース手法

2.1 動的計画法

価値反復(Value Iteration):

$$V_{k+1}(s) = \max_a \sum_{s'} P(s'|s,a) [R + \gamma V_k(s')]$$

方策反復(Policy Iteration):方策評価と方策改善の交互適用。

モデル既知の場合に適用。収束保証あり。

2.2 TD学習

サンプルベースの価値推定。ブートストラップによる更新。

TD(0):

$$V(S_t) \leftarrow V(S_t) + \alpha [R_{t+1} + \gamma V(S_{t+1}) - V(S_t)]$$

TD($\lambda$):多段ブートストラップ。適格度トレース。

主要論文:

  • Sutton (1988) "Learning to Predict by the Methods of Temporal Differences", Machine Learning

2.3 Q学習

オフポリシーTD制御。最適行動価値関数を直接学習。

$$Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha [R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)]$$

収束条件:全状態-行動ペアの無限回訪問、適切な学習率減衰。

主要論文:

  • Watkins & Dayan (1992) "Q-Learning", Machine Learning

2.4 SARSA

オンポリシーTD制御。実際に取った行動で更新。

$$Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha [R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)]$$

3. 方策勾配法

3.1 方策勾配定理

方策を直接パラメータ化 $\pi_\theta(a|s)$ し、勾配上昇で最適化。

$$\nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta} \left[ \nabla_\theta \log \pi_\theta(a|s) Q^{\pi_\theta}(s, a) \right]$$

主要論文:

  • Sutton et al. (2000) "Policy Gradient Methods for Reinforcement Learning with Function Approximation", NeurIPS

3.2 REINFORCE

モンテカルロ方策勾配。エピソード終了後に更新。

$$\nabla_\theta J(\theta) \approx \sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) G_t$$

$G_t = \sum_{k=t}^\infty \gamma^{k-t} R_k$:リターン

ベースライン:分散削減のため $G_t - b(s_t)$ を使用。

主要論文:

  • Williams (1992) "Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning", Machine Learning

3.3 自然方策勾配

Fisher情報行列による勾配のスケーリング。パラメータ空間の幾何を考慮。

$$\tilde{\nabla}_\theta J = F^{-1} \nabla_\theta J$$

主要論文:

  • Kakade (2001) "A Natural Policy Gradient", NeurIPS

4. Actor-Critic

4.1 基本構造

Actor:方策 $\pi_\theta(a|s)$ を学習

Critic:価値関数 $V_\phi(s)$ または $Q_\phi(s,a)$ を学習

Advantage関数:

$$A(s, a) = Q(s, a) - V(s)$$

Advantage Actor-Critic(A2C)で分散削減。

4.2 A3C(Asynchronous Advantage Actor-Critic)

複数の並列ワーカーで非同期更新。サンプル効率と安定性の向上。

主要論文:

  • Mnih et al. (2016) "Asynchronous Methods for Deep Reinforcement Learning", ICML

4.3 PPO(Proximal Policy Optimization)

方策更新の安定化。クリップされた目的関数。

$$L^{CLIP}(\theta) = \mathbb{E} \left[ \min(r_t(\theta) A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t) \right]$$

$r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$

RLHFで広く使用。実装が容易で安定。

主要論文:

  • Schulman et al. (2017) "Proximal Policy Optimization Algorithms", arXiv

4.4 TRPO(Trust Region Policy Optimization)

KLダイバージェンス制約付き最適化。理論的保証あり。

主要論文:

  • Schulman et al. (2015) "Trust Region Policy Optimization", ICML

5. 深層強化学習

5.1 DQN

Q関数をニューラルネットワークで近似。Atariゲームで人間超え。

主要技術:

  • Experience Replay:サンプル相関の除去
  • Target Network:学習の安定化

発展:Double DQN、Dueling DQN、Prioritized Experience Replay、Rainbow

主要論文:

  • Mnih et al. (2015) "Human-level control through deep reinforcement learning", Nature
  • van Hasselt et al. (2016) "Deep Reinforcement Learning with Double Q-learning", AAAI
  • Hessel et al. (2018) "Rainbow: Combining Improvements in Deep Reinforcement Learning", AAAI

5.2 連続行動空間

DDPG(Deep Deterministic Policy Gradient):

決定論的方策、オフポリシー学習。

TD3(Twin Delayed DDPG):

過大評価バイアスへの対処。

SAC(Soft Actor-Critic):

最大エントロピー強化学習。探索とロバスト性の向上。

主要論文:

  • Lillicrap et al. (2016) "Continuous control with deep reinforcement learning (DDPG)", ICLR
  • Fujimoto et al. (2018) "Addressing Function Approximation Error in Actor-Critic Methods (TD3)", ICML
  • Haarnoja et al. (2018) "Soft Actor-Critic: Off-Policy Maximum Entropy Deep RL", ICML

5.3 ゲームAI

AlphaGo/AlphaZero:MCTS + 深層学習。囲碁、チェス、将棋で超人性能。

OpenAI Five:Dota 2。チーム協調。

AlphaStar:StarCraft II。不完全情報ゲーム。

主要論文:

  • Silver et al. (2016) "Mastering the game of Go with deep neural networks and tree search", Nature
  • Silver et al. (2017) "Mastering Chess and Shogi by Self-Play (AlphaZero)", Science
  • Vinyals et al. (2019) "Grandmaster level in StarCraft II using multi-agent RL", Nature

6. モデルベース強化学習

6.1 概要

環境モデル $\hat{P}(s'|s,a)$ を学習し、計画に使用。サンプル効率の向上。

アプローチ:

  • Dyna:実経験とシミュレーションの併用
  • World Models:VAE + RNN による環境モデリング
  • MuZero:潜在空間でのモデル学習

主要論文:

  • Sutton (1991) "Dyna, an Integrated Architecture for Learning, Planning, and Reacting", SIGART Bulletin
  • Ha & Schmidhuber (2018) "World Models", NeurIPS
  • Schrittwieser et al. (2020) "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)", Nature

6.2 モデル予測制御(MPC)

短期的な計画をオンラインで実行。ロボティクスで広く使用。

7. RLHFとLLMアライメント

7.1 RLHF(Reinforcement Learning from Human Feedback)

人間の選好からLLMを調整。ChatGPT等の基盤技術。

3ステップ:

  1. 教師ありファインチューニング(SFT):高品質データでの調整
  2. 報酬モデル訓練:人間の選好ペアから報酬関数を学習
  3. PPOによる方策最適化:報酬最大化 + KL制約

主要論文:

  • Christiano et al. (2017) "Deep Reinforcement Learning from Human Preferences", NeurIPS
  • Ziegler et al. (2019) "Fine-Tuning Language Models from Human Preferences", arXiv
  • Ouyang et al. (2022) "Training language models to follow instructions with human feedback (InstructGPT)", NeurIPS

7.2 DPO(Direct Preference Optimization)

報酬モデルとPPOを省略し、選好データから直接方策を最適化。

$$\mathcal{L}_{DPO} = -\mathbb{E} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)} \right) \right]$$

主要論文:

  • Rafailov et al. (2023) "Direct Preference Optimization: Your Language Model is Secretly a Reward Model", NeurIPS

7.3 その他のアライメント手法

  • Constitutional AI(CAI):原則に基づく自己改善(Anthropic)
  • RLAIF:AIフィードバックからの学習
  • KTO:Kahneman-Tversky Optimization
  • ORPO:Odds Ratio Preference Optimization

8. 参考文献

教科書

  • Sutton & Barto (2018) "Reinforcement Learning: An Introduction", 2nd ed., MIT Press(無料オンライン)
  • Bertsekas & Tsitsiklis (1996) "Neuro-Dynamic Programming", Athena Scientific
  • Szepesvári (2010) "Algorithms for Reinforcement Learning", Morgan & Claypool

サーベイ

  • Arulkumaran et al. (2017) "Deep Reinforcement Learning: A Brief Survey", IEEE Signal Processing Magazine
  • Henderson et al. (2018) "Deep Reinforcement Learning that Matters", AAAI
  • Kaufmann et al. (2023) "A Survey of Reinforcement Learning from Human Feedback", arXiv

実装リソース

  • OpenAI Spinning Up:深層強化学習の教育リソース
  • Stable Baselines3:PyTorchベースのRL実装
  • RLlib:分散強化学習ライブラリ