08. 強化学習 - AI入門 - はとはとプロジェクト

1. 問題設定：マルコフ決定過程（MDP）

1.1 MDPの定義

5つ組 $(S, A, P, R, \gamma)$ で定義：

$S$：状態空間
$A$：行動空間
$P(s'|s, a)$：遷移確率
$R(s, a, s')$：報酬関数
$\gamma \in [0, 1)$：割引率

目標：累積割引報酬の期待値を最大化する方策 $\pi(a|s)$ を求める。

$$J(\pi) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t R_t \right]$$

1.2 価値関数

状態価値関数：

$$V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t R_t \mid S_0 = s \right]$$

行動価値関数（Q関数）：

$$Q^\pi(s, a) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t R_t \mid S_0 = s, A_0 = a \right]$$

1.3 ベルマン方程式

$$V^\pi(s) = \sum_a \pi(a|s) \sum_{s'} P(s'|s,a) [R(s,a,s') + \gamma V^\pi(s')]$$

最適ベルマン方程式：

$$V^*(s) = \max_a \sum_{s'} P(s'|s,a) [R(s,a,s') + \gamma V^*(s')]$$

主要論文：

Bellman (1957) "Dynamic Programming", Princeton University Press
Puterman (1994) "Markov Decision Processes", Wiley

2. 価値ベース手法

2.1 動的計画法

価値反復（Value Iteration）：

$$V_{k+1}(s) = \max_a \sum_{s'} P(s'|s,a) [R + \gamma V_k(s')]$$

方策反復（Policy Iteration）：方策評価と方策改善の交互適用。

モデル既知の場合に適用。収束保証あり。

2.2 TD学習

サンプルベースの価値推定。ブートストラップによる更新。

TD(0)：

$$V(S_t) \leftarrow V(S_t) + \alpha [R_{t+1} + \gamma V(S_{t+1}) - V(S_t)]$$

TD($\lambda$)：多段ブートストラップ。適格度トレース。

主要論文：

Sutton (1988) "Learning to Predict by the Methods of Temporal Differences", Machine Learning

2.3 Q学習

オフポリシーTD制御。最適行動価値関数を直接学習。

$$Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha [R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)]$$

収束条件：全状態-行動ペアの無限回訪問、適切な学習率減衰。

主要論文：

Watkins & Dayan (1992) "Q-Learning", Machine Learning

2.4 SARSA

オンポリシーTD制御。実際に取った行動で更新。

$$Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha [R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)]$$

3. 方策勾配法

3.1 方策勾配定理

方策を直接パラメータ化 $\pi_\theta(a|s)$ し、勾配上昇で最適化。

$$\nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta} \left[ \nabla_\theta \log \pi_\theta(a|s) Q^{\pi_\theta}(s, a) \right]$$

主要論文：

Sutton et al. (2000) "Policy Gradient Methods for Reinforcement Learning with Function Approximation", NeurIPS

3.2 REINFORCE

モンテカルロ方策勾配。エピソード終了後に更新。

$$\nabla_\theta J(\theta) \approx \sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) G_t$$

$G_t = \sum_{k=t}^\infty \gamma^{k-t} R_k$：リターン

ベースライン：分散削減のため $G_t - b(s_t)$ を使用。

主要論文：

Williams (1992) "Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning", Machine Learning

3.3 自然方策勾配

Fisher情報行列による勾配のスケーリング。パラメータ空間の幾何を考慮。

$$\tilde{\nabla}_\theta J = F^{-1} \nabla_\theta J$$

主要論文：

Kakade (2001) "A Natural Policy Gradient", NeurIPS

4. Actor-Critic

4.1 基本構造

Actor：方策 $\pi_\theta(a|s)$ を学習

Critic：価値関数 $V_\phi(s)$ または $Q_\phi(s,a)$ を学習

Advantage関数：

$$A(s, a) = Q(s, a) - V(s)$$

Advantage Actor-Critic（A2C）で分散削減。

4.2 A3C（Asynchronous Advantage Actor-Critic）

複数の並列ワーカーで非同期更新。サンプル効率と安定性の向上。

主要論文：

Mnih et al. (2016) "Asynchronous Methods for Deep Reinforcement Learning", ICML

4.3 PPO（Proximal Policy Optimization）

方策更新の安定化。クリップされた目的関数。

$$L^{CLIP}(\theta) = \mathbb{E} \left[ \min(r_t(\theta) A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t) \right]$$

$r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$

RLHFで広く使用。実装が容易で安定。

主要論文：

Schulman et al. (2017) "Proximal Policy Optimization Algorithms", arXiv

4.4 TRPO（Trust Region Policy Optimization）

KLダイバージェンス制約付き最適化。理論的保証あり。

主要論文：

Schulman et al. (2015) "Trust Region Policy Optimization", ICML

5. 深層強化学習

5.1 DQN

Q関数をニューラルネットワークで近似。Atariゲームで人間超え。

主要技術：

Experience Replay：サンプル相関の除去
Target Network：学習の安定化

発展：Double DQN、Dueling DQN、Prioritized Experience Replay、Rainbow

主要論文：

Mnih et al. (2015) "Human-level control through deep reinforcement learning", Nature
van Hasselt et al. (2016) "Deep Reinforcement Learning with Double Q-learning", AAAI
Hessel et al. (2018) "Rainbow: Combining Improvements in Deep Reinforcement Learning", AAAI

5.2 連続行動空間

DDPG（Deep Deterministic Policy Gradient）：

決定論的方策、オフポリシー学習。

TD3（Twin Delayed DDPG）：

過大評価バイアスへの対処。

SAC（Soft Actor-Critic）：

最大エントロピー強化学習。探索とロバスト性の向上。

主要論文：

Lillicrap et al. (2016) "Continuous control with deep reinforcement learning (DDPG)", ICLR
Fujimoto et al. (2018) "Addressing Function Approximation Error in Actor-Critic Methods (TD3)", ICML
Haarnoja et al. (2018) "Soft Actor-Critic: Off-Policy Maximum Entropy Deep RL", ICML

5.3 ゲームAI

AlphaGo/AlphaZero：MCTS + 深層学習。囲碁、チェス、将棋で超人性能。

OpenAI Five：Dota 2。チーム協調。

AlphaStar：StarCraft II。不完全情報ゲーム。

主要論文：

Silver et al. (2016) "Mastering the game of Go with deep neural networks and tree search", Nature
Silver et al. (2017) "Mastering Chess and Shogi by Self-Play (AlphaZero)", Science
Vinyals et al. (2019) "Grandmaster level in StarCraft II using multi-agent RL", Nature

6. モデルベース強化学習

6.1 概要

環境モデル $\hat{P}(s'|s,a)$ を学習し、計画に使用。サンプル効率の向上。

アプローチ：

Dyna：実経験とシミュレーションの併用
World Models：VAE + RNN による環境モデリング
MuZero：潜在空間でのモデル学習

主要論文：

Sutton (1991) "Dyna, an Integrated Architecture for Learning, Planning, and Reacting", SIGART Bulletin
Ha & Schmidhuber (2018) "World Models", NeurIPS
Schrittwieser et al. (2020) "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)", Nature

6.2 モデル予測制御（MPC）

短期的な計画をオンラインで実行。ロボティクスで広く使用。

7. RLHFとLLMアライメント

7.1 RLHF（Reinforcement Learning from Human Feedback）

人間の選好からLLMを調整。ChatGPT等の基盤技術。

3ステップ：

教師ありファインチューニング（SFT）：高品質データでの調整
報酬モデル訓練：人間の選好ペアから報酬関数を学習
PPOによる方策最適化：報酬最大化 + KL制約

主要論文：

Christiano et al. (2017) "Deep Reinforcement Learning from Human Preferences", NeurIPS
Ziegler et al. (2019) "Fine-Tuning Language Models from Human Preferences", arXiv
Ouyang et al. (2022) "Training language models to follow instructions with human feedback (InstructGPT)", NeurIPS

7.2 DPO（Direct Preference Optimization）

報酬モデルとPPOを省略し、選好データから直接方策を最適化。

$$\mathcal{L}_{DPO} = -\mathbb{E} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)} \right) \right]$$

主要論文：

Rafailov et al. (2023) "Direct Preference Optimization: Your Language Model is Secretly a Reward Model", NeurIPS

7.3 その他のアライメント手法

Constitutional AI（CAI）：原則に基づく自己改善（Anthropic）
RLAIF：AIフィードバックからの学習
KTO：Kahneman-Tversky Optimization
ORPO：Odds Ratio Preference Optimization

8. 参考文献

教科書

Sutton & Barto (2018) "Reinforcement Learning: An Introduction", 2nd ed., MIT Press（無料オンライン）
Bertsekas & Tsitsiklis (1996) "Neuro-Dynamic Programming", Athena Scientific
Szepesvári (2010) "Algorithms for Reinforcement Learning", Morgan & Claypool

サーベイ

Arulkumaran et al. (2017) "Deep Reinforcement Learning: A Brief Survey", IEEE Signal Processing Magazine
Henderson et al. (2018) "Deep Reinforcement Learning that Matters", AAAI
Kaufmann et al. (2023) "A Survey of Reinforcement Learning from Human Feedback", arXiv

実装リソース

OpenAI Spinning Up：深層強化学習の教育リソース
Stable Baselines3：PyTorchベースのRL実装
RLlib：分散強化学習ライブラリ