2. 価値ベース手法
2.1 動的計画法
価値反復(Value Iteration):
$$V_{k+1}(s) = \max_a \sum_{s'} P(s'|s,a) [R + \gamma V_k(s')]$$
方策反復(Policy Iteration):方策評価と方策改善の交互適用。
モデル既知の場合に適用。収束保証あり。
2.2 TD学習
サンプルベースの価値推定。ブートストラップによる更新。
TD(0):
$$V(S_t) \leftarrow V(S_t) + \alpha [R_{t+1} + \gamma V(S_{t+1}) - V(S_t)]$$
TD($\lambda$):多段ブートストラップ。適格度トレース。
主要論文:
- Sutton (1988) "Learning to Predict by the Methods of Temporal Differences", Machine Learning
2.3 Q学習
オフポリシーTD制御。最適行動価値関数を直接学習。
$$Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha [R_{t+1} + \gamma \max_a Q(S_{t+1}, a) - Q(S_t, A_t)]$$
収束条件:全状態-行動ペアの無限回訪問、適切な学習率減衰。
主要論文:
- Watkins & Dayan (1992) "Q-Learning", Machine Learning
2.4 SARSA
オンポリシーTD制御。実際に取った行動で更新。
$$Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha [R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)]$$
3. 方策勾配法
3.1 方策勾配定理
方策を直接パラメータ化 $\pi_\theta(a|s)$ し、勾配上昇で最適化。
$$\nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta} \left[ \nabla_\theta \log \pi_\theta(a|s) Q^{\pi_\theta}(s, a) \right]$$
主要論文:
- Sutton et al. (2000) "Policy Gradient Methods for Reinforcement Learning with Function Approximation", NeurIPS
3.2 REINFORCE
モンテカルロ方策勾配。エピソード終了後に更新。
$$\nabla_\theta J(\theta) \approx \sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) G_t$$
$G_t = \sum_{k=t}^\infty \gamma^{k-t} R_k$:リターン
ベースライン:分散削減のため $G_t - b(s_t)$ を使用。
主要論文:
- Williams (1992) "Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning", Machine Learning
3.3 自然方策勾配
Fisher情報行列による勾配のスケーリング。パラメータ空間の幾何を考慮。
$$\tilde{\nabla}_\theta J = F^{-1} \nabla_\theta J$$
主要論文:
- Kakade (2001) "A Natural Policy Gradient", NeurIPS
4. Actor-Critic
4.1 基本構造
Actor:方策 $\pi_\theta(a|s)$ を学習
Critic:価値関数 $V_\phi(s)$ または $Q_\phi(s,a)$ を学習
Advantage関数:
$$A(s, a) = Q(s, a) - V(s)$$
Advantage Actor-Critic(A2C)で分散削減。
4.2 A3C(Asynchronous Advantage Actor-Critic)
複数の並列ワーカーで非同期更新。サンプル効率と安定性の向上。
主要論文:
- Mnih et al. (2016) "Asynchronous Methods for Deep Reinforcement Learning", ICML
4.3 PPO(Proximal Policy Optimization)
方策更新の安定化。クリップされた目的関数。
$$L^{CLIP}(\theta) = \mathbb{E} \left[ \min(r_t(\theta) A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t) \right]$$
$r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$
RLHFで広く使用。実装が容易で安定。
主要論文:
- Schulman et al. (2017) "Proximal Policy Optimization Algorithms", arXiv
4.4 TRPO(Trust Region Policy Optimization)
KLダイバージェンス制約付き最適化。理論的保証あり。
主要論文:
- Schulman et al. (2015) "Trust Region Policy Optimization", ICML
5. 深層強化学習
5.1 DQN
Q関数をニューラルネットワークで近似。Atariゲームで人間超え。
主要技術:
- Experience Replay:サンプル相関の除去
- Target Network:学習の安定化
発展:Double DQN、Dueling DQN、Prioritized Experience Replay、Rainbow
主要論文:
- Mnih et al. (2015) "Human-level control through deep reinforcement learning", Nature
- van Hasselt et al. (2016) "Deep Reinforcement Learning with Double Q-learning", AAAI
- Hessel et al. (2018) "Rainbow: Combining Improvements in Deep Reinforcement Learning", AAAI
5.2 連続行動空間
DDPG(Deep Deterministic Policy Gradient):
決定論的方策、オフポリシー学習。
TD3(Twin Delayed DDPG):
過大評価バイアスへの対処。
SAC(Soft Actor-Critic):
最大エントロピー強化学習。探索とロバスト性の向上。
主要論文:
- Lillicrap et al. (2016) "Continuous control with deep reinforcement learning (DDPG)", ICLR
- Fujimoto et al. (2018) "Addressing Function Approximation Error in Actor-Critic Methods (TD3)", ICML
- Haarnoja et al. (2018) "Soft Actor-Critic: Off-Policy Maximum Entropy Deep RL", ICML
5.3 ゲームAI
AlphaGo/AlphaZero:MCTS + 深層学習。囲碁、チェス、将棋で超人性能。
OpenAI Five:Dota 2。チーム協調。
AlphaStar:StarCraft II。不完全情報ゲーム。
主要論文:
- Silver et al. (2016) "Mastering the game of Go with deep neural networks and tree search", Nature
- Silver et al. (2017) "Mastering Chess and Shogi by Self-Play (AlphaZero)", Science
- Vinyals et al. (2019) "Grandmaster level in StarCraft II using multi-agent RL", Nature
6. モデルベース強化学習
6.1 概要
環境モデル $\hat{P}(s'|s,a)$ を学習し、計画に使用。サンプル効率の向上。
アプローチ:
- Dyna:実経験とシミュレーションの併用
- World Models:VAE + RNN による環境モデリング
- MuZero:潜在空間でのモデル学習
主要論文:
- Sutton (1991) "Dyna, an Integrated Architecture for Learning, Planning, and Reacting", SIGART Bulletin
- Ha & Schmidhuber (2018) "World Models", NeurIPS
- Schrittwieser et al. (2020) "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)", Nature
6.2 モデル予測制御(MPC)
短期的な計画をオンラインで実行。ロボティクスで広く使用。
7. RLHFとLLMアライメント
7.1 RLHF(Reinforcement Learning from Human Feedback)
人間の選好からLLMを調整。ChatGPT等の基盤技術。
3ステップ:
- 教師ありファインチューニング(SFT):高品質データでの調整
- 報酬モデル訓練:人間の選好ペアから報酬関数を学習
- PPOによる方策最適化:報酬最大化 + KL制約
主要論文:
- Christiano et al. (2017) "Deep Reinforcement Learning from Human Preferences", NeurIPS
- Ziegler et al. (2019) "Fine-Tuning Language Models from Human Preferences", arXiv
- Ouyang et al. (2022) "Training language models to follow instructions with human feedback (InstructGPT)", NeurIPS
7.2 DPO(Direct Preference Optimization)
報酬モデルとPPOを省略し、選好データから直接方策を最適化。
$$\mathcal{L}_{DPO} = -\mathbb{E} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)} \right) \right]$$
主要論文:
- Rafailov et al. (2023) "Direct Preference Optimization: Your Language Model is Secretly a Reward Model", NeurIPS
7.3 その他のアライメント手法
- Constitutional AI(CAI):原則に基づく自己改善(Anthropic)
- RLAIF:AIフィードバックからの学習
- KTO:Kahneman-Tversky Optimization
- ORPO:Odds Ratio Preference Optimization
8. 参考文献
教科書
- Sutton & Barto (2018) "Reinforcement Learning: An Introduction", 2nd ed., MIT Press(無料オンライン)
- Bertsekas & Tsitsiklis (1996) "Neuro-Dynamic Programming", Athena Scientific
- Szepesvári (2010) "Algorithms for Reinforcement Learning", Morgan & Claypool
サーベイ
- Arulkumaran et al. (2017) "Deep Reinforcement Learning: A Brief Survey", IEEE Signal Processing Magazine
- Henderson et al. (2018) "Deep Reinforcement Learning that Matters", AAAI
- Kaufmann et al. (2023) "A Survey of Reinforcement Learning from Human Feedback", arXiv
実装リソース
- OpenAI Spinning Up:深層強化学習の教育リソース
- Stable Baselines3:PyTorchベースのRL実装
- RLlib:分散強化学習ライブラリ