強化学習 - AI入門 - はとはとプロジェクト

1. 強化学習とは

基本概念

強化学習は、環境との相互作用を通じて、報酬を最大化するような行動を学習する機械学習手法です。正解が事前に与えられない中で、試行錯誤により最適な行動戦略（方策）を発見します。

他の学習手法との違い

学習手法	データ	学習方法	目標
教師あり学習	正解ラベル付き	正解から学習	予測精度の向上
教師なし学習	ラベルなし	パターン発見	隠れた構造の発見
強化学習	環境からの報酬	試行錯誤	累積報酬の最大化

特徴

行動の結果として報酬または罰を受ける
長期的な利益を考慮した意思決定
探索と活用のバランス
動的な環境に適応可能

身近な例

子供が自転車の乗り方を学ぶ
ペットの訓練（おすわり、お手など）
スポーツの技術習得
ゲームの攻略法を見つける

2. 基本要素

エージェント（Agent）

学習し、行動を決定する主体です。人間やロボット、AIプログラムなどが該当します。

役割

環境の状態を観測
行動を選択・実行
報酬を受け取り学習

環境（Environment）

エージェントが行動する場所や状況です。

特徴

エージェントの行動に応じて状態が変化
行動に対して報酬を与える
確定的または確率的

状態（State）

環境の現在の状況を表す情報です。

例

チェス：盤面の配置
自動運転：車の位置、速度、周囲の状況
ゲーム：キャラクターの位置、体力、アイテム

行動（Action）

エージェントが選択できる選択肢です。

種類

離散的行動：有限の選択肢（上下左右の移動など）
連続的行動：連続値（舵角、加速度など）

報酬（Reward）

行動の良さを表す数値です。

設計のポイント

目標に近づく行動に正の報酬
望ましくない行動に負の報酬
希薄報酬問題の考慮

方策（Policy）

各状態でどの行動を選ぶかを決める戦略です。

種類

決定的方策：状態が決まれば行動が一意に決まる
確率的方策：各行動を選ぶ確率が決まっている

3. 学習プロセス

基本サイクル

観測：現在の状態を観測
行動選択：方策に基づいて行動を選択
行動実行：選択した行動を環境で実行
報酬取得：行動の結果として報酬を受け取る
状態遷移：環境の状態が次の状態に変化
学習：経験を元に方策を更新

探索と活用のトレードオフ

探索（Exploration）

未知の行動を試す
新しい知識の獲得
短期的には報酬が低い可能性

活用（Exploitation）

既知の良い行動を選ぶ
確実な報酬の獲得
長期的には最適でない可能性

ε-グリーディ法

探索と活用のバランスを取る簡単な手法

確率εで探索（ランダム行動）
確率(1-ε)で活用（最良行動）

4. 主要アルゴリズム

Q学習（Q-Learning）

最も基本的な強化学習アルゴリズムの一つです。

特徴

モデルフリー手法
オフポリシー学習
Q値（行動価値）を学習

Q値の更新式

Q(s,a) ← Q(s,a) + α[r + γ max Q(s',a') - Q(s,a)]

α：学習率
γ：割引率
r：即座の報酬

Deep Q-Network (DQN)

Q学習にディープラーニングを組み合わせた手法です。

改良点

ニューラルネットワークでQ値を近似
Experience Replay
Target Network

Policy Gradient

方策を直接最適化する手法です。

特徴

連続行動空間に対応
確率的方策の学習
勾配降下法による最適化

Actor-Critic

価値関数と方策の両方を学習する手法です。

構成

Actor：方策の更新
Critic：価値関数の学習

5. 応用分野

ゲーム

成功事例

AlphaGo：囲碁で人間の世界チャンピオンに勝利
OpenAI Five：Dota 2で人間のプロチームに勝利
AlphaStar：StarCraft IIでプロゲーマーに勝利

ロボティクス

応用例

歩行の学習
物体操作
ナビゲーション
組み立て作業

自動運転

適用領域

経路計画
車線変更
信号や交通標識への対応
他車との協調

金融

活用分野

アルゴリズム取引
ポートフォリオ最適化
リスク管理
高頻度取引

エネルギー管理

応用例

スマートグリッドの制御
電力需給の最適化
再生可能エネルギーの統合
建物の空調制御

まとめ

強化学習は、試行錯誤を通じて最適な行動戦略を学習する手法です。エージェントが環境と相互作用しながら、報酬を最大化する方策を発見します。

ゲーム、ロボティクス、自動運転など様々な分野で目覚ましい成果を上げており、特に複雑で動的な環境での意思決定問題に威力を発揮します。ただし、報酬設計の難しさや学習の不安定さなど、実用化には課題も残されています。