AIXI・万能知能
1. 概要
1.1 AIXIとは
Hutter (2005)が提案した理論的に最適なエージェント。
- Solomonoff帰納(予測)
- 期待効用最大化(行動選択)
- を統合した汎用エージェント
1.2 設定
エージェント-環境相互作用:
- 行動 aₜ を選択
- 観測 oₜ と報酬 rₜ を受け取る
- 履歴: a₁o₁r₁a₂o₂r₂...aₜoₜrₜ
目標: 累積報酬の期待値を最大化
2. AIXIの定義
2.1 行動選択
aₜ = argmax_a Σ_{o,r} [r + V*(ao)] · M(ao | h)
V*(h): 履歴hからの最適価値関数
M(ao|h): Solomonoff事前分布による予測
h: 現在までの履歴
2.2 最適性
定理(Hutter):
任意の計算可能な環境μに対して、
AIXIの期待累積報酬はμ下で最適なエージェントと
漸近的に等しい(定数の損失を除いて)
3. 性質
3.1 利点
- 理論的に最適(計算を無視すれば)
- 環境に関する事前知識不要
- あらゆる計算可能な環境で動作
3.2 限界
| 限界 | 説明 |
|---|---|
| 計算不可能 | Solomonoff予測が計算不可能 |
| 非実用的 | 近似も非常に困難 |
| 自己参照問題 | 自己改変の扱いが曖昧 |
4. 近似と応用
4.1 AIXItl
時間t、プログラム長lに制限したAIXI
- 計算可能
- 最適性は失われるが実装可能
- MC-AIXIなどの実装例
4.2 知能の定義への応用
Legg & Hutter (2007)の知能の定義:
Υ(π) = Σ_μ 2^{-K(μ)} V_μ^π
エージェントπの知能 =
すべての環境μでの性能V_μ^πを
環境の複雑さ2^{-K(μ)}で重み付けした和
5. 参考文献
- Hutter (2005). "Universal Artificial Intelligence: Sequential Decisions based on Algorithmic Probability"
- Legg & Hutter (2007). "Universal Intelligence: A Definition of Machine Intelligence"
- Veness et al. (2011). "A Monte-Carlo AIXI Approximation" JAIR