Hutter (2005)が提案した理論的に最適なエージェント。
エージェント-環境相互作用:
- 行動 aₜ を選択
- 観測 oₜ と報酬 rₜ を受け取る
- 履歴: a₁o₁r₁a₂o₂r₂...aₜoₜrₜ
目標: 累積報酬の期待値を最大化
aₜ = argmax_a Σ_{o,r} [r + V*(ao)] · M(ao | h)
V*(h): 履歴hからの最適価値関数
M(ao|h): Solomonoff事前分布による予測
h: 現在までの履歴
定理(Hutter):
任意の計算可能な環境μに対して、
AIXIの期待累積報酬はμ下で最適なエージェントと
漸近的に等しい(定数の損失を除いて)
| 限界 | 説明 |
|---|---|
| 計算不可能 | Solomonoff予測が計算不可能 |
| 非実用的 | 近似も非常に困難 |
| 自己参照問題 | 自己改変の扱いが曖昧 |
時間t、プログラム長lに制限したAIXI
- 計算可能
- 最適性は失われるが実装可能
- MC-AIXIなどの実装例
Legg & Hutter (2007)の知能の定義:
Υ(π) = Σ_μ 2^{-K(μ)} V_μ^π
エージェントπの知能 =
すべての環境μでの性能V_μ^πを
環境の複雑さ2^{-K(μ)}で重み付けした和