AIXI・万能知能

1. 概要

1.1 AIXIとは

Hutter (2005)が提案した理論的に最適なエージェント。

  • Solomonoff帰納(予測)
  • 期待効用最大化(行動選択)
  • を統合した汎用エージェント

1.2 設定

エージェント-環境相互作用:
- 行動 aₜ を選択
- 観測 oₜ と報酬 rₜ を受け取る
- 履歴: a₁o₁r₁a₂o₂r₂...aₜoₜrₜ

目標: 累積報酬の期待値を最大化

2. AIXIの定義

2.1 行動選択

aₜ = argmax_a Σ_{o,r} [r + V*(ao)] · M(ao | h)

V*(h): 履歴hからの最適価値関数
M(ao|h): Solomonoff事前分布による予測
h: 現在までの履歴

2.2 最適性

定理(Hutter):
任意の計算可能な環境μに対して、
AIXIの期待累積報酬はμ下で最適なエージェントと
漸近的に等しい(定数の損失を除いて)

3. 性質

3.1 利点

  • 理論的に最適(計算を無視すれば)
  • 環境に関する事前知識不要
  • あらゆる計算可能な環境で動作

3.2 限界

限界説明
計算不可能Solomonoff予測が計算不可能
非実用的近似も非常に困難
自己参照問題自己改変の扱いが曖昧

4. 近似と応用

4.1 AIXItl

時間t、プログラム長lに制限したAIXI
- 計算可能
- 最適性は失われるが実装可能
- MC-AIXIなどの実装例

4.2 知能の定義への応用

Legg & Hutter (2007)の知能の定義:

Υ(π) = Σ_μ 2^{-K(μ)} V_μ^π

エージェントπの知能 = 
すべての環境μでの性能V_μ^πを
環境の複雑さ2^{-K(μ)}で重み付けした和

5. 参考文献

  • Hutter (2005). "Universal Artificial Intelligence: Sequential Decisions based on Algorithmic Probability"
  • Legg & Hutter (2007). "Universal Intelligence: A Definition of Machine Intelligence"
  • Veness et al. (2011). "A Monte-Carlo AIXI Approximation" JAIR