AIXI・万能知能

1. 概要

1.1 AIXIとは

Hutter (2005)が提案した理論的に最適なエージェント。

Solomonoff帰納（予測）
期待効用最大化（行動選択）
を統合した汎用エージェント

1.2 設定

エージェント-環境相互作用:
- 行動 aₜ を選択
- 観測 oₜ と報酬 rₜ を受け取る
- 履歴: a₁o₁r₁a₂o₂r₂...aₜoₜrₜ

目標: 累積報酬の期待値を最大化

2. AIXIの定義

2.1 行動選択

aₜ = argmax_a Σ_{o,r} [r + V*(ao)] · M(ao | h)

V*(h): 履歴hからの最適価値関数
M(ao|h): Solomonoff事前分布による予測
h: 現在までの履歴

2.2 最適性

定理（Hutter）:
任意の計算可能な環境μに対して、
AIXIの期待累積報酬はμ下で最適なエージェントと
漸近的に等しい（定数の損失を除いて）

3. 性質

3.1 利点

理論的に最適（計算を無視すれば）
環境に関する事前知識不要
あらゆる計算可能な環境で動作

3.2 限界

限界	説明
計算不可能	Solomonoff予測が計算不可能
非実用的	近似も非常に困難
自己参照問題	自己改変の扱いが曖昧

4. 近似と応用

4.1 AIXItl

時間t、プログラム長lに制限したAIXI
- 計算可能
- 最適性は失われるが実装可能
- MC-AIXIなどの実装例

4.2 知能の定義への応用

Legg & Hutter (2007)の知能の定義：

Υ(π) = Σ_μ 2^{-K(μ)} V_μ^π

エージェントπの知能 = 
すべての環境μでの性能V_μ^πを
環境の複雑さ2^{-K(μ)}で重み付けした和

5. 参考文献

Hutter (2005). "Universal Artificial Intelligence: Sequential Decisions based on Algorithmic Probability"
Legg & Hutter (2007). "Universal Intelligence: A Definition of Machine Intelligence"
Veness et al. (2011). "A Monte-Carlo AIXI Approximation" JAIR