知能の測定・評価

1. 知能の定義

1.1 様々な定義

アプローチ定義
心理学的環境への適応能力
行動的目標達成のための行動能力
計算的幅広い環境での期待報酬(AIXI)
Cholletスキル獲得効率

1.2 Cholletの定義

知能 = スキル獲得効率

「限られた経験から新しいタスクを
効率的に学習する能力」

重要な区別:
- スキル(skill): 特定タスクの遂行能力
- 知能: スキルを獲得する能力(メタ能力)

2. Turingテスト

2.1 概要

Turing (1950)の「模倣ゲーム」:

  • 人間の審査員がテキストで質問
  • 機械と人間を区別できなければ合格

2.2 批判

  • 人間らしさ ≠ 知能
  • 欺瞞の能力を測定?
  • 狭い能力でも通過可能
  • LLMは通過するが「知能」か議論あり

3. ARC(Abstraction and Reasoning Corpus)

3.1 概要

Chollet (2019)が提案したベンチマーク。

タスク形式:
- 数個の入力-出力グリッドの例
- 新しい入力に対して正しい出力を生成

特徴:
- 各タスクは独自のルール
- 事前知識だけでは解けない
- Few-shot学習能力を測定

3.2 Core Knowledge

ARCが仮定する事前知識:

  • オブジェクト性(物体の認識)
  • 数(カウント)
  • 基本幾何学
  • エージェント性(目標・行動)

3.3 現状

  • 人間: ~85%
  • 最良のAI(2024時点): ~35-55%
  • LLM単体: ~20-30%
  • 大きなギャップが残る

4. サイコメトリックAI

4.1 アプローチ

人間の知能テスト(IQテスト)をAIに適用。

  • Raven's Progressive Matrices
  • 言語推論テスト
  • 空間認識テスト

4.2 C-Test

Hernández-Orallo (2000)が提案:

  • Kolmogorov複雑性に基づく知能テスト
  • 様々な複雑さのシーケンス予測
  • 理論的基盤がある

5. 参考文献

  • Turing (1950). "Computing Machinery and Intelligence" Mind
  • Chollet (2019). "On the Measure of Intelligence" arXiv
  • Hernández-Orallo (2017). "The Measure of All Minds" Cambridge
  • Legg & Hutter (2007). "Universal Intelligence: A Definition of Machine Intelligence" Minds and Machines