Mechanistic Interpretability

ニューラルネットワークの内部機構を理解する研究分野。回路発見、特徴可視化、活性化解析。

最終更新:2025年11月

1. 概要

1.1 Mechanistic Interpretabilityとは

ニューラルネットワークが「どのように」計算を行っているかを理解する研究分野。

  • 目標:モデルの内部機構をリバースエンジニアリング
  • アプローチ:個々のニューロン・回路の役割を特定
  • 重要性:AIの安全性・信頼性の基盤

1.2 なぜ重要か

目的 説明
安全性 有害な動作の原因を特定・修正
信頼性 なぜその出力かを説明可能に
改善 弱点の発見と修正
科学的理解 知能の計算原理を解明

1.3 解釈可能性の種類

  • 事後的説明:入出力の関係を説明(LIME、SHAP)
  • メカニスティック:内部の計算過程を理解(本ページ)
  • 概念的:学習された概念・表現を分析

2. 回路(Circuits)

2.1 回路仮説

Olah et al. (2020)による仮説:

  • ニューラルネットワークは解釈可能な特徴を学習
  • 特徴は回路によって接続される
  • 回路はより大きな回路の部品となる

2.2 回路の例

回路 機能
エッジ検出器 画像の輪郭を検出
曲線検出器 曲線パターンを認識
Indirect Object ID 間接目的語を特定(LLM)
Induction Head パターン補完(LLM)

2.3 Induction Head

Olsson et al. (2022):LLMの重要な回路。

入力: "... A B ... A"
出力: "B" を予測

仕組み:
1. 現在位置から前を検索(Aを探す)
2. 前回のAの次のトークン(B)を取得
3. Bを次のトークンとして予測

→ In-context learningの基盤

2.4 回路の発見方法

  1. 特定のタスク・振る舞いを選択
  2. 関連する活性化パターンを特定
  3. 因果的介入で重要な部分を検証
  4. 回路の構造を記述

3. 特徴(Features)

3.1 特徴とは

モデルが学習した「意味のある方向」や「概念」。

  • 単一ニューロン ≠ 単一特徴(多くの場合)
  • 特徴は複数ニューロンの組み合わせで表現
  • Superposition:1つのニューロンが複数の特徴を表現

3.2 Superposition問題

Elhage et al. (2022):

  • ニューロン数 < 表現したい特徴数
  • モデルは特徴を「重ね合わせて」表現
  • 解釈を困難にする主要な課題

3.3 Polysemanticity

1つのニューロンが複数の無関係な概念に反応。

例:あるニューロンが以下すべてに反応
- 「学術論文」のテキスト
- 「韓国語」の文章
- 特定の構文パターン

→ 単一ニューロンの解釈が困難

3.4 特徴の可視化

  • 最大活性化例:ニューロンを最も活性化する入力
  • Feature Visualization:活性化を最大化する画像生成
  • Dataset Examples:データセット内の最大活性化例

4. 解析手法

4.1 Activation Patching

特定の活性化を別の値に置き換えて因果関係を検証。

手順:
1. 入力Aでの活性化を記録
2. 入力Bで実行、途中で入力Aの活性化に置換
3. 出力の変化を観察

→ その活性化が出力に与える因果的影響を測定

4.2 Logit Lens / Tuned Lens

中間層の表現を出力語彙に投影:

  • Logit Lens:各層の hidden state を直接unembedding
  • Tuned Lens:学習した線形変換を適用
  • 予測がどの層で形成されるかを可視化

4.3 Probing

中間表現が特定の情報を含むか検証。

手順:
1. 中間層の活性化を抽出
2. 単純な分類器を訓練(対象情報を予測)
3. 分類精度で情報の有無を判断

例: 品詞情報、構文構造、事実知識の存在

4.4 Attention分析

  • Attention Pattern:どのトークンに注目しているか
  • Attention Head機能:各ヘッドの役割特定
  • 注意:Attention ≠ 説明(因果関係ではない)

4.5 Causal Tracing

Meng et al. (2022):事実知識の保存場所を特定。

「エッフェル塔はパリにある」

1. 破損実行:入力を破壊して実行
2. 復元実行:特定の層のみ元の活性化に復元
3. 復元で出力が回復する場所 = 知識の保存場所

→ MLPの中間層に事実知識が保存

5. Sparse Autoencoder

5.1 概要

SAE(Sparse Autoencoder):Superpositionを解消する手法。

  • 活性化をより高次元のスパースな表現に展開
  • 各次元が解釈可能な特徴に対応
  • Anthropicが大規模に適用(2024)

5.2 アーキテクチャ

入力: x ∈ R^d(元の活性化)
エンコード: f = ReLU(W_enc · x + b_enc)
デコード: x̂ = W_dec · f + b_dec

損失 = 再構成誤差 + λ × スパース性ペナルティ

f: スパースな特徴ベクトル(d_sae >> d)

5.3 発見された特徴の例

Templeton et al. (2024):Claude 3 Sonnetでの発見。

特徴 説明
Golden Gate Bridge ゴールデンゲートブリッジの概念
安全関連 安全でない要求の検出
コード脆弱性 セキュリティ問題の認識
欺瞞 嘘・騙すことの概念

5.4 特徴への介入

発見した特徴を操作して動作を変更:

  • 特徴の活性化を増減
  • 特定の概念を強制的に活性化
  • 例:「Golden Gate Bridge特徴」を強制→すべての回答がGGBに関連

5.5 スケーリング

  • 数百万の解釈可能な特徴を発見
  • より大きなモデルでより多くの特徴
  • 計算コストが課題

6. 応用と課題

6.1 応用

  • 有害動作の理解:なぜ有害な出力が生成されるか
  • バイアスの検出:不公平な判断の原因特定
  • モデル編集:特定の動作を修正
  • 安全性評価:潜在的なリスクの発見

6.2 現在の限界

  • スケール:大規模モデルの完全な理解は困難
  • 完全性:すべての特徴・回路を発見できていない
  • 検証:発見した機構の正確性の確認
  • 自動化:手作業が多く残る

6.3 今後の方向性

  • 自動化された回路発見
  • より大きなモデルへのスケーリング
  • 発見した知見のアライメントへの応用
  • リアルタイムの解釈・監視

7. 参考文献

基礎

  • Olah et al. (2020). "Zoom In: An Introduction to Circuits" Distill
  • Elhage et al. (2022). "Toy Models of Superposition" Anthropic
  • Olsson et al. (2022). "In-context Learning and Induction Heads" Anthropic

手法

  • Meng et al. (2022). "Locating and Editing Factual Associations in GPT" NeurIPS
  • Conmy et al. (2023). "Towards Automated Circuit Discovery for Mechanistic Interpretability" NeurIPS

SAE

  • Bricken et al. (2023). "Towards Monosemanticity" Anthropic
  • Templeton et al. (2024). "Scaling Monosemanticity" Anthropic