Mechanistic Interpretability - AI入門 - はとはとプロジェクト

1. 概要

1.1 Mechanistic Interpretabilityとは

ニューラルネットワークが「どのように」計算を行っているかを理解する研究分野。

目標：モデルの内部機構をリバースエンジニアリング
アプローチ：個々のニューロン・回路の役割を特定
重要性：AIの安全性・信頼性の基盤

1.2 なぜ重要か

目的	説明
安全性	有害な動作の原因を特定・修正
信頼性	なぜその出力かを説明可能に
改善	弱点の発見と修正
科学的理解	知能の計算原理を解明

1.3 解釈可能性の種類

事後的説明：入出力の関係を説明（LIME、SHAP）
メカニスティック：内部の計算過程を理解（本ページ）
概念的：学習された概念・表現を分析

2. 回路（Circuits）

2.1 回路仮説

Olah et al. (2020)による仮説：

ニューラルネットワークは解釈可能な特徴を学習
特徴は回路によって接続される
回路はより大きな回路の部品となる

2.2 回路の例

回路	機能
エッジ検出器	画像の輪郭を検出
曲線検出器	曲線パターンを認識
Indirect Object ID	間接目的語を特定（LLM）
Induction Head	パターン補完（LLM）

2.3 Induction Head

Olsson et al. (2022)：LLMの重要な回路。

入力: "... A B ... A"
出力: "B" を予測

仕組み:
1. 現在位置から前を検索（Aを探す）
2. 前回のAの次のトークン（B）を取得
3. Bを次のトークンとして予測

→ In-context learningの基盤

2.4 回路の発見方法

特定のタスク・振る舞いを選択
関連する活性化パターンを特定
因果的介入で重要な部分を検証
回路の構造を記述

3. 特徴（Features）

3.1 特徴とは

モデルが学習した「意味のある方向」や「概念」。

単一ニューロン ≠ 単一特徴（多くの場合）
特徴は複数ニューロンの組み合わせで表現
Superposition：1つのニューロンが複数の特徴を表現

3.2 Superposition問題

Elhage et al. (2022)：

ニューロン数 < 表現したい特徴数
モデルは特徴を「重ね合わせて」表現
解釈を困難にする主要な課題

3.3 Polysemanticity

1つのニューロンが複数の無関係な概念に反応。

例：あるニューロンが以下すべてに反応
- 「学術論文」のテキスト
- 「韓国語」の文章
- 特定の構文パターン

→ 単一ニューロンの解釈が困難

3.4 特徴の可視化

最大活性化例：ニューロンを最も活性化する入力
Feature Visualization：活性化を最大化する画像生成
Dataset Examples：データセット内の最大活性化例

4. 解析手法

4.1 Activation Patching

特定の活性化を別の値に置き換えて因果関係を検証。

手順:
1. 入力Aでの活性化を記録
2. 入力Bで実行、途中で入力Aの活性化に置換
3. 出力の変化を観察

→ その活性化が出力に与える因果的影響を測定

4.2 Logit Lens / Tuned Lens

中間層の表現を出力語彙に投影：

Logit Lens：各層の hidden state を直接unembedding
Tuned Lens：学習した線形変換を適用
予測がどの層で形成されるかを可視化

4.3 Probing

中間表現が特定の情報を含むか検証。

手順:
1. 中間層の活性化を抽出
2. 単純な分類器を訓練（対象情報を予測）
3. 分類精度で情報の有無を判断

例: 品詞情報、構文構造、事実知識の存在

4.4 Attention分析

Attention Pattern：どのトークンに注目しているか
Attention Head機能：各ヘッドの役割特定
注意：Attention ≠ 説明（因果関係ではない）

4.5 Causal Tracing

Meng et al. (2022)：事実知識の保存場所を特定。

「エッフェル塔はパリにある」

1. 破損実行：入力を破壊して実行
2. 復元実行：特定の層のみ元の活性化に復元
3. 復元で出力が回復する場所 = 知識の保存場所

→ MLPの中間層に事実知識が保存

5. Sparse Autoencoder

5.1 概要

SAE（Sparse Autoencoder）：Superpositionを解消する手法。

活性化をより高次元のスパースな表現に展開
各次元が解釈可能な特徴に対応
Anthropicが大規模に適用（2024）

5.2 アーキテクチャ

入力: x ∈ R^d（元の活性化）
エンコード: f = ReLU(W_enc · x + b_enc)
デコード: x̂ = W_dec · f + b_dec

損失 = 再構成誤差 + λ × スパース性ペナルティ

f: スパースな特徴ベクトル（d_sae >> d）

5.3 発見された特徴の例

Templeton et al. (2024)：Claude 3 Sonnetでの発見。

特徴	説明
Golden Gate Bridge	ゴールデンゲートブリッジの概念
安全関連	安全でない要求の検出
コード脆弱性	セキュリティ問題の認識
欺瞞	嘘・騙すことの概念

5.4 特徴への介入

発見した特徴を操作して動作を変更：

特徴の活性化を増減
特定の概念を強制的に活性化
例：「Golden Gate Bridge特徴」を強制→すべての回答がGGBに関連

5.5 スケーリング

数百万の解釈可能な特徴を発見
より大きなモデルでより多くの特徴
計算コストが課題

6. 応用と課題

6.1 応用

有害動作の理解：なぜ有害な出力が生成されるか
バイアスの検出：不公平な判断の原因特定
モデル編集：特定の動作を修正
安全性評価：潜在的なリスクの発見

6.2 現在の限界

スケール：大規模モデルの完全な理解は困難
完全性：すべての特徴・回路を発見できていない
検証：発見した機構の正確性の確認
自動化：手作業が多く残る

6.3 今後の方向性

自動化された回路発見
より大きなモデルへのスケーリング
発見した知見のアライメントへの応用
リアルタイムの解釈・監視

7. 参考文献

基礎

Olah et al. (2020). "Zoom In: An Introduction to Circuits" Distill
Elhage et al. (2022). "Toy Models of Superposition" Anthropic
Olsson et al. (2022). "In-context Learning and Induction Heads" Anthropic

手法

Meng et al. (2022). "Locating and Editing Factual Associations in GPT" NeurIPS
Conmy et al. (2023). "Towards Automated Circuit Discovery for Mechanistic Interpretability" NeurIPS

SAE

Bricken et al. (2023). "Towards Monosemanticity" Anthropic
Templeton et al. (2024). "Scaling Monosemanticity" Anthropic