1. 概要
1.1 Mechanistic Interpretabilityとは
ニューラルネットワークが「どのように」計算を行っているかを理解する研究分野。
- 目標:モデルの内部機構をリバースエンジニアリング
- アプローチ:個々のニューロン・回路の役割を特定
- 重要性:AIの安全性・信頼性の基盤
1.2 なぜ重要か
| 目的 |
説明 |
| 安全性 |
有害な動作の原因を特定・修正 |
| 信頼性 |
なぜその出力かを説明可能に |
| 改善 |
弱点の発見と修正 |
| 科学的理解 |
知能の計算原理を解明 |
1.3 解釈可能性の種類
- 事後的説明:入出力の関係を説明(LIME、SHAP)
- メカニスティック:内部の計算過程を理解(本ページ)
- 概念的:学習された概念・表現を分析
2. 回路(Circuits)
2.1 回路仮説
Olah et al. (2020)による仮説:
- ニューラルネットワークは解釈可能な特徴を学習
- 特徴は回路によって接続される
- 回路はより大きな回路の部品となる
2.2 回路の例
| 回路 |
機能 |
| エッジ検出器 |
画像の輪郭を検出 |
| 曲線検出器 |
曲線パターンを認識 |
| Indirect Object ID |
間接目的語を特定(LLM) |
| Induction Head |
パターン補完(LLM) |
2.3 Induction Head
Olsson et al. (2022):LLMの重要な回路。
入力: "... A B ... A"
出力: "B" を予測
仕組み:
1. 現在位置から前を検索(Aを探す)
2. 前回のAの次のトークン(B)を取得
3. Bを次のトークンとして予測
→ In-context learningの基盤
2.4 回路の発見方法
- 特定のタスク・振る舞いを選択
- 関連する活性化パターンを特定
- 因果的介入で重要な部分を検証
- 回路の構造を記述
3. 特徴(Features)
3.1 特徴とは
モデルが学習した「意味のある方向」や「概念」。
- 単一ニューロン ≠ 単一特徴(多くの場合)
- 特徴は複数ニューロンの組み合わせで表現
- Superposition:1つのニューロンが複数の特徴を表現
3.2 Superposition問題
Elhage et al. (2022):
- ニューロン数 < 表現したい特徴数
- モデルは特徴を「重ね合わせて」表現
- 解釈を困難にする主要な課題
3.3 Polysemanticity
1つのニューロンが複数の無関係な概念に反応。
例:あるニューロンが以下すべてに反応
- 「学術論文」のテキスト
- 「韓国語」の文章
- 特定の構文パターン
→ 単一ニューロンの解釈が困難
3.4 特徴の可視化
- 最大活性化例:ニューロンを最も活性化する入力
- Feature Visualization:活性化を最大化する画像生成
- Dataset Examples:データセット内の最大活性化例
4. 解析手法
4.1 Activation Patching
特定の活性化を別の値に置き換えて因果関係を検証。
手順:
1. 入力Aでの活性化を記録
2. 入力Bで実行、途中で入力Aの活性化に置換
3. 出力の変化を観察
→ その活性化が出力に与える因果的影響を測定
4.2 Logit Lens / Tuned Lens
中間層の表現を出力語彙に投影:
- Logit Lens:各層の hidden state を直接unembedding
- Tuned Lens:学習した線形変換を適用
- 予測がどの層で形成されるかを可視化
4.3 Probing
中間表現が特定の情報を含むか検証。
手順:
1. 中間層の活性化を抽出
2. 単純な分類器を訓練(対象情報を予測)
3. 分類精度で情報の有無を判断
例: 品詞情報、構文構造、事実知識の存在
4.4 Attention分析
- Attention Pattern:どのトークンに注目しているか
- Attention Head機能:各ヘッドの役割特定
- 注意:Attention ≠ 説明(因果関係ではない)
4.5 Causal Tracing
Meng et al. (2022):事実知識の保存場所を特定。
「エッフェル塔はパリにある」
1. 破損実行:入力を破壊して実行
2. 復元実行:特定の層のみ元の活性化に復元
3. 復元で出力が回復する場所 = 知識の保存場所
→ MLPの中間層に事実知識が保存
5. Sparse Autoencoder
5.1 概要
SAE(Sparse Autoencoder):Superpositionを解消する手法。
- 活性化をより高次元のスパースな表現に展開
- 各次元が解釈可能な特徴に対応
- Anthropicが大規模に適用(2024)
5.2 アーキテクチャ
入力: x ∈ R^d(元の活性化)
エンコード: f = ReLU(W_enc · x + b_enc)
デコード: x̂ = W_dec · f + b_dec
損失 = 再構成誤差 + λ × スパース性ペナルティ
f: スパースな特徴ベクトル(d_sae >> d)
5.3 発見された特徴の例
Templeton et al. (2024):Claude 3 Sonnetでの発見。
| 特徴 |
説明 |
| Golden Gate Bridge |
ゴールデンゲートブリッジの概念 |
| 安全関連 |
安全でない要求の検出 |
| コード脆弱性 |
セキュリティ問題の認識 |
| 欺瞞 |
嘘・騙すことの概念 |
5.4 特徴への介入
発見した特徴を操作して動作を変更:
- 特徴の活性化を増減
- 特定の概念を強制的に活性化
- 例:「Golden Gate Bridge特徴」を強制→すべての回答がGGBに関連
5.5 スケーリング
- 数百万の解釈可能な特徴を発見
- より大きなモデルでより多くの特徴
- 計算コストが課題
6. 応用と課題
6.1 応用
- 有害動作の理解:なぜ有害な出力が生成されるか
- バイアスの検出:不公平な判断の原因特定
- モデル編集:特定の動作を修正
- 安全性評価:潜在的なリスクの発見
6.2 現在の限界
- スケール:大規模モデルの完全な理解は困難
- 完全性:すべての特徴・回路を発見できていない
- 検証:発見した機構の正確性の確認
- 自動化:手作業が多く残る
6.3 今後の方向性
- 自動化された回路発見
- より大きなモデルへのスケーリング
- 発見した知見のアライメントへの応用
- リアルタイムの解釈・監視
7. 参考文献
基礎
- Olah et al. (2020). "Zoom In: An Introduction to Circuits" Distill
- Elhage et al. (2022). "Toy Models of Superposition" Anthropic
- Olsson et al. (2022). "In-context Learning and Induction Heads" Anthropic
手法
- Meng et al. (2022). "Locating and Editing Factual Associations in GPT" NeurIPS
- Conmy et al. (2023). "Towards Automated Circuit Discovery for Mechanistic Interpretability" NeurIPS
SAE
- Bricken et al. (2023). "Towards Monosemanticity" Anthropic
- Templeton et al. (2024). "Scaling Monosemanticity" Anthropic