1. 概要
1.1 なぜPEFTか
- Full fine-tuning: 全パラメータ更新 → コスト大
- PEFT: 少数のパラメータのみ更新 → 効率的
- 性能は同等かそれに近い
1.2 手法の分類
| カテゴリ | 手法 |
| Adapter | Adapter, LoRA |
| Prompt-based | Prefix-tuning, P-tuning |
| Selective | BitFit, Diff Pruning |
2. LoRA
2.1 アイデア
重み更新を低ランク行列で近似:
W' = W + ΔW = W + BA
W: 元の重み (d × k)
B: (d × r), A: (r × k)
r << min(d, k): ランク
訓練パラメータ: A, B のみ
元のW は凍結
2.2 利点
- メモリ効率: 1%未満のパラメータで同等性能
- 推論コストなし: W' = W + BAをマージ可能
- タスク切り替え: アダプターの差し替えのみ
2.3 QLoRA
LoRA + 量子化:
- 基本モデルを4bit量子化
- LoRA部分は高精度で学習
- 大幅なメモリ削減
3. Adapter
3.1 構造
Transformerの各層に小さなモジュールを挿入:
x → LayerNorm → Attention → + → LayerNorm → FFN → + → 出力
↑ ↑
Adapter Adapter
Adapter: Down-project → 非線形 → Up-project
3.2 特徴
- ボトルネック構造で次元削減
- 元のモデルは完全に凍結
- わずかな推論オーバーヘッド
4. Prompt-based手法
4.1 Prefix-tuning
入力の先頭に学習可能な「仮想トークン」を追加:
[P₁, P₂, ..., Pₖ, x₁, x₂, ...]
Pᵢ: 学習可能なプレフィックスベクトル
xᵢ: 実際の入力トークン
4.2 P-tuning v2
- 各層にプロンプトを挿入
- より表現力が高い
- 中小規模モデルでも有効
5. 比較
| 手法 | パラメータ | 推論コスト | 性能 |
| Full FT | 100% | - | 高 |
| LoRA | 0.1-1% | なし(マージ後) | 高 |
| Adapter | 1-5% | わずか | 高 |
| Prefix | <0.1% | 長いプロンプト | 中 |
6. 参考文献
- Hu et al. (2022). "LoRA: Low-Rank Adaptation of Large Language Models" ICLR
- Houlsby et al. (2019). "Parameter-Efficient Transfer Learning for NLP" ICML
- Li & Liang (2021). "Prefix-Tuning" ACL
- Dettmers et al. (2023). "QLoRA" NeurIPS