Transformerは位置に不変なため、順序情報の明示的な注入が必要。正弦波エンコーディング、学習可能埋め込み、相対位置表現、RoPE、ALiBiの理論と比較。長文脈対応と外挿性能の観点から現代的手法を解説。
最終更新:2025年11月
Self-Attentionの計算:
$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$この計算は入力トークンの順序を区別しない。「猫が犬を追う」と「犬が猫を追う」が同じ表現になってしまう。
RNNは逐次処理により暗黙的に順序を学習。Transformerでは明示的な位置情報の注入が必要。
Vaswani et al. (2017) のオリジナルTransformerで提案。
$$PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d}}\right)$$ $$PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d}}\right)$$$pos$:位置(0, 1, 2, ...)、$i$:次元インデックス、$d$:埋め込み次元
重要な性質:$PE_{pos+k}$ は $PE_{pos}$ の線形変換で表現可能。
$$PE_{pos+k} = T_k \cdot PE_{pos}$$$T_k$ は位置 $k$ に依存する回転行列。これにより相対位置を学習可能。
利点:
欠点:
位置埋め込みをパラメータとして学習。
$$E_{pos} \in \mathbb{R}^{L \times d}$$$L$:最大系列長、$d$:埋め込み次元
利点:
欠点:
訓練範囲内では正弦波と学習可能はほぼ同等の性能。長文脈への外挿では正弦波がやや優位。
絶対位置より相対位置(トークン間の距離)が重要な場合が多い。
例:「主語の3つ後に動詞」という関係は絶対位置に依存しない。
Attentionスコアに相対位置の埋め込みを追加。
$$e_{ij} = \frac{(x_i W^Q)(x_j W^K + a_{ij}^K)^T}{\sqrt{d_k}}$$$a_{ij}^K$:位置 $i$ と $j$ の相対距離に対応する学習可能ベクトル。
Transformer-XL、XLNetで採用。
Attentionスコアにスカラーバイアスを追加。
$$e_{ij} = \frac{q_i \cdot k_j}{\sqrt{d_k}} + b_{i-j}$$$b_{i-j}$:相対距離 $i-j$ に対応する学習可能スカラー。
バケット化により遠い距離を粗く表現。
主要論文:
Su et al. (2021) による提案。現在のLLMの標準的手法。
核心アイデア:QueryとKeyを位置依存の角度で回転。内積が相対位置のみに依存。
2次元の場合の回転行列:
$$R_\theta = \begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}$$位置 $m$ でのQuery/Keyの変換:
$$\tilde{q}_m = R_{m\theta} q_m, \quad \tilde{k}_n = R_{n\theta} k_n$$内積:
$$\tilde{q}_m^T \tilde{k}_n = q_m^T R_{(m-n)\theta} k_n$$結果が相対位置 $m-n$ のみに依存!
$d$ 次元を $d/2$ 個の2次元ペアに分割し、各ペアに異なる周波数で回転を適用。
$$\theta_i = 10000^{-2i/d}$$正弦波エンコーディングと同様の周波数設計。
Position Interpolation:訓練長を超える位置をスケーリング。
NTK-aware scaling:周波数を適応的に調整。
YaRN:NTK + 高周波外挿の組み合わせ。
これらにより、4Kで訓練したモデルを128K+に拡張可能。
LLaMA、Mistral、Qwen、Gemma、Falcon など、2023年以降のほぼ全てのオープンLLM。
主要論文:
Press et al. (2022) による提案。位置埋め込みを完全に排除。
Attentionスコアに距離に比例したペナルティを追加。
$$\text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} - m \cdot |i - j|\right)$$$m$:ヘッドごとに異なるスロープ(固定、学習なし)
遠いトークンほどAttentionが弱くなるバイアス。
$n$ ヘッドの場合:$m = 2^{-8/n}, 2^{-16/n}, ..., 2^{-8}$
ヘッドごとに異なる「注意の射程」を持つ。
BLOOM、MPT、Falcon(一部)
主要論文:
| 手法 | 外挿性能 | パラメータ | 計算コスト |
|---|---|---|---|
| 正弦波 | 中 | なし | 低 |
| 学習可能 | 低 | $O(L \cdot d)$ | 低 |
| 相対位置 | 中〜高 | $O(L)$または$O(L \cdot d)$ | 中 |
| RoPE | 高 | なし | 低 |
| ALiBi | 非常に高 | なし | 低 |
LLM:RoPEが事実上の標準。長文脈拡張技術との組み合わせ。
Vision Transformer:学習可能な位置埋め込みが依然主流。
特殊用途:ALiBiは極端に長い文脈が必要な場合に有効。