1. 問題設定と目的
1.1 教師なし学習の定義
入力データ $\{x_i\}_{i=1}^n$ のみが与えられ、ラベル $y$ が存在しない設定。データの内在的構造、パターン、表現を発見することが目的。
主要タスク:
- クラスタリング:類似データのグループ化
- 次元削減:高次元データの低次元表現
- 密度推定:データ生成分布 $p(x)$ の推定
- 生成モデル:新しいデータサンプルの生成
- 表現学習:下流タスクに有用な特徴抽出
1.2 評価の困難さ
ラベルがないため客観的評価が困難。内部評価(シルエットスコア等)と外部評価(下流タスク性能)を併用。
2. クラスタリング
2.1 分割クラスタリング
k-means
最も基本的な手法。クラスタ内分散の最小化。
$$\min_{\mu_1,\ldots,\mu_k} \sum_{i=1}^n \min_j \|x_i - \mu_j\|^2$$
Lloyd's algorithm(1982)による反復最適化。局所解への収束、k の事前指定が必要。
k-means++(Arthur & Vassilvitskii, 2007)
初期化の改善。$O(\log k)$ 近似保証。
主要論文:
- Lloyd (1982) "Least squares quantization in PCM", IEEE Trans. Information Theory
- Arthur & Vassilvitskii (2007) "k-means++: The Advantages of Careful Seeding", SODA
2.2 階層的クラスタリング
凝集型(ボトムアップ)と分割型(トップダウン)。デンドログラムによる可視化。
リンク法:Single、Complete、Average、Ward
2.3 密度ベースクラスタリング
DBSCAN(Ester et al., 1996)
任意形状のクラスタ検出。ノイズ点の識別。パラメータ:$\epsilon$(近傍半径)、MinPts。
HDBSCAN(Campello et al., 2013)
階層的密度ベース。$\epsilon$ の自動選択。
主要論文:
- Ester et al. (1996) "A Density-Based Algorithm for Discovering Clusters", KDD
- Campello et al. (2013) "Density-Based Clustering Based on Hierarchical Density Estimates", PAKDD
2.4 スペクトラルクラスタリング
類似度グラフのラプラシアン固有ベクトルを使用。非凸クラスタに有効。
主要論文:
- Ng et al. (2001) "On Spectral Clustering: Analysis and an Algorithm", NIPS
- von Luxburg (2007) "A Tutorial on Spectral Clustering", Statistics and Computing
3. 次元削減
3.1 線形手法
主成分分析(PCA)
分散最大化の方向への射影。共分散行列の固有値分解。
$$\max_w \frac{w^T \Sigma w}{w^T w}$$
最適解は最大固有値に対応する固有ベクトル。
因子分析
潜在因子モデル。$x = Wz + \mu + \epsilon$
独立成分分析(ICA)
統計的独立な成分への分解。ブラインド信号分離。
主要論文:
- Pearson (1901) "On Lines and Planes of Closest Fit", Philosophical Magazine
- Hyvärinen & Oja (2000) "Independent Component Analysis: Algorithms and Applications", Neural Networks
3.2 非線形手法(多様体学習)
t-SNE(van der Maaten & Hinton, 2008)
高次元での類似度分布と低次元での類似度分布のKLダイバージェンスを最小化。可視化に広く使用。
UMAP(McInnes et al., 2018)
位相的データ解析に基づく。t-SNEより高速、グローバル構造を保持。
Isomap、LLE、Laplacian Eigenmaps
多様体仮説に基づく古典的手法。
主要論文:
- van der Maaten & Hinton (2008) "Visualizing Data using t-SNE", JMLR
- McInnes et al. (2018) "UMAP: Uniform Manifold Approximation and Projection", arXiv
- Tenenbaum et al. (2000) "A Global Geometric Framework for Nonlinear Dimensionality Reduction (Isomap)", Science
4. 密度推定
4.1 パラメトリック手法
ガウス混合モデル(GMM)
$k$個のガウス分布の重み付き和。ソフトクラスタリングとしても使用。
$$p(x) = \sum_{k=1}^K \pi_k \mathcal{N}(x | \mu_k, \Sigma_k)$$
EMアルゴリズムによる最尤推定。
主要論文:
- Dempster et al. (1977) "Maximum Likelihood from Incomplete Data via the EM Algorithm", JRSS
4.2 ノンパラメトリック手法
カーネル密度推定(KDE)
$$\hat{p}(x) = \frac{1}{nh} \sum_{i=1}^n K\left(\frac{x - x_i}{h}\right)$$
バンド幅$h$の選択が重要。次元の呪いの影響を受けやすい。
4.3 正規化フロー
可逆変換の合成により複雑な分布を表現。厳密な尤度計算が可能。
主要論文:
- Rezende & Mohamed (2015) "Variational Inference with Normalizing Flows", ICML
- Dinh et al. (2017) "Density estimation using Real-NVP", ICLR
- Kingma & Dhariwal (2018) "Glow: Generative Flow with Invertible 1x1 Convolutions", NeurIPS
5. 生成モデル
5.1 変分オートエンコーダ(VAE)
潜在変数モデルの変分推論。エンコーダ $q_\phi(z|x)$ とデコーダ $p_\theta(x|z)$。
ELBO(Evidence Lower Bound):
$$\log p(x) \geq \mathbb{E}_{q(z|x)}[\log p(x|z)] - D_{KL}(q(z|x) \| p(z))$$
主要論文:
- Kingma & Welling (2014) "Auto-Encoding Variational Bayes", ICLR
- Rezende et al. (2014) "Stochastic Backpropagation and Approximate Inference", ICML
5.2 敵対的生成ネットワーク(GAN)
生成器 $G$ と識別器 $D$ のミニマックスゲーム。
$$\min_G \max_D \mathbb{E}_{x \sim p_{data}}[\log D(x)] + \mathbb{E}_{z \sim p_z}[\log(1 - D(G(z)))]$$
変種:DCGAN、StyleGAN、BigGAN、Progressive GAN
課題:モード崩壊、訓練不安定性
主要論文:
- Goodfellow et al. (2014) "Generative Adversarial Nets", NeurIPS
- Radford et al. (2016) "Unsupervised Representation Learning with DCGANs", ICLR
- Karras et al. (2019) "A Style-Based Generator Architecture (StyleGAN)", CVPR
- Brock et al. (2019) "Large Scale GAN Training for High Fidelity Image Synthesis (BigGAN)", ICLR
5.3 拡散モデル
ノイズ除去による生成。現在の画像生成の主流。
→ 詳細は トップページのマルチモーダルセクション参照
主要論文:
- Ho et al. (2020) "Denoising Diffusion Probabilistic Models", NeurIPS
- Song et al. (2021) "Score-Based Generative Modeling through SDEs", ICLR
6. 自己教師あり学習
6.1 対照学習(Contrastive Learning)
同じサンプルの異なるビュー(正例)を近づけ、異なるサンプル(負例)を遠ざける。
InfoNCE損失:
$$\mathcal{L} = -\log \frac{\exp(sim(z_i, z_j)/\tau)}{\sum_{k \neq i} \exp(sim(z_i, z_k)/\tau)}$$
主要論文:
- Chen et al. (2020) "A Simple Framework for Contrastive Learning (SimCLR)", ICML
- He et al. (2020) "Momentum Contrast for Unsupervised Visual Representation Learning (MoCo)", CVPR
- Grill et al. (2020) "Bootstrap Your Own Latent (BYOL)", NeurIPS
6.2 マスク予測
入力の一部をマスクし、それを予測するタスク。BERT(言語)、MAE(画像)。
主要論文:
- Devlin et al. (2019) "BERT: Pre-training of Deep Bidirectional Transformers", NAACL
- He et al. (2022) "Masked Autoencoders Are Scalable Vision Learners", CVPR
6.3 教師なし学習との関係
自己教師あり学習は「疑似ラベル」を自動生成する点で教師あり学習の一形態とも言える。教師なし学習との境界は曖昧化。現代の基盤モデルの事前学習で中心的役割。
7. 参考文献
教科書
- Bishop (2006) "Pattern Recognition and Machine Learning", Chapter 9-12, Springer
- Murphy (2022) "Probabilistic Machine Learning: An Introduction", Chapter 20-21, MIT Press
- Goodfellow et al. (2016) "Deep Learning", Chapter 14-20, MIT Press
サーベイ
- Bengio et al. (2013) "Representation Learning: A Review and New Perspectives", IEEE TPAMI
- Jing & Tian (2020) "Self-Supervised Visual Feature Learning with Deep Neural Networks: A Survey", IEEE TPAMI
- Liu et al. (2021) "Self-Supervised Learning: Generative or Contrastive", IEEE TKDE