07. 教師なし学習

ラベルなしデータから構造を発見する学習パラダイム。クラスタリング、次元削減、密度推定、生成モデル。自己教師あり学習との境界が曖昧化する現代的展開を含む。

最終更新:2025年11月

1. 問題設定と目的

1.1 教師なし学習の定義

入力データ $\{x_i\}_{i=1}^n$ のみが与えられ、ラベル $y$ が存在しない設定。データの内在的構造、パターン、表現を発見することが目的。

主要タスク:

  • クラスタリング:類似データのグループ化
  • 次元削減:高次元データの低次元表現
  • 密度推定:データ生成分布 $p(x)$ の推定
  • 生成モデル:新しいデータサンプルの生成
  • 表現学習:下流タスクに有用な特徴抽出

1.2 評価の困難さ

ラベルがないため客観的評価が困難。内部評価(シルエットスコア等)と外部評価(下流タスク性能)を併用。

2. クラスタリング

2.1 分割クラスタリング

k-means

最も基本的な手法。クラスタ内分散の最小化。

$$\min_{\mu_1,\ldots,\mu_k} \sum_{i=1}^n \min_j \|x_i - \mu_j\|^2$$

Lloyd's algorithm(1982)による反復最適化。局所解への収束、k の事前指定が必要。

k-means++(Arthur & Vassilvitskii, 2007)

初期化の改善。$O(\log k)$ 近似保証。

主要論文:

  • Lloyd (1982) "Least squares quantization in PCM", IEEE Trans. Information Theory
  • Arthur & Vassilvitskii (2007) "k-means++: The Advantages of Careful Seeding", SODA

2.2 階層的クラスタリング

凝集型(ボトムアップ)と分割型(トップダウン)。デンドログラムによる可視化。

リンク法:Single、Complete、Average、Ward

2.3 密度ベースクラスタリング

DBSCAN(Ester et al., 1996)

任意形状のクラスタ検出。ノイズ点の識別。パラメータ:$\epsilon$(近傍半径)、MinPts。

HDBSCAN(Campello et al., 2013)

階層的密度ベース。$\epsilon$ の自動選択。

主要論文:

  • Ester et al. (1996) "A Density-Based Algorithm for Discovering Clusters", KDD
  • Campello et al. (2013) "Density-Based Clustering Based on Hierarchical Density Estimates", PAKDD

2.4 スペクトラルクラスタリング

類似度グラフのラプラシアン固有ベクトルを使用。非凸クラスタに有効。

主要論文:

  • Ng et al. (2001) "On Spectral Clustering: Analysis and an Algorithm", NIPS
  • von Luxburg (2007) "A Tutorial on Spectral Clustering", Statistics and Computing

3. 次元削減

3.1 線形手法

主成分分析(PCA)

分散最大化の方向への射影。共分散行列の固有値分解。

$$\max_w \frac{w^T \Sigma w}{w^T w}$$

最適解は最大固有値に対応する固有ベクトル。

因子分析

潜在因子モデル。$x = Wz + \mu + \epsilon$

独立成分分析(ICA)

統計的独立な成分への分解。ブラインド信号分離。

主要論文:

  • Pearson (1901) "On Lines and Planes of Closest Fit", Philosophical Magazine
  • Hyvärinen & Oja (2000) "Independent Component Analysis: Algorithms and Applications", Neural Networks

3.2 非線形手法(多様体学習)

t-SNE(van der Maaten & Hinton, 2008)

高次元での類似度分布と低次元での類似度分布のKLダイバージェンスを最小化。可視化に広く使用。

UMAP(McInnes et al., 2018)

位相的データ解析に基づく。t-SNEより高速、グローバル構造を保持。

Isomap、LLE、Laplacian Eigenmaps

多様体仮説に基づく古典的手法。

主要論文:

  • van der Maaten & Hinton (2008) "Visualizing Data using t-SNE", JMLR
  • McInnes et al. (2018) "UMAP: Uniform Manifold Approximation and Projection", arXiv
  • Tenenbaum et al. (2000) "A Global Geometric Framework for Nonlinear Dimensionality Reduction (Isomap)", Science

4. 密度推定

4.1 パラメトリック手法

ガウス混合モデル(GMM)

$k$個のガウス分布の重み付き和。ソフトクラスタリングとしても使用。

$$p(x) = \sum_{k=1}^K \pi_k \mathcal{N}(x | \mu_k, \Sigma_k)$$

EMアルゴリズムによる最尤推定。

主要論文:

  • Dempster et al. (1977) "Maximum Likelihood from Incomplete Data via the EM Algorithm", JRSS

4.2 ノンパラメトリック手法

カーネル密度推定(KDE)

$$\hat{p}(x) = \frac{1}{nh} \sum_{i=1}^n K\left(\frac{x - x_i}{h}\right)$$

バンド幅$h$の選択が重要。次元の呪いの影響を受けやすい。

4.3 正規化フロー

可逆変換の合成により複雑な分布を表現。厳密な尤度計算が可能。

主要論文:

  • Rezende & Mohamed (2015) "Variational Inference with Normalizing Flows", ICML
  • Dinh et al. (2017) "Density estimation using Real-NVP", ICLR
  • Kingma & Dhariwal (2018) "Glow: Generative Flow with Invertible 1x1 Convolutions", NeurIPS

5. 生成モデル

5.1 変分オートエンコーダ(VAE)

潜在変数モデルの変分推論。エンコーダ $q_\phi(z|x)$ とデコーダ $p_\theta(x|z)$。

ELBO(Evidence Lower Bound):

$$\log p(x) \geq \mathbb{E}_{q(z|x)}[\log p(x|z)] - D_{KL}(q(z|x) \| p(z))$$

主要論文:

  • Kingma & Welling (2014) "Auto-Encoding Variational Bayes", ICLR
  • Rezende et al. (2014) "Stochastic Backpropagation and Approximate Inference", ICML

5.2 敵対的生成ネットワーク(GAN)

生成器 $G$ と識別器 $D$ のミニマックスゲーム。

$$\min_G \max_D \mathbb{E}_{x \sim p_{data}}[\log D(x)] + \mathbb{E}_{z \sim p_z}[\log(1 - D(G(z)))]$$

変種:DCGAN、StyleGAN、BigGAN、Progressive GAN

課題:モード崩壊、訓練不安定性

主要論文:

  • Goodfellow et al. (2014) "Generative Adversarial Nets", NeurIPS
  • Radford et al. (2016) "Unsupervised Representation Learning with DCGANs", ICLR
  • Karras et al. (2019) "A Style-Based Generator Architecture (StyleGAN)", CVPR
  • Brock et al. (2019) "Large Scale GAN Training for High Fidelity Image Synthesis (BigGAN)", ICLR

5.3 拡散モデル

ノイズ除去による生成。現在の画像生成の主流。

→ 詳細は トップページのマルチモーダルセクション参照

主要論文:

  • Ho et al. (2020) "Denoising Diffusion Probabilistic Models", NeurIPS
  • Song et al. (2021) "Score-Based Generative Modeling through SDEs", ICLR

6. 自己教師あり学習

6.1 対照学習(Contrastive Learning)

同じサンプルの異なるビュー(正例)を近づけ、異なるサンプル(負例)を遠ざける。

InfoNCE損失:

$$\mathcal{L} = -\log \frac{\exp(sim(z_i, z_j)/\tau)}{\sum_{k \neq i} \exp(sim(z_i, z_k)/\tau)}$$

主要論文:

  • Chen et al. (2020) "A Simple Framework for Contrastive Learning (SimCLR)", ICML
  • He et al. (2020) "Momentum Contrast for Unsupervised Visual Representation Learning (MoCo)", CVPR
  • Grill et al. (2020) "Bootstrap Your Own Latent (BYOL)", NeurIPS

6.2 マスク予測

入力の一部をマスクし、それを予測するタスク。BERT(言語)、MAE(画像)。

主要論文:

  • Devlin et al. (2019) "BERT: Pre-training of Deep Bidirectional Transformers", NAACL
  • He et al. (2022) "Masked Autoencoders Are Scalable Vision Learners", CVPR

6.3 教師なし学習との関係

自己教師あり学習は「疑似ラベル」を自動生成する点で教師あり学習の一形態とも言える。教師なし学習との境界は曖昧化。現代の基盤モデルの事前学習で中心的役割。

7. 参考文献

教科書

  • Bishop (2006) "Pattern Recognition and Machine Learning", Chapter 9-12, Springer
  • Murphy (2022) "Probabilistic Machine Learning: An Introduction", Chapter 20-21, MIT Press
  • Goodfellow et al. (2016) "Deep Learning", Chapter 14-20, MIT Press

サーベイ

  • Bengio et al. (2013) "Representation Learning: A Review and New Perspectives", IEEE TPAMI
  • Jing & Tian (2020) "Self-Supervised Visual Feature Learning with Deep Neural Networks: A Survey", IEEE TPAMI
  • Liu et al. (2021) "Self-Supervised Learning: Generative or Contrastive", IEEE TKDE