07. 教師なし学習 - AI入門 - はとはとプロジェクト

1. 問題設定と目的

1.1 教師なし学習の定義

入力データ $\{x_i\}_{i=1}^n$ のみが与えられ、ラベル $y$ が存在しない設定。データの内在的構造、パターン、表現を発見することが目的。

主要タスク：

クラスタリング：類似データのグループ化
次元削減：高次元データの低次元表現
密度推定：データ生成分布 $p(x)$ の推定
生成モデル：新しいデータサンプルの生成
表現学習：下流タスクに有用な特徴抽出

1.2 評価の困難さ

ラベルがないため客観的評価が困難。内部評価（シルエットスコア等）と外部評価（下流タスク性能）を併用。

2. クラスタリング

2.1 分割クラスタリング

k-means

最も基本的な手法。クラスタ内分散の最小化。

$$\min_{\mu_1,\ldots,\mu_k} \sum_{i=1}^n \min_j \|x_i - \mu_j\|^2$$

Lloyd's algorithm（1982）による反復最適化。局所解への収束、k の事前指定が必要。

k-means++（Arthur & Vassilvitskii, 2007）

初期化の改善。$O(\log k)$ 近似保証。

主要論文：

Lloyd (1982) "Least squares quantization in PCM", IEEE Trans. Information Theory
Arthur & Vassilvitskii (2007) "k-means++: The Advantages of Careful Seeding", SODA

2.2 階層的クラスタリング

凝集型（ボトムアップ）と分割型（トップダウン）。デンドログラムによる可視化。

リンク法：Single、Complete、Average、Ward

2.3 密度ベースクラスタリング

DBSCAN（Ester et al., 1996）

任意形状のクラスタ検出。ノイズ点の識別。パラメータ：$\epsilon$（近傍半径）、MinPts。

HDBSCAN（Campello et al., 2013）

階層的密度ベース。$\epsilon$ の自動選択。

主要論文：

Ester et al. (1996) "A Density-Based Algorithm for Discovering Clusters", KDD
Campello et al. (2013) "Density-Based Clustering Based on Hierarchical Density Estimates", PAKDD

2.4 スペクトラルクラスタリング

類似度グラフのラプラシアン固有ベクトルを使用。非凸クラスタに有効。

主要論文：

Ng et al. (2001) "On Spectral Clustering: Analysis and an Algorithm", NIPS
von Luxburg (2007) "A Tutorial on Spectral Clustering", Statistics and Computing

3. 次元削減

3.1 線形手法

主成分分析（PCA）

分散最大化の方向への射影。共分散行列の固有値分解。

$$\max_w \frac{w^T \Sigma w}{w^T w}$$

最適解は最大固有値に対応する固有ベクトル。

因子分析

潜在因子モデル。$x = Wz + \mu + \epsilon$

独立成分分析（ICA）

統計的独立な成分への分解。ブラインド信号分離。

主要論文：

Pearson (1901) "On Lines and Planes of Closest Fit", Philosophical Magazine
Hyvärinen & Oja (2000) "Independent Component Analysis: Algorithms and Applications", Neural Networks

3.2 非線形手法（多様体学習）

t-SNE（van der Maaten & Hinton, 2008）

高次元での類似度分布と低次元での類似度分布のKLダイバージェンスを最小化。可視化に広く使用。

UMAP（McInnes et al., 2018）

位相的データ解析に基づく。t-SNEより高速、グローバル構造を保持。

Isomap、LLE、Laplacian Eigenmaps

多様体仮説に基づく古典的手法。

主要論文：

van der Maaten & Hinton (2008) "Visualizing Data using t-SNE", JMLR
McInnes et al. (2018) "UMAP: Uniform Manifold Approximation and Projection", arXiv
Tenenbaum et al. (2000) "A Global Geometric Framework for Nonlinear Dimensionality Reduction (Isomap)", Science

4. 密度推定

4.1 パラメトリック手法

ガウス混合モデル（GMM）

$k$個のガウス分布の重み付き和。ソフトクラスタリングとしても使用。

$$p(x) = \sum_{k=1}^K \pi_k \mathcal{N}(x | \mu_k, \Sigma_k)$$

EMアルゴリズムによる最尤推定。

主要論文：

Dempster et al. (1977) "Maximum Likelihood from Incomplete Data via the EM Algorithm", JRSS

4.2 ノンパラメトリック手法

カーネル密度推定（KDE）

$$\hat{p}(x) = \frac{1}{nh} \sum_{i=1}^n K\left(\frac{x - x_i}{h}\right)$$

バンド幅$h$の選択が重要。次元の呪いの影響を受けやすい。

4.3 正規化フロー

可逆変換の合成により複雑な分布を表現。厳密な尤度計算が可能。

主要論文：

Rezende & Mohamed (2015) "Variational Inference with Normalizing Flows", ICML
Dinh et al. (2017) "Density estimation using Real-NVP", ICLR
Kingma & Dhariwal (2018) "Glow: Generative Flow with Invertible 1x1 Convolutions", NeurIPS

5. 生成モデル

5.1 変分オートエンコーダ（VAE）

潜在変数モデルの変分推論。エンコーダ $q_\phi(z|x)$ とデコーダ $p_\theta(x|z)$。

ELBO（Evidence Lower Bound）：

$$\log p(x) \geq \mathbb{E}_{q(z|x)}[\log p(x|z)] - D_{KL}(q(z|x) \| p(z))$$

主要論文：

Kingma & Welling (2014) "Auto-Encoding Variational Bayes", ICLR
Rezende et al. (2014) "Stochastic Backpropagation and Approximate Inference", ICML

5.2 敵対的生成ネットワーク（GAN）

生成器 $G$ と識別器 $D$ のミニマックスゲーム。

$$\min_G \max_D \mathbb{E}_{x \sim p_{data}}[\log D(x)] + \mathbb{E}_{z \sim p_z}[\log(1 - D(G(z)))]$$

変種：DCGAN、StyleGAN、BigGAN、Progressive GAN

課題：モード崩壊、訓練不安定性

主要論文：

Goodfellow et al. (2014) "Generative Adversarial Nets", NeurIPS
Radford et al. (2016) "Unsupervised Representation Learning with DCGANs", ICLR
Karras et al. (2019) "A Style-Based Generator Architecture (StyleGAN)", CVPR
Brock et al. (2019) "Large Scale GAN Training for High Fidelity Image Synthesis (BigGAN)", ICLR

5.3 拡散モデル

ノイズ除去による生成。現在の画像生成の主流。

→ 詳細はトップページのマルチモーダルセクション参照

主要論文：

Ho et al. (2020) "Denoising Diffusion Probabilistic Models", NeurIPS
Song et al. (2021) "Score-Based Generative Modeling through SDEs", ICLR

6. 自己教師あり学習

6.1 対照学習（Contrastive Learning）

同じサンプルの異なるビュー（正例）を近づけ、異なるサンプル（負例）を遠ざける。

InfoNCE損失：

$$\mathcal{L} = -\log \frac{\exp(sim(z_i, z_j)/\tau)}{\sum_{k \neq i} \exp(sim(z_i, z_k)/\tau)}$$

主要論文：

Chen et al. (2020) "A Simple Framework for Contrastive Learning (SimCLR)", ICML
He et al. (2020) "Momentum Contrast for Unsupervised Visual Representation Learning (MoCo)", CVPR
Grill et al. (2020) "Bootstrap Your Own Latent (BYOL)", NeurIPS

6.2 マスク予測

入力の一部をマスクし、それを予測するタスク。BERT（言語）、MAE（画像）。

主要論文：

Devlin et al. (2019) "BERT: Pre-training of Deep Bidirectional Transformers", NAACL
He et al. (2022) "Masked Autoencoders Are Scalable Vision Learners", CVPR

6.3 教師なし学習との関係

自己教師あり学習は「疑似ラベル」を自動生成する点で教師あり学習の一形態とも言える。教師なし学習との境界は曖昧化。現代の基盤モデルの事前学習で中心的役割。

7. 参考文献

教科書

Bishop (2006) "Pattern Recognition and Machine Learning", Chapter 9-12, Springer
Murphy (2022) "Probabilistic Machine Learning: An Introduction", Chapter 20-21, MIT Press
Goodfellow et al. (2016) "Deep Learning", Chapter 14-20, MIT Press

サーベイ

Bengio et al. (2013) "Representation Learning: A Review and New Perspectives", IEEE TPAMI
Jing & Tian (2020) "Self-Supervised Visual Feature Learning with Deep Neural Networks: A Survey", IEEE TPAMI
Liu et al. (2021) "Self-Supervised Learning: Generative or Contrastive", IEEE TKDE