1. 教師なし学習とは

基本概念

教師なし学習は、正解ラベルがないデータから隠れたパターンや構造を発見する機械学習手法です。データ自体に含まれる特徴や関係性を見つけ出すことが目的です。

教師あり学習との違い

項目 教師あり学習 教師なし学習
データ 正解ラベル付き 正解ラベルなし
目的 予測・分類 パターン発見
評価 明確な指標 解釈に依存

主な用途

  • データの探索的分析
  • 顧客セグメンテーション
  • 異常検知
  • データの可視化
  • 前処理(特徴抽出)

2. クラスタリング

概要

似た特徴を持つデータ同士をグループ(クラスタ)に分ける手法です。

K-means法

最も基本的なクラスタリング手法です。

特徴

  • 事前にクラスタ数を指定
  • 球状のクラスタを想定
  • 計算が高速
  • 初期値に結果が依存

応用例

  • 顧客の購買行動による分類
  • 画像の色による分類
  • 遺伝子の発現パターン分析

階層クラスタリング

データを階層的にグループ化する手法です。

特徴

  • クラスタ数を事前に決める必要がない
  • デンドログラム(樹形図)で可視化
  • 計算量が多い

DBSCAN

密度ベースのクラスタリング手法です。

特徴

  • 任意の形状のクラスタを発見
  • 外れ値を自動的に除外
  • パラメータ調整が重要

3. 次元削減

概要

高次元データを低次元に変換して、重要な情報を保ちながらデータを簡約化する手法です。

主成分分析(PCA)

最も一般的な次元削減手法です。

特徴

  • 分散を最大化する方向を発見
  • 線形変換
  • 解釈しやすい

応用例

  • 画像データの圧縮
  • データの可視化
  • ノイズ除去
  • 前処理としての特徴選択

t-SNE

高次元データの可視化に特化した手法です。

特徴

  • 非線形変換
  • 局所的な構造を保持
  • 2次元・3次元への可視化に優秀

UMAP

t-SNEより高速で、大域的構造も保持する手法です。

4. 異常検知

概要

正常なパターンから外れたデータ(異常値)を検出する手法です。

応用分野

  • 不正取引の検出
  • システムの故障予測
  • ネットワーク侵入検知
  • 医療診断での異常発見
  • 製造業での品質管理

主な手法

統計的手法

  • Z-score法
  • 3σ法
  • 四分位範囲法

機械学習ベース

  • One-Class SVM
  • Isolation Forest
  • Local Outlier Factor (LOF)

深層学習ベース

  • オートエンコーダ
  • Variational Autoencoder (VAE)

5. 関連ルール学習

概要

データ間の関連性やルールを発見する手法です。「AならばB」という形式のルールを抽出します。

代表的手法:Apriori算法

頻出アイテム集合とそれらの関連ルールを発見します。

評価指標

支持度(Support)

ルールが適用される頻度

信頼度(Confidence)

条件部が満たされた時に結論部も満たされる確率

リフト値(Lift)

ルールの有用性を示す指標

応用例

  • マーケットバスケット分析
  • 推薦システム
  • ウェブサイトの閲覧パターン分析
  • 遺伝子の相関分析

まとめ

教師なし学習は、正解がないデータから価値ある情報を抽出する強力な手法群です。クラスタリングによる顧客セグメンテーション、次元削減による可視化、異常検知による問題発見など、様々な場面で活用されています。

結果の解釈には専門知識が必要ですが、データに隠れたパターンを発見し、新たな洞察を得るために不可欠な技術です。教師あり学習の前処理としても頻繁に使用されます。