1. 教師なし学習とは
基本概念
教師なし学習は、正解ラベルがないデータから隠れたパターンや構造を発見する機械学習手法です。データ自体に含まれる特徴や関係性を見つけ出すことが目的です。
教師あり学習との違い
項目 | 教師あり学習 | 教師なし学習 |
---|---|---|
データ | 正解ラベル付き | 正解ラベルなし |
目的 | 予測・分類 | パターン発見 |
評価 | 明確な指標 | 解釈に依存 |
主な用途
- データの探索的分析
- 顧客セグメンテーション
- 異常検知
- データの可視化
- 前処理(特徴抽出)
2. クラスタリング
概要
似た特徴を持つデータ同士をグループ(クラスタ)に分ける手法です。
K-means法
最も基本的なクラスタリング手法です。
特徴
- 事前にクラスタ数を指定
- 球状のクラスタを想定
- 計算が高速
- 初期値に結果が依存
応用例
- 顧客の購買行動による分類
- 画像の色による分類
- 遺伝子の発現パターン分析
階層クラスタリング
データを階層的にグループ化する手法です。
特徴
- クラスタ数を事前に決める必要がない
- デンドログラム(樹形図)で可視化
- 計算量が多い
DBSCAN
密度ベースのクラスタリング手法です。
特徴
- 任意の形状のクラスタを発見
- 外れ値を自動的に除外
- パラメータ調整が重要
3. 次元削減
概要
高次元データを低次元に変換して、重要な情報を保ちながらデータを簡約化する手法です。
主成分分析(PCA)
最も一般的な次元削減手法です。
特徴
- 分散を最大化する方向を発見
- 線形変換
- 解釈しやすい
応用例
- 画像データの圧縮
- データの可視化
- ノイズ除去
- 前処理としての特徴選択
t-SNE
高次元データの可視化に特化した手法です。
特徴
- 非線形変換
- 局所的な構造を保持
- 2次元・3次元への可視化に優秀
UMAP
t-SNEより高速で、大域的構造も保持する手法です。
4. 異常検知
概要
正常なパターンから外れたデータ(異常値)を検出する手法です。
応用分野
- 不正取引の検出
- システムの故障予測
- ネットワーク侵入検知
- 医療診断での異常発見
- 製造業での品質管理
主な手法
統計的手法
- Z-score法
- 3σ法
- 四分位範囲法
機械学習ベース
- One-Class SVM
- Isolation Forest
- Local Outlier Factor (LOF)
深層学習ベース
- オートエンコーダ
- Variational Autoencoder (VAE)
5. 関連ルール学習
概要
データ間の関連性やルールを発見する手法です。「AならばB」という形式のルールを抽出します。
代表的手法:Apriori算法
頻出アイテム集合とそれらの関連ルールを発見します。
評価指標
支持度(Support)
ルールが適用される頻度
信頼度(Confidence)
条件部が満たされた時に結論部も満たされる確率
リフト値(Lift)
ルールの有用性を示す指標
応用例
- マーケットバスケット分析
- 推薦システム
- ウェブサイトの閲覧パターン分析
- 遺伝子の相関分析
まとめ
教師なし学習は、正解がないデータから価値ある情報を抽出する強力な手法群です。クラスタリングによる顧客セグメンテーション、次元削減による可視化、異常検知による問題発見など、様々な場面で活用されています。
結果の解釈には専門知識が必要ですが、データに隠れたパターンを発見し、新たな洞察を得るために不可欠な技術です。教師あり学習の前処理としても頻繁に使用されます。