1. 教師あり学習とは
基本概念
教師あり学習は、入力データ(特徴量)と正解データ(ラベル)のペアを使って学習する機械学習手法です。「先生」が正解を教えながら学習するイメージです。
学習プロセス
- 訓練段階:正解付きデータでモデルを学習
- テスト段階:未知のデータで性能を評価
- 予測段階:新しいデータに対して予測を実行
特徴
- 明確な目標(正解)が存在する
- 性能評価が比較的容易
- 実用的な応用が多い
- データの質が結果に大きく影響
2. 分類問題
概要
入力データがどのカテゴリーに属するかを予測する問題です。
種類
二値分類
2つのクラスに分類する問題
- スパムメール判定(スパム/正常)
- 病気診断(陽性/陰性)
- 画像判定(猫/犬)
多値分類
3つ以上のクラスに分類する問題
- 手書き数字認識(0-9)
- 感情分析(ポジティブ/ニュートラル/ネガティブ)
- 商品カテゴリ分類
代表的なアルゴリズム
- ロジスティック回帰
- 決定木
- ランダムフォレスト
- サポートベクターマシン(SVM)
- ニューラルネットワーク
3. 回帰問題
概要
連続値(数値)を予測する問題です。
応用例
- 住宅価格予測
- 株価予測
- 気温予測
- 売上予測
- 人口予測
代表的なアルゴリズム
- 線形回帰
- 多項式回帰
- ランダムフォレスト回帰
- サポートベクター回帰
- ニューラルネットワーク
4. 主要アルゴリズム
線形回帰
最もシンプルな回帰アルゴリズム。特徴量と目標値の線形関係を学習します。
特徴
- 理解しやすい
- 計算が高速
- 解釈しやすい結果
決定木
if-then ルールの組み合わせで予測を行います。
特徴
- 直感的で理解しやすい
- 前処理が少なくて済む
- 過学習しやすい
ランダムフォレスト
複数の決定木を組み合わせた手法です。
特徴
- 高い精度
- 過学習に強い
- 特徴量の重要度がわかる
サポートベクターマシン(SVM)
データを最適に分離する境界線を見つける手法です。
特徴
- 高次元データに強い
- 少ないデータでも効果的
- パラメータ調整が重要
5. 評価方法
分類の評価指標
正解率(Accuracy)
全体の予測のうち、正解した割合
正解率 = 正解数 / 全データ数
適合率(Precision)
ポジティブと予測したもののうち、実際にポジティブだった割合
再現率(Recall)
実際のポジティブのうち、正しく予測できた割合
F1スコア
適合率と再現率の調和平均
回帰の評価指標
平均二乗誤差(MSE)
予測値と実際の値の差の二乗の平均
平均絶対誤差(MAE)
予測値と実際の値の差の絶対値の平均
決定係数(R²)
モデルがデータの分散をどの程度説明できるかを示す指標
検証方法
ホールドアウト法
データを訓練用とテスト用に分割して評価
交差検証(Cross Validation)
データを複数のフォールドに分割し、順番にテストデータとして使用
まとめ
教師あり学習は、正解データを使って学習する最も一般的な機械学習手法です。分類問題と回帰問題という2つの主要なタイプがあり、それぞれに適したアルゴリズムと評価方法があります。
成功のポイントは、問題に適したアルゴリズムの選択、質の高い訓練データの準備、適切な評価指標での性能測定です。実際の応用では、複数のアルゴリズムを試して最適なものを選択することが重要です。