A案とB案、どちらが良いか。100人中60人がA案を選んだ。でも、それは「たまたま」かもしれない。このような問いに答えるのが統計的検定。データから真実を推測し、偶然と実際の差を区別する数学がここにある。
推定 仮説検定 p値 信頼区間 有意水準
統計的推定
点推定(Point Estimation)
母集団のパラメータを1つの値で推定。
例:標本平均 x̄ で母平均 μ を推定。
区間推定(Interval Estimation)
パラメータが入る区間を確率付きで推定。
95%信頼区間:「この範囲に真の値が含まれる確率が95%」
仮説検定
仮説検定の流れ
1. 帰無仮説 H₀ を設定(「差がない」など)
2. 対立仮説 H₁ を設定(「差がある」など)
3. データから検定統計量を計算
4. p値を計算(H₀が正しいときにこの結果が得られる確率)
5. 有意水準と比較して判断
重要な概念
| 用語 | 意味 |
|---|---|
| p値 | 帰無仮説が正しいとき、観測データ以上に極端な結果が出る確率 |
| 有意水準 α | H₀を棄却する閾値(通常 0.05 または 0.01) |
| 第一種の誤り | H₀が真なのに棄却(偽陽性) |
| 第二種の誤り | H₀が偽なのに棄却しない(偽陰性) |
| 検出力 | H₀が偽のときに正しく棄却する確率 |
代表的な検定
| 検定 | 用途 |
|---|---|
| t検定 | 2群の平均の差 |
| χ²検定 | カテゴリカルデータの独立性 |
| Z検定 | 大標本での比率の比較 |
| ANOVA | 3群以上の平均の比較 |
実務での応用
WEB開発での応用
A/Bテスト:クリック率の差が統計的に有意かを検定。
品質管理:エラー率が許容範囲内かを検定。
パフォーマンス比較:新旧システムの応答時間に差があるか。
AI/MLでの応用
最尤推定:モデルパラメータの点推定。
モデル比較:精度の差が有意かを検定。
特徴量選択:特徴量が予測に寄与するかを検定。
交差検証:複数の分割で推定の安定性を評価。
注意点
「統計的に有意」≠「実用的に重要」。p値が小さくても、効果量(実際の差の大きさ)が小さければ意味がない。また、多重検定(何度も検定を繰り返す)は偽陽性を増やすため補正が必要。
深掘りリンク
- Wikipedia: 仮説検定
- 動画:StatQuest「p値」「t検定」
- 書籍:「統計学入門」東京大学教養学部
- 次のステップ:ベイズ的検定、効果量