A案とB案、どちらが良いか。100人中60人がA案を選んだ。でも、それは「たまたま」かもしれない。このような問いに答えるのが統計的検定。データから真実を推測し、偶然と実際の差を区別する数学がここにある。

推定 仮説検定 p値 信頼区間 有意水準

統計的推定

点推定(Point Estimation)

母集団のパラメータを1つの値で推定。

例:標本平均 x̄ で母平均 μ を推定。

区間推定(Interval Estimation)

パラメータが入る区間を確率付きで推定。

95%信頼区間:「この範囲に真の値が含まれる確率が95%」

仮説検定

仮説検定の流れ

1. 帰無仮説 H₀ を設定(「差がない」など)

2. 対立仮説 H₁ を設定(「差がある」など)

3. データから検定統計量を計算

4. p値を計算(H₀が正しいときにこの結果が得られる確率)

5. 有意水準と比較して判断

重要な概念

用語 意味
p値 帰無仮説が正しいとき、観測データ以上に極端な結果が出る確率
有意水準 α H₀を棄却する閾値(通常 0.05 または 0.01)
第一種の誤り H₀が真なのに棄却(偽陽性)
第二種の誤り H₀が偽なのに棄却しない(偽陰性)
検出力 H₀が偽のときに正しく棄却する確率

代表的な検定

検定 用途
t検定 2群の平均の差
χ²検定 カテゴリカルデータの独立性
Z検定 大標本での比率の比較
ANOVA 3群以上の平均の比較

実務での応用

WEB開発での応用

A/Bテスト:クリック率の差が統計的に有意かを検定。

品質管理:エラー率が許容範囲内かを検定。

パフォーマンス比較:新旧システムの応答時間に差があるか。

AI/MLでの応用

最尤推定:モデルパラメータの点推定。

モデル比較:精度の差が有意かを検定。

特徴量選択:特徴量が予測に寄与するかを検定。

交差検証:複数の分割で推定の安定性を評価。

注意点

「統計的に有意」≠「実用的に重要」。p値が小さくても、効果量(実際の差の大きさ)が小さければ意味がない。また、多重検定(何度も検定を繰り返す)は偽陽性を増やすため補正が必要。

深掘りリンク

  • Wikipedia: 仮説検定
  • 動画:StatQuest「p値」「t検定」
  • 書籍:「統計学入門」東京大学教養学部
  • 次のステップ:ベイズ的検定、効果量