鳩

技術の探求から日常の発見まで、多様な視点で世界を読み解く

平均の誤謬|統計リテラシーの基礎

0:00 0:00
0:00 0:00
平均の誤謬|統計リテラシーの基礎

平均の誤謬|統計リテラシーの基礎

更新日:

平均値は統計の最も基本的な指標ですが、データの実態を歪めて伝える可能性があります。「日本の平均年収」「平均気温」「平均寿命」など、日常的に目にする平均値の多くは、実際の分布を正確に反映していません。本稿では、平均値の数学的性質、中央値・最頻値との違い、および外れ値の影響について考察し、データを正しく読み解くための統計リテラシーの基礎を提示します。

平均値の定義と問題点

平均値(算術平均)の定義

平均値(Mean、ミーン)は、すべてのデータ値を合計し、データ数で割った値です。最も一般的に使われる代表値ですが、外れ値(Outlier)に大きく影響されるという重要な性質があります。

算術平均の公式

平均値 = (x1 + x2 + ... + xn) ÷ n

x1, x2, ..., xn: データ値、n: データ数

平均値の致命的な問題:外れ値の影響

平均値の最大の問題は、外れ値(Outlier、極端に大きいまたは小さい値)に大きく影響されることです。

例:10人の年収

10人の年収データ(万円):

300, 320, 350, 380, 400, 420, 450, 480, 500, 5,000

平均年収の計算:

合計 = 300 + 320 + 350 + 380 + 400 + 420 + 450 + 480 + 500 + 5,000 = 8,600万円

平均 = 8,600万円 ÷ 10人 = 860万円

問題の本質
平均年収は860万円ですが、10人中9人は500万円以下です。1人の超高額所得者(5,000万円)が平均を大きく押し上げており、「平均年収860万円」という数字は、実態を全く反映していません。
外れ値が平均に与える影響
年収(万円) 5000 2000 500 300 320 350 380 400 420 450 480 500 5000 平均860万円 中央値410万円 10人の従業員
9人は500万円以下だが、1人の超高額所得者により平均が860万円に。
中央値410万円の方が実態を正確に表している。

日本の平均年収の罠

「日本の平均年収は約460万円」という統計をよく目にしますが、この数字には大きな問題があります。

国税庁「令和4年分民間給与実態統計調査」(2022年)によれば、平均給与は458万円ですが、給与所得者の中央値は約370万円です。つまり、労働者の半数は370万円以下の給与であり、平均値は一部の高所得者によって押し上げられています。

平均値が適切でない典型例

平均値が適切でない例
状況 問題点 適切な指標
所得・資産 富裕層の影響で平均が実態より高くなる 中央値
不動産価格 一部の超高額物件が平均を押し上げる 中央値
テストの点数 0点や100点が分布を歪める 中央値または最頻値
待ち時間 異常に長い待ち時間が平均を歪める 中央値
商品価格 最も売れている価格帯を反映しない 最頻値

平均値が適切な場合

平均値が有用なのは、データが正規分布に近い形をしており、極端な外れ値がない場合です。

  • 身長・体重:大多数が平均付近に集まる
  • 気温:極端な値が少ない
  • 製品の寸法:品質管理された製造プロセス
  • 試験時間:制限時間内でほぼ正規分布

代表値の比較:平均・中央値・最頻値

中央値(メディアン)の定義

中央値(Median、メディアン)は、データを大きさ順に並べたときの真ん中の値です。

中央値の求め方

データ数が奇数の場合:

データを昇順に並べ、真ん中の値を取る

例:1, 3, 5, 7, 9 → 中央値 = 5

データ数が偶数の場合:

真ん中の2つの値の平均を取る

例:1, 3, 5, 7, 9, 11 → 中央値 = (5 + 7) ÷ 2 = 6

中央値の利点

中央値は、外れ値の影響を受けにくいという重要な特性があります。

10人の年収データで比較

データ:300, 320, 350, 380, 400, 420, 450, 480, 500, 5,000(万円)

平均値(Mean):860万円(1人の超高額所得者の影響大)

中央値(Median):(400 + 420) ÷ 2 = 410万円

中央値410万円は、10人中5人が410万円以下、5人が410万円以上という実態を正確に反映しています。

四分位数による分布の把握

中央値は50%点(第2四分位数)ですが、分布をより詳しく理解するには四分位数を使います。

四分位数(Quartile)とは

第1四分位数(Q1、25%点):データの下位25%と上位75%の境界値

第2四分位数(Q2、50%点):中央値(Median)

第3四分位数(Q3、75%点):データの下位75%と上位25%の境界値

年収分布の例:

Q1 = 300万円 → 労働者の25%が300万円以下

Q2 = 370万円(中央値)→ 労働者の50%が370万円以下

Q3 = 500万円 → 労働者の75%が500万円以下

四分位数を使うと、平均値だけでは見えない分布の詳細が分かります。特に、Q3 - Q1(四分位範囲)はデータのばらつきを示す頑健な指標です。

最頻値(モード)の定義

最頻値(Mode、モード)は、データの中で最も頻繁に出現する値です。

最頻値の例

テストの点数:60, 70, 70, 70, 80, 80, 90

最頻値 = 70点(3回出現)

最頻値は「最も典型的な値」を表します。商品の売れ筋サイズ、人気の価格帯などを知るのに有用です。

3つの代表値の比較

代表値の比較
指標 計算方法 利点 欠点
平均値 全データの合計÷個数 数学的に扱いやすい
すべての値を反映
外れ値に敏感
歪んだ分布で誤解を招く
中央値 順位が真ん中の値 外れ値に頑健
分布の中心を正確に表す
すべての値を反映しない
計算がやや複雑
最頻値 最も頻繁な値 最も典型的な値を示す
カテゴリデータにも使用可能
複数の最頻値が存在し得る
分布の形状を反映しない

分布の形状による3指標の位置関係

分布の形状と代表値の位置関係
正規分布(対称) 平均=中央値=最頻値 右歪み(所得分布) 最頻値 中央値 平均値 日本の年収分布イメージ 人数 200 300 最頻値 400 中央値 500 600 700 800 900 1000+ 超高額 平均460万円 年収(万円)
上段:正規分布では3つの代表値が一致、右歪み分布では最頻値 < 中央値 < 平均値
下段:日本の年収分布は右歪みで、少数の高所得者が平均を押し上げる

正規分布(対称な分布)の場合

平均値 = 中央値 = 最頻値

例:身長、IQ、標準化されたテストの点数

右に歪んだ分布の場合

最頻値 < 中央値 < 平均値

例:所得、資産、不動産価格

一部の高額値が平均を押し上げるため、平均値が最も大きくなります。

左に歪んだ分布の場合

平均値 < 中央値 < 最頻値

例:寿命、満点が上限のテストで高得点が多い場合

実例:所得分布の分析

日本の所得分布は典型的な右に歪んだ分布です。

日本の年収分布(概算)
平均年収: 約460万円
中央値: 約370万円
最頻値: 約300万円

最頻値 < 中央値 < 平均値 の関係が成立しており、右に歪んだ分布であることが分かります。平均値460万円を「標準的な年収」と考えるのは誤りです。

実データにおける適切な指標選択

ケース1:住宅価格の分析

「平均住宅価格5,000万円」というデータがあったとします。

シミュレーションデータ(10軒の住宅価格、単位:万円)

2,500, 2,800, 3,000, 3,200, 3,500, 3,800, 4,000, 4,500, 5,000, 17,700

平均価格:

合計 50,000万円 ÷ 10軒 = 5,000万円

中央値:

(3,500 + 3,800) ÷ 2 = 3,650万円

解釈:

1軒の超高額物件(1億7,700万円)が平均を大きく押し上げています。実際には10軒中9軒が5,000万円以下であり、一般的な住宅価格を知るには中央値3,650万円の方が適切です。

ケース2:企業の従業員給与

ある企業の「平均給与800万円」という求人情報を見た場合、どう判断すべきでしょうか。

確認すべきポイント
  • 中央値は公開されているか:中央値が600万円なら、半数は600万円以下
  • 経営陣の給与が含まれているか:役員報酬が平均を押し上げている可能性
  • 給与の分布:最高給与と最低給与の差はどの程度か
  • 新卒の初任給:平均ではなく、実際のスタート地点を確認

ケース3:学校の成績

クラスの平均点が70点だった場合、どう解釈すべきでしょうか。

2つの異なるシナリオ

シナリオA:正規分布型

点数分布:50, 60, 65, 68, 70, 72, 75, 80, 90

平均:70点、中央値:70点、最頻値:70点付近

→ 多くの生徒が平均付近に集まっている健全な分布

シナリオB:二極化型

点数分布:20, 30, 40, 50, 60, 80, 90, 95, 100, 105(追加課題)

平均:70点、中央値:70点、最頻値:なし

→ 理解度に大きな差があり、平均点は実態を反映していない

同じ平均点でも、分布の形状により意味が大きく異なります。

統計リテラシー向上のための実践ガイド

データを正しく読み解く7つのチェックポイント

  • 平均値だけでなく中央値も確認:両者が大きく異なる場合、分布が歪んでいる
  • 外れ値の有無を確認:極端な値がないか、データの範囲を確認
  • データ数(サンプルサイズ)を確認:10人の平均と1,000人の平均では信頼性が異なる
  • 分布の形状を想像:正規分布か、歪んだ分布か
  • 標準偏差を確認:データのばらつき具合を示す指標
  • パーセンタイルを確認:25%点、50%点(中央値)、75%点の3つで分布を把握
  • グラフで視覚化:ヒストグラムや箱ひげ図で分布の全体像を把握

よくある統計の誤用例

統計の誤用例
誤用例 問題点 正しい解釈
「平均寿命が延びた」 乳児死亡率の低下が主因の場合も 年齢層別の死亡率を確認
「平均気温が上昇」 最高気温・最低気温の変化を隠蔽 気温の分布全体を確認
「平均的な家庭」 平均値が実在しない場合も 最頻値や中央値で実態を把握
「平均以下は劣っている」 半数は必ず平均以下になる 分布の中での位置を確認

標準偏差との組み合わせ

平均値は標準偏差(Standard Deviation)と組み合わせて解釈することで、より正確な理解が得られます。

標準偏差(Standard Deviation)とは

データが平均値からどれだけ散らばっているかを示す指標です。標準偏差が小さいほど、データは平均値の周りに集中しています。

例:2つのクラスの比較

クラスA:平均70点、標準偏差5点 → ほとんどの生徒が65-75点

クラスB:平均70点、標準偏差20点 → 30-100点まで広く分布

同じ平均点でも、標準偏差により実態は大きく異なります。

標準偏差による分布の違い
クラスA:平均70点、標準偏差5点 60 70 80 平均 65-75点に集中 クラスB:平均70点、標準偏差20点 30 70 100 平均 30-100点に分散 両クラスとも平均は70点だが、分布の形が大きく異なる: • クラスA(緑):生徒の成績が揃っている(標準偏差が小さい) • クラスB(橙):成績のばらつきが大きい(標準偏差が大きい) → 平均値だけでは実態が分からない!
同じ平均点でも標準偏差により分布の形が全く異なる。
標準偏差が小さい = データが平均の周りに集中、標準偏差が大きい = データが広く散らばる

Excelでの計算方法

代表値や散らばりの指標は、Excelで簡単に計算できます。

Excel関数一覧

指標 Excel関数 例(A1:A10のデータ)
平均値 =AVERAGE(範囲) =AVERAGE(A1:A10)
中央値 =MEDIAN(範囲) =MEDIAN(A1:A10)
最頻値 =MODE.SNGL(範囲) =MODE.SNGL(A1:A10)
標準偏差 =STDEV.S(範囲) =STDEV.S(A1:A10)
第1四分位数 =QUARTILE.INC(範囲, 1) =QUARTILE.INC(A1:A10, 1)
第3四分位数 =QUARTILE.INC(範囲, 3) =QUARTILE.INC(A1:A10, 3)

理解度チェック

以下の練習問題で、代表値の選び方を確認しましょう。

練習問題1:月収データの分析

10人の月収(万円):20, 25, 26, 27, 28, 29, 30, 31, 35, 200

問い:この会社の「標準的な月収」を表すには、平均値と中央値のどちらが適切でしょうか?

解答を見る

計算:

• 平均値 = (20+25+26+27+28+29+30+31+35+200) ÷ 10 = 451 ÷ 10 = 45.1万円

• 中央値 = (28 + 29) ÷ 2 = 28.5万円

解答:中央値の方が適切

10人中9人は35万円以下ですが、1人の超高額所得者(200万円)が平均を大きく押し上げています。平均45.1万円は実態を反映しておらず、中央値28.5万円の方が「標準的な月収」を正確に表しています。

練習問題2:テストの点数分析

20人のテストの点数:55, 60, 60, 65, 65, 65, 70, 70, 70, 70, 70, 75, 75, 75, 80, 80, 85, 90, 95, 100

問い:このクラスの「典型的な点数」を知るには、どの代表値が最も適切でしょうか?

解答を見る

計算:

• 平均値 = 1450 ÷ 20 = 72.5点

• 中央値 = (70 + 70) ÷ 2 = 70点

• 最頻値 = 70点(5回出現)

解答:最頻値または中央値が適切

このデータは比較的正規分布に近く、外れ値も少ないため、3つの代表値が近い値になっています。「最も多くの生徒が取った点数」を知りたい場合は最頻値70点、「真ん中の生徒の点数」を知りたい場合は中央値70点が適切です。平均72.5点も実態から大きく外れてはいませんが、やや高めの値になっています。

結論

平均値は統計の基本指標ですが、それだけでデータの実態を判断することは危険です。特に、所得・資産・価格など、右に歪んだ分布を持つデータでは、平均値は実態を大きく歪めます。

適切な統計リテラシーを持つためには、以下が重要です:

  • 平均値だけでなく、中央値最頻値も確認する
  • 外れ値の存在と影響を認識する
  • データの分布の形状を想像する
  • 標準偏差やパーセンタイルで散らばりを把握する
  • 可能であればグラフで視覚化する

「平均」という言葉に騙されず、データの本質を読み取る能力は、現代社会において不可欠なスキルです。統計リテラシーを高めることで、メディアや広告に含まれる誤解を招く統計を見抜き、より合理的な判断が可能になります。

他の記事を見る(16件)

コメント (0)

まだコメントはありません。

コメントを投稿

コメントの管理について
・ 投稿されたコメントは管理者が確認後に表示されます
・ 不適切な内容やスパムコメントは削除される場合があります
・ コメントの表示には時間がかかる場合があります


スポンサーリンク