1.2 エビデンスの読み方

健康情報は玉石混交である。科学的根拠（エビデンス）の質を評価する能力は、適切な健康判断の基盤となる。本章では、研究デザインの階層、バイアスの種類、統計的概念の基礎を解説し、健康情報を批判的に読み解く力を養う。

最終更新：2025年1月

🎧

ナレーション

再生速度:

1. エビデンスの階層

1.1 エビデンスピラミッド

エビデンスには質の階層がある。一般に、下から上へ向かってエビデンスの強さが増すとされる [1]。

レベル	研究タイプ	特徴
最高	システマティックレビュー・メタ分析	複数のRCTを統合・分析
高	ランダム化比較試験（RCT）	無作為割付による介入研究
中	コホート研究	集団を追跡する観察研究
中	症例対照研究	患者群と対照群を比較
低	横断研究	一時点でのスナップショット
低	症例報告・専門家意見	個別事例、経験的知見

1.2 階層の限界

この階層は有用な目安だが、絶対的なものではない。質の低いRCTよりも、質の高いコホート研究の方が信頼できる場合がある。また、研究の質（内的妥当性）と、結果の一般化可能性（外的妥当性）は別の概念である。

GRADE（Grading of Recommendations Assessment, Development and Evaluation）システムは、研究デザインだけでなく、バイアスリスク、一貫性、直接性、精確性、出版バイアスなどを総合的に評価するアプローチである [2]。

2. 研究デザインの種類

2.1 ランダム化比較試験（RCT）

RCTは、参加者を無作為に介入群と対照群に割り付け、アウトカムを比較する研究デザインである。無作為割付により、既知・未知の交絡因子が両群で均等に分布することが期待され、因果関係の推論が可能となる [3]。

RCTの質を評価する際の主なチェックポイントは以下の通りである。

無作為化の方法は適切か（割付の隠蔽）
盲検化されているか（参加者、研究者、評価者）
追跡率は十分か（脱落率20%以上は要注意）
ITT（intention-to-treat）分析が行われているか
サンプルサイズは十分か（検出力の問題）

2.2 コホート研究

コホート研究は、特定の曝露（リスク因子）の有無によって集団を分類し、前向きに追跡してアウトカムの発生を比較する観察研究である。大規模かつ長期間の追跡が可能で、まれなアウトカムや倫理的にRCTが困難な場合に用いられる。

有名な例として、Framingham Heart Study（1948年開始、心血管疾患のリスク因子を同定）、Nurses' Health Study（1976年開始、女性の健康に関する大規模研究）がある [4]。

コホート研究の限界は、交絡因子の完全な制御ができないことである。統計的調整（多変量解析）によって既知の交絡は制御できるが、測定されていない因子や未知の因子は残存する。

2.3 症例対照研究

症例対照研究は、疾患を持つ群（症例）と持たない群（対照）を比較し、過去の曝露を調査する研究デザインである。まれな疾患の研究に適しており、コホート研究より効率的だが、想起バイアス（過去の曝露の記憶が疾患の有無によって異なる）の影響を受けやすい。

2.4 メタ分析

メタ分析は、同一のリサーチクエスチョンに関する複数の研究結果を統計的に統合する手法である。個々の研究よりも精度が高く、効果の推定が安定する。ただし、含まれる研究の質や異質性（heterogeneity）によって結果の解釈が左右される [5]。

メタ分析の結果を読む際には、フォレストプロット（各研究の効果量と統合効果を視覚化）、異質性の指標（I²統計量）、ファネルプロット（出版バイアスの評価）を確認することが重要である。

3. バイアスと交絡

3.1 選択バイアス

研究対象者の選択や割付が系統的に偏ることで生じるバイアスである。例えば、健康意識の高い人だけがサプリメント研究に参加する場合、サプリメント群は本来健康的な集団となり、効果が過大評価される可能性がある（健康ボランティアバイアス）。

3.2 情報バイアス

曝露やアウトカムの測定における系統的な誤差である。想起バイアス（過去の記憶の歪み）、観察者バイアス（評価者の先入観が測定に影響）、報告バイアス（社会的に望ましい回答への偏り）などが含まれる。

3.3 交絡

交絡とは、曝露とアウトカムの両方に関連する第三の因子（交絡因子）の存在によって、真の関連が歪められる現象である [6]。

古典的な例として、コーヒー摂取と肺がんの関連がある。観察研究では関連が示されたが、これは喫煙という交絡因子による見かけの関連であった。喫煙者はコーヒーを多く飲む傾向があり、喫煙が肺がんの真の原因であった。

交絡の制御方法には、研究デザイン段階での対処（無作為化、マッチング、制限）と、分析段階での対処（層別分析、多変量調整）がある。

3.4 出版バイアス

統計的に有意な結果や期待通りの結果が出版されやすく、否定的結果やnull結果が出版されにくい傾向である。このため、公表された研究を統合すると、効果が過大評価される可能性がある [7]。

事前登録（研究開始前にプロトコルを公開）、ファネルプロットによる非対称性の検出、灰色文献（学位論文、会議録など）の包含などが対策として用いられる。

4. 統計的概念の基礎

4.1 p値と統計的有意性

p値は、帰無仮説が真である場合に、観察されたデータ以上に極端な結果が得られる確率である。慣例的にp < 0.05を「統計的に有意」とするが、これは恣意的な閾値である [8]。

p値の誤解として多いのは以下である。

p値は効果の大きさを示さない（有意でも効果が小さいことがある）
p値は帰無仮説が真である確率ではない
p < 0.05は「証明された」ことを意味しない
p > 0.05は「効果がない」ことを意味しない

4.2 信頼区間

95%信頼区間は、同じ方法で繰り返し標本を抽出した場合、95%の確率で真の母集団パラメータを含む区間である。点推定値だけでなく、推定の精度（不確実性）を示す。

信頼区間が狭いほど精度が高く、広いほど不確実性が大きい。また、信頼区間がnull値（リスク比なら1、リスク差なら0）を含まなければ統計的に有意である。

4.3 相対リスクと絶対リスク

リスクの表現方法によって印象が大きく異なる。相対リスク（リスク比）は比較の指標、絶対リスク（リスク差）は実際の影響の大きさを示す [9]。

例：ある薬剤が心臓発作リスクを「50%低減」（相対リスク）と報道されたとする。しかし、ベースラインリスクが2%から1%に低下した場合、絶対リスク差はわずか1%である。この場合、100人を治療して1人の心臓発作を防ぐ（NNT = 100）計算になる。

4.4 相関と因果

相関関係は因果関係を意味しない。2つの変数が関連していても、Aが Bを引き起こしているとは限らない。BがAを引き起こしている可能性、第三の因子が両方を引き起こしている可能性、単なる偶然の可能性がある。

因果関係の推論にはBradford Hillの基準（時間的先行性、関連の強さ、一貫性、特異性、生物学的勾配、蓋然性、整合性、実験的証拠、類似性）が参考になるが、これらは必要条件でも十分条件でもない [10]。

5. 批判的読解の実践

5.1 情報源の評価

健康情報の信頼性を評価する際のチェックリストとして以下が有用である。

情報源は誰か（専門家、機関、匿名）
利益相反はないか（資金源、著者の所属）
根拠は示されているか（参考文献、データ）
いつの情報か（最新性）
他の情報源と一致しているか

査読付きジャーナル、政府機関、学会のガイドラインは一般に信頼性が高い。一方、個人ブログ、SNS、商業的利益が絡むサイトは批判的に読む必要がある。

5.2 ニュース報道の読み方

健康に関するニュース報道は、しばしば誇張や単純化を含む。以下の点に注意する。

見出しと本文の内容が一致しているか
動物実験・試験管実験がヒトに一般化されていないか
相対リスクのみで絶対リスクが示されていないか
単一の研究が過大評価されていないか
研究の限界が述べられているか

可能であれば、元の論文やプレスリリースを確認することが望ましい。PubMed（生物医学文献データベース）やGoogle Scholarで原典にアクセスできることが多い。

5.3 自分自身への適用

研究結果を自分に適用する際には、以下を考慮する。

研究対象集団と自分の類似性（年齢、性別、健康状態）
介入の実行可能性（コスト、時間、副作用）
効果の大きさと自分にとっての意義
不確実性の程度

エビデンスは意思決定の一要素であり、個人の価値観、好み、状況と組み合わせて判断する必要がある。これが「エビデンスに基づく実践」の本質である [11]。

6. 参考文献

[1] Sackett DL, et al. Evidence-Based Medicine: How to Practice and Teach EBM. 2nd ed. Churchill Livingstone; 2000.
[2] Guyatt GH, et al. GRADE: an emerging consensus on rating quality of evidence and strength of recommendations. BMJ. 2008;336(7650):924-926.
[3] Schulz KF, et al. CONSORT 2010 Statement: updated guidelines for reporting parallel group randomised trials. BMJ. 2010;340:c332.
[4] Dawber TR, et al. Epidemiological approaches to heart disease: the Framingham Study. Am J Public Health. 1951;41(3):279-281.
[5] Higgins JPT, Thomas J, eds. Cochrane Handbook for Systematic Reviews of Interventions. 2nd ed. Wiley; 2019.
[6] Rothman KJ, Greenland S, Lash TL. Modern Epidemiology. 3rd ed. Lippincott Williams & Wilkins; 2008.
[7] Easterbrook PJ, et al. Publication bias in clinical research. Lancet. 1991;337(8746):867-872.
[8] Wasserstein RL, Lazar NA. The ASA Statement on p-Values: Context, Process, and Purpose. Am Stat. 2016;70(2):129-133.
[9] Gigerenzer G, et al. Helping Doctors and Patients Make Sense of Health Statistics. Psychol Sci Public Interest. 2007;8(2):53-96.
[10] Hill AB. The Environment and Disease: Association or Causation? Proc R Soc Med. 1965;58(5):295-300.
[11] Greenhalgh T. How to Read a Paper: The Basics of Evidence-Based Medicine. 6th ed. Wiley-Blackwell; 2019.