2×2分割表の検定 - Campbell/Lydersen に基づく推奨

「期待度数が 5 未満のセルがあれば Fisher 検定」——多くの教科書に記載された標準的な手順です。この指針は長年にわたって広く使われており、それ自体が誤りというわけではありません。ただし、2007 年以降の統計学的研究によって、より検出力の高い手法が明らかになっています。本記事では、従来の知識を整理した上で、何がアップデートされたのかを解説します。

2×2分割表は、2つの二値変数の関係を表にまとめたものです。

イベントあり イベントなし 合計
群 1 a b a+b
群 2 c d c+d
合計 a+c b+d N

ほとんどの医学統計の教科書では、2×2 分割表の検定について次のように説明しています。

教科書の標準手順
  1. Pearson カイ二乗検定を基本とする
  2. 期待度数が 5 未満のセルがあれば → Fisher の正確確率検定に切り替える
  3. Yates' の連続性補正はカイ二乗検定と Fisher 検定の中間的な結果を与える

この指針は査読付き論文でも広く採用されており、現時点でも「間違い」と断言できるものではありません。

ただし、この手順がどのように生まれ、どのような限界があるのかを理解しておくことが重要です。後の節(「期待度数5未満→Fisher」はなぜ広まったのか)で詳しく説明します。

この記事で扱う検定
  1. Pearson カイ二乗検定(補正なし)
  2. Yates' の連続性補正
  3. Fisher の正確確率検定(条件付き正確検定)——教科書の標準手法
  4. N-1 カイ二乗検定 ← 現代的推奨(Campbell 2007)
  5. Fisher mid-p 法 ← 現代的推奨(Lydersen 2009)
  6. Boschloo の検定 ← 最も検出力が高い(Lydersen 2009)

ある薬剤の無作為化比較試験で、12名ずつ 2 群に割り付けて治療成功率を調べました。

治療成功 治療失敗 合計
新薬群 7 5 12
対照群 2 10 12
合計 9 15 24

新薬群の成功率は 7/12 ≈ 58%、対照群は 2/12 ≈ 17% です。 40% 以上の差があるように見えますが、N = 24 と小さい。はたして「有意差あり」と結論できるでしょうか?

同じデータを 6 種類の手法で計算した結果(R 4.5.1 による):

検定手法 p値(両側) 結論(α=0.05)
Pearson カイ二乗検定(補正なし) 0.035 有意
Yates' の連続性補正 0.092 **非有意**
Fisher の正確確率検定 0.089 **非有意**
N-1 カイ二乗検定 0.039 有意
Fisher mid-p 法 0.049 有意
Boschloo の検定 0.042 有意
同じデータなのに、結論が真っ二つ

Yates' 補正(p = 0.092)と Fisher 正確確率検定(p = 0.089)では → 「有意差なし」
N-1 カイ二乗(p = 0.039)・mid-p(p = 0.049)・Boschloo(p = 0.042)では → 「有意差あり」

検定手法の選択が、論文の結論を変えてしまいます。

また Yates' 補正と Fisher の p 値がほぼ等しいことにも注目してください。 「Yates 補正でカイ二乗検定する」は「Fisher 検定する」と事実上同じ保守性を持ちます。

オッズ比 = 7.0(95%CI: 0.81–85.7、Fisher 法)。N が小さいため信頼区間は広いですが、現代的な検定手法はいずれも有意差を検出しています。

最も基本的な手法です。

\[ \chi^2 = \sum \frac{(O - E)^2}{E} \]

  • 長所: 計算が速い。大標本では信頼性が高い
  • 短所: 小標本では第一種過誤率(偽陽性率)が名目水準(5%)を超えることがある

\[ \chi^2_{\text{Yates}} = \sum \frac{(|O - E| - 0.5)^2}{E} \]

Fisher の正確確率検定に近い p 値を与えるように設計されていますが、同様に保守的になります。現代では推奨されないことが多い手法です。

「正確」なのに「保守的」? — Fisher 検定のパラドックス

Fisher 検定の「正確」とは、超幾何分布による確率計算が正確という意味です。

Fisher 検定は行の合計と列の合計の両方を固定した条件で確率を計算します。これは「Lady tasting tea(紅茶実験)」のような実験では妥当ですが、通常の臨床試験では行合計(各群の人数)は固定されていても、列合計(副作用の人数)は試験結果次第で変わります

この前提のずれが、Fisher 検定を過度に保守的にする根本原因です。

  • 長所: 第一種過誤率が確実に名目水準以下(偽陽性を出しにくい)
  • 短所: 過度に保守的になりやすく、本当は差があるのに見逃すリスク(第二種過誤)が増す
  • 適切な使い所: 両方の周辺度数が実際に固定されている実験デザイン(稀)

E.S. Pearson(Karl Pearson の息子)が 1947 年に提案した補正法です。

\[ \chi^2_{N-1} = \chi^2_{\text{Pearson}} \times \frac{N-1}{N} \]

N が大きければ \(\frac{N-1}{N} \approx 1\) となり Pearson と同じ結果になりますが、小標本ではより正確な第一種過誤率を与えます。

Campbell (2007) の推奨ルール
  1. 全セルの期待度数 ≥ 1 → N-1 カイ二乗検定を使用
  2. いずれかのセルの期待度数 < 1 → Fisher-Irwin 検定(Fisher の正確確率検定)に切替

このアプリでは、期待度数 < 1 のときに自動的に Fisher-Irwin に切り替えます。

Fisher 検定の保守性を緩和する実用的な方法です。

\[ p_{\text{mid}} = p_{\text{Fisher}} - \frac{1}{2} P(\text{観測されたテーブル}) \]

観測されたテーブルの確率の半分だけを引くことで、離散分布による過剰な保守性を補正します。

  • 長所: Fisher より常に検出力が高い。計算がシンプル。第一種過誤率が名目水準に近い
  • 短所: 厳密には「正確」ではない(名目水準をわずかに超えることがある)
  • Lydersen et al. (2009) が Boschloo と並んで推奨する手法

Boschloo(1970)が提案した、最も検出力の高い 2×2 正確検定です。

条件付き vs 非条件付き

  • Fisher(条件付き): 行合計も列合計も固定して確率計算
  • Boschloo(非条件付き): 行合計のみ固定。列合計は確率変数として扱う → より現実的

Boschloo は Fisher の p 値を検定統計量として使い、ヌイサンスパラメータ(真の成功確率)について最大化します。Fisher より常に検出力が高いことが数学的に証明されています(Lydersen et al. 2009)。

  • 長所: 最も検出力が高い 2×2 正確検定。名目水準を守りながら Fisher より強力
  • 短所: 計算負荷が高い(このアプリでは N ≤ 300 のみ対応)
  • Lydersen et al. (2009) のゴールドスタンダード

このルールは医学統計の世界に深く根付いています。教科書の記述が誤っているわけではありませんが、成立した経緯を知ると、なぜ現代的な見直しが必要なのかが理解できます。

Cochran(1954)が「カイ二乗近似が信頼できるための目安」として提唱した閾値が、いつしか「Fisher を使うべき条件」として教科書に定着しました。

重要なのは、Cochran の意図は「カイ二乗近似の精度」についての話であり、「Fisher 検定が最善か」という問いとは別の話だった点です。Campbell(2007)は、Cochran 自身が「5」という数値を恣意的に選んだと認めていたことを指摘しています。

状況 従来の推奨 現在わかっていること
期待度数 < 5 Fisher 検定 Fisher は保守的すぎる場合がある。N-1 や mid-p・Boschloo の方が検出力が高い
期待度数 ≥ 5 カイ二乗検定 問題なく使えるが、N-1 もほぼ同じ結果を与える
小標本ほど、Fisher の保守性は目立ちます

Fisher 検定は偽陽性(第一種過誤)を確実に抑えるという点で優れていますが、その代償として偽陰性(第二種過誤)、つまり「本当は差があるのに検出できない」リスクが高まります。特にサンプルサイズが小さいほどこの影響は大きくなります。

医学のガイドラインが新しいエビデンスに基づいてアップデートされるように、統計手法の推奨も更新されます。2×2 分割表の検定については、以下の 2 本の論文が重要なマイルストーンです。

  • Campbell(2007):7 種類の検定を網羅的に比較し、N-1 カイ二乗検定の優位性と、Fisher 正確確率検定の保守性の問題を定量的に示した。
  • Lydersen et al.(2009):Boschloo の検定が最も検出力の高い正確検定であること、Fisher mid-p 法が実用的な代替手法であることを示した。
「教科書が間違っている」のではなく「知識がアップデートされた」

従来の手法(Fisher、Yates)は、使ってはいけないわけではありません。偽陽性(第一種過誤)を確実に管理するという意味では正しく機能しています。

ただし、より高い検出力を持つ手法が存在することが、2007 年以降に明確に示されました。多くの教科書はこの点をまだ反映できていませんが、それは統計学の教育が研究の進歩に追いつくまでに時間がかかるという、どの分野にも共通する現象です。

2×2分割表の独立性検定
│
├─ 全セルの期待度数 ≥ 5(大標本)
│   → どの手法でもほぼ同じ結果
│     Pearson カイ二乗検定(補正なし)で十分
│
├─ 期待度数 1~5 のセルあり(中標本)
│   ├─ 推奨: N-1 カイ二乗検定(Campbell 2007)
│   ├─ 推奨: Boschloo の検定、または Fisher mid-p(Lydersen 2009)
│   └─ Fisher 正確確率検定は「間違い」ではないが、保守的
│
├─ 期待度数 < 1 のセルあり(超小標本)
│   → Fisher-Irwin 検定(N-1 カイ二乗の自動フォールバック)
│   → Boschloo または Fisher mid-p も有力
│
└─ 両方の周辺度数が本当に固定されている実験
    → Fisher の正確確率検定(本来の適用場面)
出典 推奨手法
Campbell (2007), Statistics in Medicine 期待度数 ≥ 1 → N-1 カイ二乗。< 1 → Fisher-Irwin
Lydersen et al. (2009), Statistics in Medicine ゴールドスタンダード: Boschloo。実用的代替: Fisher mid-p
両論文共通 Yates 補正・標準 Fisher の日常的使用は非推奨

Fisher の正確確率検定は第一種過誤率を確実に名目水準以下に保つため、偽陽性(誤った有意差)を出すことはありません。問題は検出力の低下、つまり「本当は差があるのに見逃すリスク」が高まることです。

過去の論文で Fisher や Yates を使っていても「誤り」ではありません。「知識のアップデートにより、より良い選択肢が示された」という理解が正確です。今後の研究では現代的な手法を検討することが望ましいでしょう。

N-1 カイ二乗・mid-p・Boschloo は知名度がまだ低く、査読者から質問を受けることがあります。その場合は以下を引用してください。

  • Campbell I (2007). Chi-squared and Fisher-Irwin tests of two-by-two tables with small sample recommendations. Statistics in Medicine 26: 3661–3675.
  • Lydersen S, Fagerland MW, Laake P (2009). Recommended tests for association in 2×2 tables. Statistics in Medicine 28: 1159–1175.

検定手法の選択よりも重要なのは、効果量(オッズ比・リスク比・リスク差)と 95% 信頼区間の報告です。p 値だけでは差の大きさと不確実性が伝わりません。

論文記述例

「新薬群は対照群に比べて治療成功率が有意に高かった(N-1 カイ二乗検定 p = 0.039、Fisher mid-p 法 p = 0.049、Boschloo 検定 p = 0.042、オッズ比 7.0、95%CI: 0.81–85.7)。」

N-1 カイ二乗検定とは何が違うのですか?Fisher 検定のほうが安心では?

N-1 カイ二乗検定は Pearson カイ二乗統計量に (N-1)/N を掛けるだけの小さな修正です。「安心感」という点では Fisher も N-1 も同様に第一種過誤率を適切にコントロールしますが、N-1 はより高い検出力(差を見つける力)を持ちます。

mid-p 法は「正確検定」ではないのですか?

厳密にはそうです。mid-p 法では第一種過誤率がわずかに名目水準(5%)を超えることがあります(通常は 5.1~5.3% 程度)。Fisher 検定が「5% を確実に下回る」のに対し、mid-p は「5% に最も近い」という性質を持ちます。多くの統計学者はこのわずかな超過は許容範囲と考えており、Lydersen et al. (2009) も推奨しています。

Boschloo 検定を使いたいのですが、論文で引用できますか?

できます。Boschloo(1970)の原著論文と、推奨理由を述べた Lydersen et al.(2009)を引用してください。Statistical Analysis of Contingency Tables(Fagerland, Lydersen, Laake 2017, CRC Press)も権威ある教科書として引用可能です。

R での実装方法は?

dat <- matrix(c(7, 5, 2, 10), nrow = 2, byrow = TRUE)
# 新薬群: 7成功/5失敗, 対照群: 2成功/10失敗
 
# 1. Pearson カイ二乗(補正なし)
chisq.test(dat, correct = FALSE)
 
# 2. Yates' の補正(R のデフォルト)
chisq.test(dat, correct = TRUE)
 
# 3. Fisher の正確確率検定
fisher.test(dat)
 
# 4. N-1 カイ二乗検定
N <- sum(dat)
chi2 <- chisq.test(dat, correct = FALSE)$statistic
n1_stat <- chi2 * (N - 1) / N
pchisq(n1_stat, df = 1, lower.tail = FALSE)
 
# 5. Fisher mid-p
library(exact2x2)
fisher.exact(dat, midp = TRUE)
 
# 6. Boschloo の検定
library(Exact)
exact.test(dat, method = "Boschloo", to.plot = FALSE)

TableOne でも使えますか?

はい。このサービスの TableOne アプリでは 2×2 の場合の検定手法を選択できます。デフォルトは N-1 カイ二乗検定(Campbell 2007 の推奨)に設定されています。

過去の論文で Fisher 検定を使いました。それは間違いだったのですか?

いいえ、間違いではありません。Fisher の正確確率検定は偽陽性(第一種過誤)を確実に管理しており、「誤った有意差」を報告するリスクはありません。

ただし、検出力の観点では、現代的な手法(N-1 カイ二乗、mid-p、Boschloo)の方が優れています。過去の研究で「有意差なし」と報告されたものの中に、現代的な手法なら有意差が検出できたケースが含まれている可能性はあります。

新規の研究では現代的な手法を採用することが望ましいですが、既存の論文を遡及的に「誤り」とする必要はありません。

査読者から「期待度数が5未満なのになぜ Fisher を使わないのか」と指摘されました

この指摘は、教科書に記載された従来の指針に基づいています。以下のように回答することが一般的です。

  1. Campbell(2007, Statistics in Medicine)は、期待度数に基づく「5未満→Fisher」ルールを体系的に再検討し、N-1 カイ二乗検定が第一種過誤率・検出力の両面で優れていることを示しました。
  2. 「5」という閾値は Cochran(1954)の論文由来ですが、Campbell はこれがカイ二乗近似の精度に関する話であり「Fisher 検定を使うべき条件」とは別の問題であることを指摘しています。

査読者の指摘は決して不勉強ではなく、標準的な教科書の記述に従ったものです。Campbell(2007)と Lydersen et al.(2009)を引用しながら、なぜ現代的な手法を選択したかを丁寧に説明することで、多くの場合は理解が得られます。

  • Boschloo RD (1970). Raised conditional level of significance for the 2×2-table when testing the equality of two probabilities. Statistica Neerlandica 24: 1–9.
  • Campbell I (2007). Chi-squared and Fisher-Irwin tests of two-by-two tables with small sample recommendations. Statistics in Medicine 26: 3661–3675.
  • Lydersen S, Fagerland MW, Laake P (2009). Recommended tests for association in 2×2 tables. Statistics in Medicine 28: 1159–1175.
  • Fagerland MW, Lydersen S, Laake P (2017). Statistical Analysis of Contingency Tables. Chapman and Hall/CRC.
  • Agresti A (2002). Categorical Data Analysis (2nd ed.). Wiley.