分割表の説明
ここでは、対応のない通常の分割表 について説明します。
分割表とは
分割表 (クロス集計表) とは、2つのカテゴリー変数の関係を表にまとめたものです。
例: 治療法と治療結果
100人の患者を新薬群と対照群に分けて、治療の成功・失敗を調べた結果
| 成功 | 失敗 | 合計 | |
|---|---|---|---|
| 新薬群 | 40 | 10 | 50 |
| 対照群 | 25 | 25 | 50 |
| 合計 | 65 | 35 | 100 |
この表から「新薬群の方が成功率が高いようだが、これは偶然か?」を統計的に検定します。
分割表のサイズと使える検定
分割表は「行数×列数」でサイズを表します。サイズによって使える検定が異なります。
実行アプリ: 📊 分割表 (クロス集計表) | 分割表 (クロス集計表) [直接入力]
サイズが 1×2 または 2×1 の場合
例: コインを10回投げて、表が7回、裏が3回出た
| 表 | 裏 | |
|---|---|---|
| 回数 | 7 | 3 |
使える検定
- 二項検定: このコインは公正か? (表が出る確率=0.5として検定)
サイズが 2×2 の場合
例: 上記の治療法と結果の表
| 成功 | 失敗 | |
|---|---|---|
| 新薬群 | 40 | 10 |
| 対照群 | 25 | 25 |
使える検定・指標
- カイ二乗検定 (N-1 補正推奨): 2つの変数が独立か (関連がないか) を検定
- Fisher正確確率検定 (mid-p 法推奨): 正確確率に基づく検定
- Boschloo 検定: 最も検出力の高い正確検定 (N ≤ 300)
- オッズ比・リスク比・リスク差: 効果の大きさを測る指標
→ 検定の選び方の詳細: 2×2分割表の検定 — 現代的推奨手法 (Campbell 2007・Lydersen 2009)
サイズが 2×k または k×2 の場合
例: 治療法 (3群) と治療結果
| 成功 | 失敗 | |
|---|---|---|
| 治療A | 30 | 20 |
| 治療B | 25 | 25 |
| 治療C | 20 | 30 |
使える検定
- カイ二乗検定 / Fisher正確確率検定: 3群間に差があるかを検定
サイズが 2×k または k×2 の場合 (順序あり)
例: 薬の用量と治療成功率
| 成功 | 失敗 | |
|---|---|---|
| 低用量 | 10 | 40 |
| 中用量 | 20 | 30 |
| 高用量 | 35 | 15 |
使える検定
- カイ二乗検定 / Fisher正確確率検定: 基本的な独立性の検定
- Cochran-Armitage検定: 用量が増えるにつれて成功率が上がる「傾向」があるかを検定
- Cochran-Armitage検定の利点: 順序を考慮するため、単なるカイ二乗検定より検出力が高い
サイズが 3×3 以上の場合
例: 教育レベルと収入レベル (どちらも順序あり)
| 収入低 | 収入中 | 収入高 | |
|---|---|---|---|
| 中卒 | 30 | 15 | 5 |
| 高卒 | 20 | 25 | 15 |
| 大卒 | 10 | 20 | 30 |
使える検定
- カイ二乗検定 / Fisher正確確率検定: 基本的な独立性の検定
- 順序を考慮した分析 (両方の変数に順序がある場合)
- Spearman順位相関係数
- Kendall順位相関係数
- 線形併合カイ二乗検定
- Goodman-Kruskalのガンマ
カイ二乗検定 vs Fisher正確確率検定
実行アプリ: 📊 分割表 (クロス集計表) | 分割表 (クロス集計表) [直接入力] | 2×2分割表の検定
カイ二乗検定
特徴
- p値は近似値
- 計算が速い
- サンプルサイズが大きい場合に適している
使える条件
- 各セルの期待度数が5以上
- サンプルサイズが十分に大きい
期待度数とは?
「2つの変数が独立 (関連がない)」と仮定したときに、各セルに入ると期待される値です。計算式は (行合計 × 列合計) ÷ 総計 です。
上記の治療法の例
| 成功 | 失敗 | 合計 | |
|---|---|---|---|
| 新薬群 | 40 (期待値32.5) | 10 (期待値17.5) | 50 |
| 対照群 | 25 (期待値32.5) | 25 (期待値17.5) | 50 |
| 合計 | 65 | 35 | 100 |
例: 新薬群×成功セルの期待度数 = 50 × 65 ÷ 100 = 32.5
全てのセルで期待度数≧5 なので、カイ二乗検定が使えます。
期待度数は整数とは限りません — 上の例の 32.5 や 17.5 のように、小数になるのが普通です。「期待度数の最小値 < 1」という条件は「0のセルがある」という意味ではなく、0.8 や 0.3 のような 1 を下回る小数値のセルがある 場合を指します。期待度数が実際に 0 になるのは、表の行または列の合計が 0 (= その群の観測値が 1 件もない) という特殊ケースのみです。
Fisher正確確率検定
特徴
- p値は正確な値 (近似ではない)
- 計算に時間がかかる場合がある
- サンプルサイズが小さくても使える
使うべき場合 (現代的観点)
- 期待度数の最小値 < 1 のセルがある → Fisher-Irwin 検定 が選択肢 (Campbell 2007)
- 「期待度数 5 未満」や「サンプルサイズが小さい」という旧来の基準は現在は推奨されない (→ 下記の現代的推奨を参照)
- Fisher 条件付き正確検定は過度に保守的になる場合がある → mid-p 補正で保守性を緩和可能
どちらを使うべき? (現代的推奨)
Campbell (2007) および Lydersen et al. (2009) に基づく推奨です。
| 状況 | 推奨 |
|---|---|
| 期待度数の最小値 ≥ 1 (例: 1.3, 2.5, 5.0 など) | N-1 カイ二乗検定 |
| 期待度数の最小値 < 1 (例: 0.8, 0.5, 0.2 など) | Fisher-Irwin 検定 (N-1 が自動代替) |
| より高い検出力が必要な場面 | Fisher mid-p 法 または Boschloo 検定 |
| (旧来: 参考のみ) | Yates 補正・Fisher 条件付き正確検定 (保守的すぎる場合がある) |
2×2 分割表では、期待度数の閾値として “5” がよく引用されますが、これは根拠が薄く現代では推奨されていません。Campbell (2007) は N-1 カイ二乗検定 を標準とし、Fisher 条件付き正確検定は保守的になりすぎると指摘しています。
詳細と実例は → 2×2分割表の検定 — 現代的推奨手法
2×2より大きな表へのFisher検定
Fisher検定は本来2×2分割表用ですが、より大きな表にも拡張されています。
問題点
- セル数が増えると計算量が爆発的に増える
- 一般的にはあまり使われない
推奨
- 2×2分割表: 上記の現代的推奨手法を参照
- それ以上: 期待度数が十分ならカイ二乗検定を使う
- 現代の統計ソフトでは3×3程度なら計算可能だが、それ以上は実用的でない
各検定手法の詳細
実行アプリ: 📊 分割表 (クロス集計表) | 分割表 (クロス集計表) [直接入力]
Cochran-Armitage検定 (比率の傾向の検定)
適用場面
- 2×k または k×2 の分割表
- 一方の変数に順序がある
- 順序に沿った「傾向」があるかを検証したい場合
検定の目的
| 成功 | 失敗 | |
|---|---|---|
| 低用量 (1錠) | 10 | 40 |
| 中用量 (2錠) | 20 | 30 |
| 高用量 (3錠) | 35 | 15 |
見た目では「用量が増えると成功率が上がる」ように見えます。
- カイ二乗検定: 3群間に「何らかの違い」があるかを検定
- Cochran-Armitage検定: 用量が増えるにつれて成功率が「単調に増加する傾向」があるかを検定
順序変数の相関分析 (3×3以上、両方に順序あり)
Spearman順位相関係数
測定内容: 2つの順序変数間の単調な関係の強さ
値の範囲: -1 (完全な負の相関) ~ +1 (完全な正の相関)
例
- 教育年数が長いほど収入が高い → 正の相関
- 運動量が多いほどBMIが低い → 負の相関
Kendall順位相関係数
測定内容: 2つの順序変数間の一致度
値の範囲: -1 ~ +1
Spearmanとの違い
- 計算方法が異なる
- Kendallの方が解釈しやすい場合がある
- Kendallの方がサンプルサイズが小さいときに安定
線形併合カイ二乗検定
検定内容: 行と列の変数間に線形関係があるかを検定
読み方: 線形-線形関連性検定 (Linear-by-Linear Association Test)
- 帰無仮説: 変数間に線形関連性がない
- 対立仮説: 変数間に線形関連性がある
Goodman-Kruskalのガンマ
測定内容: 2つの順序変数の順位の一致度
値の範囲
- +1: 完全な正の一致 (全てのペアが一致)
- 0: 順位の関連性がない
- -1: 完全な負の一致 (全てのペアが不一致)
二項検定
適用場面: 1×2 または 2×1 の分割表
検定内容: ある事象が起きる確率が0.5 (50%) かどうかを検定
例1: コイン投げ
- コインを10回投げて表が7回出た
- このコインは公正か? (表が出る確率=0.5)
例2: 患者の選好
- 100人の患者に新薬と旧薬を提示
- 65人が新薬を選んだ
- 「どちらでもいい」 (50%) ではなく、新薬が好まれている?
2×2分割表の効果指標
2×2分割表では、行を「群」、列を「イベントあり/なし」として、効果の大きさを測る指標を計算できます。
例: 治療法と合併症
| 合併症あり | 合併症なし | 合計 | |
|---|---|---|---|
| 新治療 | 10 | 90 | 100 |
| 標準治療 | 30 | 70 | 100 |
オッズ比 (Odds Ratio)
定義: 「イベントが起きる可能性」の比
計算
- 新治療のオッズ = 10/90 = 0.111
- 標準治療のオッズ = 30/70 = 0.429
- オッズ比 = 0.111/0.429 = 0.26
解釈: 新治療は標準治療に比べて合併症のオッズが0.26倍 (74%減少)
リスク比 (Risk Ratio / Relative Risk)
定義: 「イベントが起きる確率」の比
計算
- 新治療のリスク = 10/100 = 0.10
- 標準治療のリスク = 30/100 = 0.30
- リスク比 = 0.10/0.30 = 0.33
解釈: 新治療は標準治療に比べて合併症のリスクが0.33倍 (67%減少)
リスク差 (Risk Difference)
定義: 「イベントが起きる確率」の差
計算
- リスク差 = 0.10 - 0.30 = -0.20 = -20%
解釈: 新治療により合併症が20%減少する
- オッズ比: 症例対照研究、稀な疾患
- リスク比: コホート研究、RCT、より直感的
- リスク差: 臨床的に最も分かりやすい (「○○%減る」)
サンプルサイズと検出力
実行アプリ: 📊 サンプルサイズ計算 (2群の比率の比較) | 検出力計算 (2群の比率の比較)
2×2分割表で「有意差なし (p>0.05)」という結果が出たとき
2つの可能性
1. 本当に差がない 2. 差はあるが、サンプルサイズが足りなくて検出できなかった
検出力とは
検出力: 本当に差があるときに、それを正しく検出できる確率
- 検出力80%: 差があるときに80%の確率で検出できる
- 検出力が低い → 差があっても見逃しやすい
サンプルサイズ計算
研究を始める前に「どれくらいのサンプルサイズが必要か」を計算します。
必要な情報
- 検出したい効果の大きさ (例: 成功率の差が20%)
- 有意水準 (通常α=0.05)
- 検出力 (通常80%または90%)
「有意差が出なかったので症例を追加して解析をやり直す」ことは統計的に不適切です。
これは「p値ハッキング」と呼ばれ、偽陽性 (誤った有意差) を増やします。
よくある質問
カイ二乗検定とFisher検定、どちらを報告すればいいですか?
現代的推奨 (Campbell 2007 / Lydersen 2009) では以下の基準が推奨されています。
- 期待度数の最小値 ≥ 1 → N-1 カイ二乗検定
- 期待度数の最小値 < 1 → Fisher-Irwin 検定
- より高い検出力が必要 → Fisher mid-p 法 または Boschloo 検定
「期待度数 5 未満なら Fisher」という古い指針は根拠が薄く、現在は推奨されていません。また Fisher 条件付き正確検定は保守的になりすぎる点に注意してください。
なぜ参考書と内容が異なるのか? 多くの教科書の「期待度数 5 未満なら Fisher」というルールは Cochran (1954) の恣意的な閾値に由来します。Fisher の正確検定は「正確 (exact)」という名前ながら、離散分布の性質により第一種の過誤率が名目水準を大きく下回り、過度に保守的になります。この問題は現代のシミュレーション研究 (Campbell 2007, Lydersen 2009) で示されましたが、教科書への反映が遅れています。詳しくは「Fisher の正確検定を深堀りする」レクチャーをご覧ください。
オッズ比とリスク比、どちらを使うべきですか?
研究デザインによります。
- コホート研究・RCT → リスク比 (より直感的)
- 症例対照研究 → オッズ比 (リスク比が計算できない)
- 稀な疾患 → オッズ比とリスク比はほぼ同じ値になる
p値が0.05より少し大きい (例: p=0.06)。どのように扱うべきですか?
- 統計学的には「有意差なし」
- 「傾向あり (trend)」として報告されることもありますが、「効果量と信頼区間から判断して、臨床的に意味のある差である可能性が否定できない」といった、区間推定に基づいた解釈を推奨する記述を加えると、より現代的で洗練された回答になります。
- サンプルサイズが足りない可能性を検討する
- 臨床的意義と統計的有意差は別物であることに十分注意してください。
Yatesの連続性補正は使うべきですか?
- Yatesの補正は2×2分割表でカイ二乗検定をより保守的にする補正です。
- 現在では推奨されないことが多い
- Yatesの補正はFisherの正確検定に近いp値を与えるように設計されており、同様に保守的
- 代わりに N-1 カイ二乗検定 (期待度数 ≥ 1 の場合) や Boschloo 検定 / Fisher mid-p 法 を使う方が良い
- 古い論文では使われていることがあるので、知識として知っておく
- 詳しくは「Fisher の正確検定を深堀りする」レクチャーをご覧ください。
3×3以上の表で有意差が出た。どの群間に差があるか知りたい
- カイ二乗検定は「どこかに差がある」ことしか分からない
- 事後検定 (post-hoc test) が必要
- 残差分析 (adjusted residuals)
- 群間の2×2比較 (多重比較補正が必要)
- 多重比較の問題: 比較を繰り返すと偽陽性が増える
- Bonferroni補正などで有意水準を調整
- 例: 3群比較なら3回比較 → p<0.05/3=0.0167を基準にする
サンプルサイズが非常に大きい場合の注意点は?
- サンプルサイズが数千〜数万と大きいと、些細な差でも有意になる
- 統計的有意差 ≠ 臨床的意義
- 必ず効果量 (オッズ比、リスク比など) を報告し、実質的な差の大きさを評価する
- 例: p<0.001でも、オッズ比が1.05なら臨床的には意味が薄い
片側検定と両側検定、どちらを使うべきですか?
- 原則として両側検定を使う
- 片側検定を使うのは
- 理論的・倫理的に一方向の差しかあり得ない場合のみ
- 事前に明確に計画し、プロトコルに記載
- 論文では片側検定の根拠を明確に説明する必要がある
- 迷ったら両側検定
信頼区間も報告すべきですか?
はい。必ず報告してください。
- p値だけでは効果の大きさと不確実性が分からない
- オッズ比、リスク比には必ず95%信頼区間を付ける
- 例: 「オッズ比 0.26 (95%CI: 0.12-0.58, p=0.001)」
- 信頼区間が1をまたぐ → 統計的に有意でない
- 信頼区間が広い → 推定の不確実性が大きい
期待度数が0のセルがある場合はどうすればいいですか?
- 期待度数が0になるのはどんな場合?: 期待度数は (行合計 × 列合計) ÷ 総計 で計算されます。行合計または列合計が 0 のとき、つまり「その群 (行) に観測値が 1 件もない」か「そのイベント (列) が全体で 0 件」の場合にのみ 0 になります。
- 例: 新薬群に 1 人も割り付けられていない、成功例が全体で 1 件もない、など
- これは「期待度数 < 1 (例: 0.8 など)」とは異なる、より極端な特殊ケースです
- 期待度数が0 → カイ二乗検定もFisher検定も適用できない
- 対処法
- カテゴリを統合する (例: 「3段階」→「2段階」に)
- サンプルサイズを増やす
- そもそもそのカテゴリが必要か再検討
- 無理に統計検定せず、記述統計として報告することも選択肢
セルの度数が極端に少ない (1や2) 場合はどうすればいいですか?
- 観測値 (実際の人数) が少ない ことと 期待度数が少ない ことは別物です。観測値が 1 や 2 でも、期待度数は別の計算値になります (整数とは限りません)
- 検定の選択は観測値ではなく 期待度数の最小値 で判断します
- 期待度数の最小値 ≥ 1 (例: 1.3 など) → N-1 カイ二乗検定 または Boschloo 検定 / Fisher mid-p 法
- 期待度数の最小値 < 1 (例: 0.7 など) → Fisher-Irwin 検定
- それでも不安定な結果になる可能性
- 対処法
- カテゴリを統合する
- サンプルサイズを増やす
- 結果の解釈は慎重に行い、限界を明記する
カテゴリを統合するときの注意点は?
- データを見る前に決める (データドリブンな統合は避ける)
- 臨床的・理論的に意味のある統合をする
- 良い例: 「軽症・中等症」vs「重症」
- 悪い例: p値が良くなるように適当に統合
- 統合の根拠を論文に明記
- 統合前と統合後の両方を報告することも
同じデータで複数の検定を試すのは問題ですか?
はい。問題があります。
- いわゆる「p値ハッキング」「HARKing」
- 複数の検定を試して、有意になったものだけ報告 → 偽陽性が増える
- 正しいアプローチ
- 事前に検定方法を決める
- 複数検定した場合は全て報告
- 探索的分析と確認的分析を明確に区別
Reactive stat では、利用者の利便性を優先し、同時に複数の検定を行う場合がありますが、事前に決めた検定方法の結果を採用してください (Reactive stat のこの方針には賛否ありますが敢えて使いやすさを優先しています)。
繰り返し測定データ (同じ患者の治療前後など) で分割表を作っていいですか?
いいえ。通常の分割表検定は使えません。
- カイ二乗検定・Fisher検定は独立性を仮定
- 同じ患者の治療前後 → データが対応している
- 正しい方法
- 一般化線形混合モデル (ロジスティック混合モデルなど)
- 独立性を無視すると誤った結論になる
「関連がある」と「因果関係がある」は同じですか?
いいえ。全く別物です。
- 分割表検定で分かるのは「関連 (association)」のみ
- 因果関係を示すには
- ランダム化比較試験 (RCT)
- 時間的前後関係
- 他の要因の除外
- 生物学的妥当性
- 論文での表現に注意
- ○「関連が見られた (associated with)」
- ×「〜が〜を引き起こした (caused)」
効果量は必ず報告すべきですか?
はい。特に論文では必須です。
- p値だけでは効果の大きさが分からない
- 報告すべき効果量
- 2×2分割表: オッズ比、リスク比、リスク差 (95%CI付き)
- それ以上: Cramér の V (クラメールの V)
- 効果量が小さいのに有意 → サンプルサイズが大きいだけ
- 効果量が大きいのに非有意 → サンプルサイズ不足の可能性
欠損値がある場合はどうすればいいですか?
- 方針1: 完全症例分析 (欠損のあるケースを除外)
- 最もシンプル
- バイアスの可能性がある
- 方針2: 欠損値を1カテゴリとして扱う
- 欠損のパターンに意味がある場合
- 方針3: 多重代入法
- より高度だが推奨される
- どの方針を採用したか必ず明記
- 欠損データの割合と性質を記述
論文にはどのように結果を書けばいいですか?
必須要素
1. 分割表そのもの (実測値) 2. 使用した検定名 3. 検定統計量 (χ²値など) 4. 自由度 5. p値 6. 効果量と95%信頼区間 (2×2なら必須)
記述例 「新薬群は対照群に比べて有意に高い成功率を示した (χ²=10.26, df=1, p=0.001, Fisher正確確率検定 p=0.002, オッズ比=4.00, 95%CI: 1.75-9.14)」
カイ二乗値が自由度より小さいです。何か間違っていますか?
問題ありません。
- χ²値は0以上の任意の値を取る
- 自由度より小さくても正常
- χ²値が小さい = 観測値と期待値の差が小さい = 独立性が高い
- p値が大きくなる (有意でない) ことが多い
順序のあるカテゴリを名義尺度として分析してもいいですか?
可能ですが推奨されません。
- 順序情報を無視すると検出力が下がる
- 正しいアプローチ
- 2×k (順序あり): Cochran-Armitage検定
- k×k (両方に順序): Spearman/Kendall相関、線形併合検定
- 順序を考慮した方が統計的に効率的
- ただし、順序が明確でない場合は名義尺度でOK
まとめ
分割表分析の手順
- 表のサイズを確認 (1×2? 2×2? それ以上?)
- 順序の有無を確認 (順序あり? なし?)
- 適切な検定を選択 (上記の表を参照)
- サンプルサイズを確認 (各セルの期待度数を確認)
- 検定を実行 (期待度数 ≥ 1 → N-1 カイ二乗検定、< 1 → Fisher-Irwin 検定、高い検出力が必要 → Boschloo / Fisher mid-p)
- 効果の大きさを評価 (2×2ならオッズ比など)
- 結果を解釈 (統計的有意差と臨床的意義)
アプリで実行
関連ページ
対応のある分割表
対応のある分割表 (クロス集計表) については、以下のアプリをご利用ください。