分割表の説明
ここでは、対応のない通常の分割表 について説明します。
分割表とは
分割表 (クロス集計表) とは、2つのカテゴリー変数の関係を表にまとめたものです。
例: 治療法と治療結果
100人の患者を新薬群と対照群に分けて、治療の成功・失敗を調べた結果
| 成功 | 失敗 | 合計 | |
|---|---|---|---|
| 新薬群 | 40 | 10 | 50 |
| 対照群 | 25 | 25 | 50 |
| 合計 | 65 | 35 | 100 |
この表から「新薬群の方が成功率が高いようだが、これは偶然か?」を統計的に検定します。
分割表のサイズと使える検定
分割表は「行数×列数」でサイズを表します。サイズによって使える検定が異なります。
サイズが 1×2 または 2×1 の場合
例: コインを10回投げて、表が7回、裏が3回出た
| 表 | 裏 | |
|---|---|---|
| 回数 | 7 | 3 |
使える検定
- 二項検定: このコインは公正か? (表が出る確率=0.5として検定)
サイズが 2×2 の場合
例: 上記の治療法と結果の表
| 成功 | 失敗 | |
|---|---|---|
| 新薬群 | 40 | 10 |
| 対照群 | 25 | 25 |
使える検定・指標
- カイ二乗検定: 2つの変数が独立か (関連がないか) を検定
- Fisher正確確率検定: カイ二乗検定の正確版
- オッズ比・リスク比・リスク差: 効果の大きさを測る指標
サイズが 2×k または k×2 の場合
例: 治療法 (3群) と治療結果
| 成功 | 失敗 | |
|---|---|---|
| 治療A | 30 | 20 |
| 治療B | 25 | 25 |
| 治療C | 20 | 30 |
使える検定
- カイ二乗検定 / Fisher正確確率検定: 3群間に差があるかを検定
サイズが 2×k または k×2 の場合 (順序あり)
例: 薬の用量と治療成功率
| 成功 | 失敗 | |
|---|---|---|
| 低用量 | 10 | 40 |
| 中用量 | 20 | 30 |
| 高用量 | 35 | 15 |
使える検定
- カイ二乗検定 / Fisher正確確率検定: 基本的な独立性の検定
- Cochran-Armitage検定: 用量が増えるにつれて成功率が上がる「傾向」があるかを検定
- Cochran-Armitage検定の利点: 順序を考慮するため、単なるカイ二乗検定より検出力が高い
サイズが 3×3 以上の場合
例: 教育レベルと収入レベル (どちらも順序あり)
| 収入低 | 収入中 | 収入高 | |
|---|---|---|---|
| 中卒 | 30 | 15 | 5 |
| 高卒 | 20 | 25 | 15 |
| 大卒 | 10 | 20 | 30 |
使える検定
- カイ二乗検定 / Fisher正確確率検定: 基本的な独立性の検定
- 順序を考慮した分析 (両方の変数に順序がある場合)
- Spearman順位相関係数
- Kendall順位相関係数
- 線形併合カイ二乗検定
- Goodman-Kruskalのガンマ
カイ二乗検定 vs Fisher正確確率検定
カイ二乗検定
特徴
- p値は近似値
- 計算が速い
- サンプルサイズが大きい場合に適している
使える条件
- 各セルの期待度数が5以上
- サンプルサイズが十分に大きい
期待度数とは?
「2つの変数が独立 (関連がない)」と仮定したときに、各セルに入ると期待される値です。
上記の治療法の例
| 成功 | 失敗 | 合計 | |
|---|---|---|---|
| 新薬群 | 40 (期待値32.5) | 10 (期待値17.5) | 50 |
| 対照群 | 25 (期待値32.5) | 25 (期待値17.5) | 50 |
| 合計 | 65 | 35 | 100 |
全てのセルで期待度数≧5 なので、カイ二乗検定が使えます。
Fisher正確確率検定
特徴
- p値は正確な値 (近似ではない)
- 計算に時間がかかる場合がある
- サンプルサイズが小さくても使える
使うべき場合
- サンプルサイズが小さい
- 期待度数が5未満のセルがある
- より正確な結果が欲しい
どちらを使うべき?
| 状況 | 推奨 |
|---|---|
| 期待度数が全て5以上、サンプルサイズ大 | カイ二乗検定で十分 |
| 期待度数が5未満のセルがある | Fisher正確確率検定 |
| サンプルサイズが小さい | Fisher正確確率検定 |
| 計算時間が問題にならない | Fisher正確確率検定 (より正確) |
| 迷ったとき | 両方見る |
Fisher検定は「周辺度数を固定した条件付き検定」です。
- ✓ 偽陽性 (第一種の過誤) を減らせる → 慎重な結論
- ✗ 偽陰性 (第二種の過誤) が増える → 本当は差があるのに見逃す可能性
つまり、有意差を検出しにくい「保守的な検定」であることに注意してください。
2×2より大きな表へのFisher検定
Fisher検定は本来2×2分割表用ですが、より大きな表にも拡張されています。
問題点
- セル数が増えると計算量が爆発的に増える
- 一般的にはあまり使われない
推奨
- 2×2分割表: Fisher検定を積極的に使う
- それ以上: 期待度数が十分ならカイ二乗検定を使う
- 現代の統計ソフトでは3×3程度なら計算可能だが、それ以上は実用的でない
各検定手法の詳細
Cochran-Armitage検定 (比率の傾向の検定)
適用場面
- 2×k または k×2 の分割表
- 一方の変数に順序がある
- 順序に沿った「傾向」があるかを検証したい場合
検定の目的
| 成功 | 失敗 | |
|---|---|---|
| 低用量 (1錠) | 10 | 40 |
| 中用量 (2錠) | 20 | 30 |
| 高用量 (3錠) | 35 | 15 |
見た目では「用量が増えると成功率が上がる」ように見えます。
- カイ二乗検定: 3群間に「何らかの違い」があるかを検定
- Cochran-Armitage検定: 用量が増えるにつれて成功率が「単調に増加する傾向」があるかを検定
順序変数の相関分析 (3×3以上、両方に順序あり)
Spearman順位相関係数
測定内容: 2つの順序変数間の単調な関係の強さ
値の範囲: -1 (完全な負の相関) ~ +1 (完全な正の相関)
例
- 教育年数が長いほど収入が高い → 正の相関
- 運動量が多いほどBMIが低い → 負の相関
Kendall順位相関係数
測定内容: 2つの順序変数間の一致度
値の範囲: -1 ~ +1
Spearmanとの違い
- 計算方法が異なる
- Kendallの方が解釈しやすい場合がある
- Kendallの方がサンプルサイズが小さいときに安定
線形併合カイ二乗検定
検定内容: 行と列の変数間に線形関係があるかを検定
読み方: 線形-線形関連性検定 (Linear-by-Linear Association Test)
- 帰無仮説: 変数間に線形関連性がない
- 対立仮説: 変数間に線形関連性がある
Goodman-Kruskalのガンマ
測定内容: 2つの順序変数の順位の一致度
値の範囲
- +1: 完全な正の一致 (全てのペアが一致)
- 0: 順位の関連性がない
- -1: 完全な負の一致 (全てのペアが不一致)
二項検定
適用場面: 1×2 または 2×1 の分割表
検定内容: ある事象が起きる確率が0.5 (50%) かどうかを検定
例1: コイン投げ
- コインを10回投げて表が7回出た
- このコインは公正か? (表が出る確率=0.5)
例2: 患者の選好
- 100人の患者に新薬と旧薬を提示
- 65人が新薬を選んだ
- 「どちらでもいい」 (50%) ではなく、新薬が好まれている?
2×2分割表の効果指標
2×2分割表では、行を「群」、列を「イベントあり/なし」として、効果の大きさを測る指標を計算できます。
例: 治療法と合併症
| 合併症あり | 合併症なし | 合計 | |
|---|---|---|---|
| 新治療 | 10 | 90 | 100 |
| 標準治療 | 30 | 70 | 100 |
オッズ比 (Odds Ratio)
定義: 「イベントが起きる可能性」の比
計算
- 新治療のオッズ = 10/90 = 0.111
- 標準治療のオッズ = 30/70 = 0.429
- オッズ比 = 0.111/0.429 = 0.26
解釈: 新治療は標準治療に比べて合併症のオッズが0.26倍 (74%減少)
リスク比 (Risk Ratio / Relative Risk)
定義: 「イベントが起きる確率」の比
計算
- 新治療のリスク = 10/100 = 0.10
- 標準治療のリスク = 30/100 = 0.30
- リスク比 = 0.10/0.30 = 0.33
解釈: 新治療は標準治療に比べて合併症のリスクが0.33倍 (67%減少)
リスク差 (Risk Difference)
定義: 「イベントが起きる確率」の差
計算
- リスク差 = 0.10 - 0.30 = -0.20 = -20%
解釈: 新治療により合併症が20%減少する
- オッズ比: 症例対照研究、稀な疾患
- リスク比: コホート研究、RCT、より直感的
- リスク差: 臨床的に最も分かりやすい (「○○%減る」)
サンプルサイズと検出力
2×2分割表で「有意差なし (p>0.05)」という結果が出たとき
2つの可能性
1. 本当に差がない 2. 差はあるが、サンプルサイズが足りなくて検出できなかった
検出力とは
検出力: 本当に差があるときに、それを正しく検出できる確率
- 検出力80%: 差があるときに80%の確率で検出できる
- 検出力が低い → 差があっても見逃しやすい
サンプルサイズ計算
研究を始める前に「どれくらいのサンプルサイズが必要か」を計算します。
必要な情報
- 検出したい効果の大きさ (例: 成功率の差が20%)
- 有意水準 (通常α=0.05)
- 検出力 (通常80%または90%)
「有意差が出なかったので症例を追加して解析をやり直す」ことは統計的に不適切です。
これは「p値ハッキング」と呼ばれ、偽陽性 (誤った有意差) を増やします。
よくある質問
カイ二乗検定とFisher検定、どちらを報告すればいいですか?
一般的には以下の基準で判断します。
- サンプルサイズが大きい → カイ二乗検定
- サンプルサイズが小さい、期待度数<5 → Fisher正確確率検定
ちなみに、「Fisherは “正確” だから常にカイ二乗検定より望ましい」というのは誤解です。
オッズ比とリスク比、どちらを使うべきですか?
研究デザインによります。
- コホート研究・RCT → リスク比 (より直感的)
- 症例対照研究 → オッズ比 (リスク比が計算できない)
- 稀な疾患 → オッズ比とリスク比はほぼ同じ値になる
p値が0.05より少し大きい (例: p=0.06)。どのように扱うべきですか?
- 統計学的には「有意差なし」
- 「傾向あり (trend)」として報告されることもありますが、「効果量と信頼区間から判断して、臨床的に意味のある差である可能性が否定できない」といった、区間推定に基づいた解釈を推奨する記述を加えると、より現代的で洗練された回答になります。
- サンプルサイズが足りない可能性を検討する
- 臨床的意義と統計的有意差は別物であることに十分注意してください。
Yatesの連続性補正は使うべきですか?
- Yatesの補正は2×2分割表でカイ二乗検定をより保守的にする補正です。
- 現在では推奨されないことが多い
- 過度に保守的になり、検出力が下がる
- Fisher正確確率検定があればそちらを使う方が良い
- 古い論文では使われていることがあるので、知識として知っておく
3×3以上の表で有意差が出た。どの群間に差があるか知りたい
- カイ二乗検定は「どこかに差がある」ことしか分からない
- 事後検定 (post-hoc test) が必要
- 残差分析 (adjusted residuals)
- 群間の2×2比較 (多重比較補正が必要)
- 多重比較の問題: 比較を繰り返すと偽陽性が増える
- Bonferroni補正などで有意水準を調整
- 例: 3群比較なら3回比較 → p<0.05/3=0.0167を基準にする
サンプルサイズが非常に大きい場合の注意点は?
- サンプルサイズが数千〜数万と大きいと、些細な差でも有意になる
- 統計的有意差 ≠ 臨床的意義
- 必ず効果量 (オッズ比、リスク比など) を報告し、実質的な差の大きさを評価する
- 例: p<0.001でも、オッズ比が1.05なら臨床的には意味が薄い
片側検定と両側検定、どちらを使うべきですか?
- 原則として両側検定を使う
- 片側検定を使うのは
- 理論的・倫理的に一方向の差しかあり得ない場合のみ
- 事前に明確に計画し、プロトコルに記載
- 論文では片側検定の根拠を明確に説明する必要がある
- 迷ったら両側検定
信頼区間も報告すべきですか?
はい。必ず報告してください。
- p値だけでは効果の大きさと不確実性が分からない
- オッズ比、リスク比には必ず95%信頼区間を付ける
- 例: 「オッズ比 0.26 (95%CI: 0.12-0.58, p=0.001)」
- 信頼区間が1をまたぐ → 統計的に有意でない
- 信頼区間が広い → 推定の不確実性が大きい
期待度数が0のセルがある場合はどうすればいいですか?
- 期待度数が0 → カイ二乗検定もFisher検定も適用できない
- 対処法
- カテゴリを統合する (例: 「3段階」→「2段階」に)
- サンプルサイズを増やす
- そもそもそのカテゴリが必要か再検討
- 無理に統計検定せず、記述統計として報告することも選択肢
セルの度数が極端に少ない (1や2) 場合はどうすればいいですか?
- カイ二乗検定は不適切 → Fisher正確確率検定を使う
- それでも不安定な結果になる可能性
- 対処法
- カテゴリを統合する
- サンプルサイズを増やす
- ノンパラメトリック検定を検討
- 結果の解釈は慎重に行い、限界を明記する
カテゴリを統合するときの注意点は?
- データを見る前に決める (データドリブンな統合は避ける)
- 臨床的・理論的に意味のある統合をする
- 良い例: 「軽症・中等症」vs「重症」
- 悪い例: p値が良くなるように適当に統合
- 統合の根拠を論文に明記
- 統合前と統合後の両方を報告することも
同じデータで複数の検定を試すのは問題ですか?
はい。問題があります。
- いわゆる「p値ハッキング」「HARKing」
- 複数の検定を試して、有意になったものだけ報告 → 偽陽性が増える
- 正しいアプローチ
- 事前に検定方法を決める
- 複数検定した場合は全て報告
- 探索的分析と確認的分析を明確に区別
Reactive stat では、利用者の利便性を優先し、同時に複数の検定を行う場合がありますが、事前に決めた検定方法の結果を採用してください (Reactive stat のこの方針には賛否ありますが敢えて使いやすさを優先しています)。
繰り返し測定データ (同じ患者の治療前後など) で分割表を作っていいですか?
いいえ。通常の分割表検定は使えません。
- カイ二乗検定・Fisher検定は独立性を仮定
- 同じ患者の治療前後 → データが対応している
- 正しい方法
- 一般化線形混合モデル (ロジスティック混合モデルなど)
- 独立性を無視すると誤った結論になる
「関連がある」と「因果関係がある」は同じですか?
いいえ。全く別物です。
- 分割表検定で分かるのは「関連 (association)」のみ
- 因果関係を示すには
- ランダム化比較試験 (RCT)
- 時間的前後関係
- 他の要因の除外
- 生物学的妥当性
- 論文での表現に注意
- ○「関連が見られた (associated with)」
- ×「〜が〜を引き起こした (caused)」
効果量は必ず報告すべきですか?
はい。特に論文では必須です。
- p値だけでは効果の大きさが分からない
- 報告すべき効果量
- 2×2分割表: オッズ比、リスク比、リスク差 (95%CI付き)
- それ以上: Cramérのφ、Cramérの V
- 効果量が小さいのに有意 → サンプルサイズが大きいだけ
- 効果量が大きいのに非有意 → サンプルサイズ不足の可能性
欠損値がある場合はどうすればいいですか?
- 方針1: 完全症例分析 (欠損のあるケースを除外)
- 最もシンプル
- バイアスの可能性がある
- 方針2: 欠損値を1カテゴリとして扱う
- 欠損のパターンに意味がある場合
- 方針3: 多重代入法
- より高度だが推奨される
- どの方針を採用したか必ず明記
- 欠損データの割合と性質を記述
論文にはどのように結果を書けばいいですか?
必須要素
1. 分割表そのもの (実測値) 2. 使用した検定名 3. 検定統計量 (χ²値など) 4. 自由度 5. p値 6. 効果量と95%信頼区間 (2×2なら必須)
記述例 「新薬群は対照群に比べて有意に高い成功率を示した (χ²=10.26, df=1, p=0.001, Fisher正確確率検定 p=0.002, オッズ比=4.00, 95%CI: 1.75-9.14)」
カイ二乗値が自由度より小さいです。何か間違っていますか?
問題ありません。
- χ²値は0以上の任意の値を取る
- 自由度より小さくても正常
- χ²値が小さい = 観測値と期待値の差が小さい = 独立性が高い
- p値が大きくなる (有意でない) ことが多い
順序のあるカテゴリを名義尺度として分析してもいいですか?
可能ですが推奨されません。
- 順序情報を無視すると検出力が下がる
- 正しいアプローチ
- 2×k (順序あり): Cochran-Armitage検定
- k×k (両方に順序): Spearman/Kendall相関、線形併合検定
- 順序を考慮した方が統計的に効率的
- ただし、順序が明確でない場合は名義尺度でOK
まとめ
分割表分析の手順
- 表のサイズを確認 (1×2? 2×2? それ以上?)
- 順序の有無を確認 (順序あり? なし?)
- 適切な検定を選択 (上記の表を参照)
- サンプルサイズを確認 (期待度数は5以上?)
- 検定を実行 (カイ二乗 or Fisher)
- 効果の大きさを評価 (2×2ならオッズ比など)
- 結果を解釈 (統計的有意差と臨床的意義)
アプリで実行
対応のある分割表
対応のある分割表 (クロス集計表) については、以下のアプリをご利用ください。