対応のある分割表 (クロス集計表) [直接入力]

McNemar検定, Bowker検定 (McNemar-Bowkerの対称検定), Stuart-Maxwell検定

データファイルから計算する場合はこちら

解説

McNemar検定 - 対応のある比率の比較

McNemar検定は、関連する二値変数 (例えば、前後の治療効果や診断法の効果など) において、それらの間での変化や差を統計的に評価するための手法です。

検定の帰無仮説は「2つの測定間で変化の方向性に差がない」というものです。

この検定は特に、同じサンプルに対して2回異なる条件や時点での測定を行った際に、その前後の変化を調査するのに適しています。

例: 新しい診断法の評価

ある疾患に対する新規診断法Aについて、既存の診断法Bと比較して、その効果を評価する場合を想定します。 100名の患者に対する、両方の診断法の結果は以下の通りです。

	方法B: 陽性	方法B: 陰性
方法A: 陽性	40	5
方法A: 陰性	10	45

このテーブルから、以下の情報を読み取ることができます

40人は両方の方法で陽性と診断されました。
45人は両方の方法で陰性と診断されました。
5人は方法Aで陽性、方法Bで陰性と診断されました。
10人は方法Aで陰性、方法Bで陽性と診断されました。

McNemar検定では、主に対角線上にないセルの値 (この例では5と10) の違いに注目します。これらのセルは、異なる方法で異なる結果が得られたケースを表しています。一方、対角線上のセルは、両方の方法で同じ結果 (陽性または陰性) が得られた患者の数を示しており、McNemar検定ではこの部分の値の差異には注目しません。つまり、McNemar検定は、異なる方法によって結果が変わったケース対して行われます。

検定の前提条件

データは対応のある (マッチした) ペアである必要があります
各測定値は互いに独立している必要があります
測定値は二値 (2カテゴリー) である必要があります

検定の実施 (補正なしの場合)

\[ χ^2 = \frac{(5 - 10)^2}{(5 + 10)} = \frac{25}{15} = 1.67 \]

この結果はカイ二乗分布の自由度1のもとで評価されます。ここで得られた値が有意水準 (例えば0.05) よりも小さい場合、方法Aと方法Bの間に有意な差があると結論付けることができます。

解釈

この例では、5人と10人の間には5人の差があるので、新しい診断方法Aが既存の方法Bと異なる可能性が示唆されます。しかし、McNemar検定 (補正あり) の結果、χ2統計量: 1.667, p値: 0.197 となりますので、有意差はありません。

注意点

McNemar検定は、サンプルがマッチしたペア (たとえば、同じ患者の前後の治療結果) である場合や、同一対象者に対する反復測定のデータに適用されます。
独立した2つのサンプル群 (例えば、異なる患者群間の比較) に対しては使用することは適切ではありません。
一般的に、非対角要素の合計が10以上の場合は補正なしの検定を、10未満の場合は連続性の補正を適用することが推奨されます。
効果の大きさを評価する場合は、オッズ比 (b/c) とその95%信頼区間も併せて報告することが推奨されます。
McNemar検定 (補正あり) は過度に保守的となりすぎる場合があります。
- 正確検定の改良版の Mid-p法 が一般的に推奨されます。
- 詳細をまとめたページを作りました。

Bowker検定 (McNemar-Bowkerの対称検定) - 3×3以上の分割表での対称性の評価

Bowker検定は、3値以上のカテゴリーを持つ対応のあるデータに適用できる検定手法で、McNemar検定を拡張したものです。

Bowker検定は、同じ対象に対して2回以上の測定を行った際の結果が3値以上のカテゴリーを持つ場合に、これらのカテゴリー間での変化が偶然によるものかどうかを検定します。すなわち、McNemar検定が2×2の分割表に対して用いられるのに対し、Bowker検定は3×3またはそれ以上の分割表に対して用いることができます。

検定の帰無仮説は「対称位置にあるセルの確率が等しい (変化の対称性がある)」というものです。

例: ある治療法の結果の評価

例えば、ある治療法が3つの異なる結果 (改善、不変、悪化)を生じさせる可能性がある場合、同一の患者群に対して治療前後での状態変化を3×3のテーブルで表し、治療による効果の有無を統計的に評価します。

	方法B: 改善	方法B: 不変	方法B: 悪化	合計
方法A: 改善	12	18	10	40
方法A: 不変	9	8	29	46
方法A: 悪化	8	13	10	31
合計	29	39	49	117

検定の前提条件

データは対応のある (マッチした) ペアである必要があります
各測定値は互いに独立している必要があります
カテゴリーは互いに排他的である必要があります (1つのケースが同時に複数のカテゴリーに属することはできません)
カテゴリーの順序は問いません (順序尺度である必要はありません)

注意点

小さいサンプルサイズでは、統計的な検出力が低下する可能性があります。
カテゴリー数が増えるほど、必要なサンプルサイズも大きくなります。
セルの期待度数が小さい場合 (一般的に5未満)、検定の信頼性が低下する可能性があります。

Stuart-Maxwell検定 - 周辺分布の同質性の評価

Stuart-Maxwell検定は、対応のあるカテゴリカルデータにおいて、周辺分布の同質性 (marginal homogeneity) を評価するための統計的手法です。

このテストは、各評価者がそれぞれのカテゴリーをどの程度の割合で使用しているかの差を評価します。例えば、評価者Aと評価者Bで、すべてのカテゴリーの使用頻度に偏りがないかを検証します。

Bowker検定との違い

Bowker検定: 対称性を評価 (例: 「改善→悪化」と「悪化→改善」の変化が同じ確率で起こるか)
Stuart-Maxwell検定: 周辺分布の同質性を評価 (例: 評価者AとBでそれぞれのカテゴリーの診断割合に差があるか)

例: ある治療法の結果の評価 例えば、ある治療法の前後での状態変化を評価する場合

	方法B: 改善	方法B: 不変	方法B: 悪化	合計
方法A: 改善	12	18	10	40
方法A: 不変	9	8	29	46
方法A: 悪化	8	13	10	31
合計	29	39	49	117

このような場合、以下を評価できます

方法Aは「改善」が40例 (34.2%)、「不変」が46例 (39.3%)、「悪化」が31例 (26.5%)
方法Bは「改善」が29例 (24.8%)、「不変」が39例 (33.3%)、「悪化」が49例 (41.9%)
このようなすべてのカテゴリーにおける割合の違いが統計的に有意かどうかを検定

検定の前提条件

データは対応のある (マッチした) ペアである必要があります
各測定値は互いに独立している必要があります
カテゴリーは互いに排他的である必要があります
カテゴリーの順序は検定結果に影響しません

注意点

小さいサンプルサイズでは、統計的な検出力が低下する可能性があります
カテゴリー数が増えるほど、必要なサンプルサイズも大きくなります
セルの期待度数が小さい場合、検定の信頼性が低下する可能性があります
検定結果の解釈は、臨床的な文脈を考慮して行う必要があります

	{{legendX}}
{{legendY}}		合計
	{{ tableData.data[rowIdx-1][colIdx-1] \|\| 0}}	{{ tableSum.rows[rowIdx-1] }}
	{{ tableSum.cols[colIdx-1] }}	{{ tableSum.total }}

分類内容	値
{{ item.tag }}

データ可視化・探索的分析

名義変数の解析

連続変数の解析

統計的モデリング

クラスタ分析

生存期間の解析

メタアナリシス

検査の正確度

傾向スコアによる解析

比率(割合)のサンプルサイズ

平均値のサンプルサイズ

生存時間のサンプルサイズ

対応のある分割表 (クロス集計表) [直接入力]

解説

McNemar検定 - 対応のある比率の比較

Bowker検定 (McNemar-Bowkerの対称検定) - 3×3以上の分割表での対称性の評価

Stuart-Maxwell検定 - 周辺分布の同質性の評価

アプリ

{{title}}

データの取り扱い

クラウド R を利用する時のデータ送信

AI による解説を利用する時のデータ送信

チェックされた行が削除対象となります

削除対象の行

データ入力

AI による R コードの解説

R の出力結果

R出力図形

AI による R 出力結果の解説

シートを選択してください

SVG出力オプション

フォント設定

色設定

境界線設定

プレビュー

データ

設定

結果

McNemar検定の結果

Bowker検定 (McNemarの検定の拡張, McNemar-Bowkerの対称検定) の結果

補正なし

補正あり

正確確率法

Mid-p法

Stuart-Maxwell 検定

クラウド R 分析