評価者の一致度 (直接入力)

Kappa係数, McNemar検定, Bowker検定, Stuart-Maxwell検定

解説

Kappa係数 (\(\kappa\))

評価者間の一致度を評価する指標です。観測された一致度から、偶然による一致度の影響を補正します。

Kappa係数の推定値
- 値域は通常 -1 から 1 の範囲
- 1 は完全な一致
- 0 は偶然による一致と同程度
- 負の値は偶然による一致よりも悪い一致を示す
解釈の目安 (Landis JR, Koch GG. The Measurement of Observer Agreement for Categorical Data. Biometrics. 1977;33(1):159-174)
- 0.81-1.00: ほぼ完全な一致（Almost perfect）
- 0.61-0.80: かなりの一致（Substantial）
- 0.41-0.60: 中等度の一致（Moderate）
- 0.21-0.40: まずまずの一致（Fair）
- 0.00-0.20: わずかな一致（Slight）
- <0: 劣悪な一致（Poor）
重み付きKappa係数
- 順序カテゴリーでの不一致の程度を考慮した指標です。
- 不一致を二次関数的に評価し、カテゴリー間距離の2乗の重みを付けます。
Z統計量
- Kappa係数が 0 (偶然による一致) との差を評価する検定統計量です。標準正規分布に従います。
- 帰無仮説: \(\kappa = 0\) (真のKappa係数は0である)
- 対立仮説: \(\kappa ≠ 0\) (両側検定の場合)

McNemar検定

データファイルから集計して検定する場合はこちら

2×2分割表における対称性を評価する検定です。対応のある二値データで使用されます。

帰無仮説: 周辺確率が等しい（\(p_{1⋅} = p_{⋅1}\)）
検定統計量: \(\chi^2 = \frac{(b_{12} - b_{21})^2}{b_{12} + b_{21}}\)
- \(b_{12}, b_{21}\) は非対角要素の度数
自由度: \(df = 1\)
用途
- 介入前後での変化の評価
- 二人の評価者による二値分類の比較

3×3以上の場合は、McNemar検定を拡張した Bowker検定 を行います。

帰無仮説: すべての対応する非対角要素の確率が等しい（\(p_{ij} = p_{ji}\) for all \(i≠j\)）
検定統計量: \(\chi^2 = \sum_{i<j} \frac{(b_{ij} - b_{ji})^2}{b_{ij} + b_{ji}}\)
- \(b_{ij}\) は \((i,j)\) 要素の度数
自由度: \(df = k(k-1)/2\)
用途
- 3カテゴリー以上の対応のあるデータの対称性評価
- 複数カテゴリーでの評価者間比較

Stuart-Maxwell検定

データファイルから集計して検定する場合はこちら

3×3以上の場合に、対応のある名義尺度データの周辺同質性を検定します。

帰無仮説: すべての周辺確率が等しい（\(p_{1⋅} = p_{⋅1}, p_{2⋅} = p_{⋅2}, …, p_{k⋅} = p_{⋅k}\)）
検定統計量: \(Q = d'Σ^{-1}d \sim \chi^2(k-1)\)
- \(d\) は行の周辺確率から列の周辺確率を引いた差のベクトル
- \(Σ\) は分散共分散行列
自由度: \(df = k-1\)（\(k\)はカテゴリー数）
特徴
- Bowker検定より検出力が高いとされる
- カテゴリーデータを名義尺度として扱う (例: 軽症/中等症/重症などの順序性は考慮しない)
  - カテゴリーの配置順序は検定結果に影響するため、理論的・臨床的に妥当な順序で解析を行う必要があります
用途
- 評価基準の変化の検出
- 評価者間の系統的な偏りの評価

アプリ

データ

評価者１

評価者２

信頼区間 (%)

結果