評価者の一致度 (直接入力)

Kappa係数, McNemar検定, Bowker検定, Stuart-Maxwell検定

評価者間の一致度を評価する指標です。観測された一致度から、偶然による一致度の影響を補正します。

  • Kappa係数の推定値
    • 値域は通常 -1 から 1 の範囲
    • 1 は完全な一致
    • 0 は偶然による一致と同程度
    • 負の値は偶然による一致よりも悪い一致を示す
    • 0.81-1.00: ほぼ完全な一致(Almost perfect)
    • 0.61-0.80: かなりの一致(Substantial)
    • 0.41-0.60: 中等度の一致(Moderate)
    • 0.21-0.40: まずまずの一致(Fair)
    • 0.00-0.20: わずかな一致(Slight)
    • <0: 劣悪な一致(Poor)
  • 重み付きKappa係数
    • 順序カテゴリーでの不一致の程度を考慮した指標です。
    • 不一致を二次関数的に評価し、カテゴリー間距離の2乗の重みを付けます。
  • Z統計量
    • Kappa係数が 0 (偶然による一致) との差を評価する検定統計量です。標準正規分布に従います。
    • 帰無仮説: \(\kappa = 0\) (真のKappa係数は0である)
    • 対立仮説: \(\kappa ≠ 0\) (両側検定の場合)

データファイルから集計して検定する場合はこちら

2×2分割表における対称性を評価する検定です。対応のある二値データで使用されます。

  • 帰無仮説: 周辺確率が等しい(\(p_{1⋅} = p_{⋅1}\))
  • 検定統計量: \(\chi^2 = \frac{(b_{12} - b_{21})^2}{b_{12} + b_{21}}\)
    • \(b_{12}, b_{21}\) は非対角要素の度数
  • 自由度: \(df = 1\)
  • 用途
    • 介入前後での変化の評価
    • 二人の評価者による二値分類の比較

3×3以上の場合は、McNemar検定を拡張した Bowker検定 を行います。

  • 帰無仮説: すべての対応する非対角要素の確率が等しい(\(p_{ij} = p_{ji}\) for all \(i≠j\))
  • 検定統計量: \(\chi^2 = \sum_{i<j} \frac{(b_{ij} - b_{ji})^2}{b_{ij} + b_{ji}}\)
    • \(b_{ij}\) は \((i,j)\) 要素の度数
  • 自由度: \(df = k(k-1)/2\)
  • 用途
    • 3カテゴリー以上の対応のあるデータの対称性評価
    • 複数カテゴリーでの評価者間比較

データファイルから集計して検定する場合はこちら

3×3以上の場合に、対応のある名義尺度データの周辺同質性を検定します。

  • 帰無仮説: すべての周辺確率が等しい(\(p_{1⋅} = p_{⋅1}, p_{2⋅} = p_{⋅2}, …, p_{k⋅} = p_{⋅k}\))
  • 検定統計量: \(Q = d'Σ^{-1}d \sim \chi^2(k-1)\)
    • \(d\) は行の周辺確率から列の周辺確率を引いた差のベクトル
    • \(Σ\) は分散共分散行列
  • 自由度: \(df = k-1\)(\(k\)はカテゴリー数)
  • 特徴
    • Bowker検定より検出力が高いとされる
    • カテゴリーデータを名義尺度として扱う (例: 軽症/中等症/重症 などの順序性は考慮しない)
      • カテゴリーの配置順序は検定結果に影響するため、理論的・臨床的に妥当な順序で解析を行う必要があります
  • 用途
    • 評価基準の変化の検出
    • 評価者間の系統的な偏りの評価

評価者1
評 価 者 2