Fleiss の Kappa係数

解説

Fleiss の Kappa係数は、3人以上の評価者間の一致度を評価するための統計的手法です。 医療診断、画像判定、テキスト分類など、複数の評価者が同じ対象を評価する場合の信頼性を定量化するために広く使用されています。

前提条件

  • 評価対象が2つ以上
  • 評価者が2人以上
  • 各評価者は独立して評価を行う
  • 評価カテゴリーは名義尺度 (または順序尺度) である

重要な概念

Kappa係数の解釈:

観察された一致度期待される一致度:

  1. 観察された一致度: 実際のデータで観察された評価者間の一致の程度
  2. 期待される一致度: 偶然によって生じる一致の程度

計算要素

  • Kappa係数 = (観察された一致度 - 期待される一致度) / (1 - 期待される一致度)
  • 95%信頼区間: 同じ条件で測定を繰り返した場合に、計算される区間の95%が母集団の真のKappa係数を含むような区間
  • Z値: Kappa係数を標準誤差で割った値
  • p値: 帰無仮説 (評価者間の一致が偶然による以上のものでない) が正しいと仮定した場合に、観測されたデータと同じかそれ以上に極端なデータが得られる確率

具体例

4人の病理医が20個の検体について「癌」か「腺腫」かを診断した結果の一致度を検討します。

検体番号 病理医1 病理医2 病理医3 病理医4
01
02 腺腫
03 腺腫 腺腫 腺腫 腺腫

例えばある検体では、全員ががんと診断していますが、ある検体は、3人が癌、1人が腺腫と診断しています。

分析の結果:

統計量 解釈
Kappa係数 0.65 実質的な一致 (substantial) の範囲
標準誤差 0.0913 Kappa係数の推定精度を示す
95%信頼区間 0.471 ~ 0.829 「中程度の一致」から「ほぼ完全な一致」まで広がっている
Z値 7.12 Kappa係数を標準誤差で除した値
p値 <0.00001 評価者間の一致が偶然では説明できないことを示唆

解釈のポイント

  • p値が極めて小さいため、評価者間の一致は明らかに偶然以上のものと判断できます
    • この例の場合は当然ですので、有意であることに意味がありません。
  • 係数0.65は臨床的に意味のある一致度を示していますが、完全な一致からは距離があります
  • 信頼区間の幅は比較的広く、より精確な推定には更なるサンプルサイズが必要かもしれません

注意点

  • 複数の評価者間の一致度を単一の指標で表現できます
  • 評価者は必ずしも同一である必要はありません
  • カテゴリー数は2つ以上であれば任意の数に対応可能です
  • カテゴリーは名義尺度であることを前提としています
    • 順序尺度であっても、その順序性は考慮されませんので、例えば 癌/腺腫/正常 などの診断の一致度をみる目的には適切ではありません。
  • 部分的な一致は考慮されません
  • 評価者数が増えるほど、高い一致度を得ることが難しくなる傾向があります
  • カテゴリー数が増えると、一般的に一致度は低くなる傾向があります

データ形式

通常、long Format が適切です。 必要に応じて変換できます。
Wide format のデータを Long Format に変換

データ

設定