分割表 (クロス集計表) [直接入力]
解説
このページでは、6×6までの分割表 (クロス集計表) に直接数値を入力して、カイ二乗検定 (Chi-square test) および Fisher の正確確率検定 (Fisher's Exact Test) を行うことができます。
順序のある2行または2列 (n x 2, 2 x n) のデータには、比率の傾向の検定 (Cochran-Armitage検定) を行うことができます。
順序のある 3 x 3 以上のデータには、Spearmanの順位相関係数、Kendallの順位相関係数、線形併合カイ二乗検定、Goodman-Kruskal のガンマの計算 を行うことができます。
2 x 2 のデータには、行を群、列を 列1: イベントあり, 列2: イベントなし として、オッズ比、対数オッズ比、リスク比、対数リスク比、リスク差 を計算します。
1×2 または 2×1 のデータには、確率=0.5 とした二項検定を行います。
データを入力すると、有効な範囲の背景色が変化し、その範囲が統計計算の対象領域となります。
複数の分割表をまとめた サマリー表を作成する機能 (Table One) も用意してあります。
分割表の説明
カイ二乗検定とFisher の正確確率検定の使い分け
- カイ二乗検定:
- 得られる p値は近似値です。
- 大きなサンプルサイズの場合に適しています。
- 期待度数が十分に大きい(一般的には各セルの期待度数が5以上)場合に適切です。
- サンプルサイズが大きい場合、近似的なp値は正確です。
- Fisherの正確確率検定:
- 得られる p値は正確に計算された値あり、近似値ではありません。
- 小さいサンプルサイズや、いずれかのセルの期待度数が小さい(5未満)場合に適しているとされます。
- 特に、データが十分に大きくない場合や、データが非常に不均一な分布を示す場合に有効です。
- カイ二乗検定の近似が不適切な場合に、より正確な代替手段となります。
計算時間が問題にならなければ常にFisherの正確確率検定はカイ二乗検定よりも精度が高いと考えられます。 しかし、サンプルサイズが大きく、期待度数が十分にある場合には、カイ二乗検定でも十分な精度が得られます。
また、Fisherの正確確率検定は、周辺度数を固定した条件付き検定であるため、可能な配置の組み合わせが制限され、実際の有意水準が名目上の有意水準より小さくなりやすい傾向があります。 すなわち、第一種の過誤 (偽陽性) の確率が低く抑えられる一方で、第二種の過誤 (偽陰性) の確率が増加する傾向があり、実際には差があるケースでも「差がない」と判断してしまう可能性が高くなります。
どちらの検定を選ぶかは、データの大きさと研究の目的に応じて判断するのがよいでしょう。
- 2×2より大きなセル数の分割表に対する Fisherの正確確率検定
- Fisherの正確確率検定は、本来は 2×2分割表に対する検定ですが、それより大きなセル数の表に対する拡張が行われ、クラウド R でも実行することができます。
- 一般的な統計的手法としてはあまり広く使われていません。その理由は、セルの数が増えると、計算に必要な可能な組み合わせの数が急速に増加し、計算時間が非常に長くなることがあります。
- 実際に、クラウド R においても、ワークスペースの不足により実行エラーになる場合がしばしば発生します。
比率の傾向の検定 (Cochran-Armitage検定)
2つのカテゴリー間(例えば、成功と失敗)の比率に順序的な傾向が存在するかを評価します。
2 x k もしくは k x 2 (k >=3) の列連関表を使用し、例えば、薬の投与量 (低用量、中用量、高用量) と治療の成功率との間に関連性があるかを検討します。
順序のある 3 x 3 以上の分割表の分析
行と列の両方に順序がある場合には、Spearmanの順位相関係数、Kendallの順位相関係数、線形併合カイ二乗検定、Goodman-Kruskalのガンマ係数 にて分析を行うことができます。
Spearmanの順位相関係数
2つの順序変数間の単調な関係の強さを測定します。
Kendallの順位相関係数
2つの順序変数間の一致度を測定します。
線形併合カイ二乗検定
行と列の変数間の線形関係の有無を検定します。
線形-線形関連性検定 (Linear-by-Linear Association Test) とも表現されます。
この検定は、順序変数を扱う際に有用な手法です。例えば、治療法の効果と症状の重症度の関係を調べるような場合に使えます。
- 帰無仮説: 変数間に線形関連性がない
- 対立仮説: 変数間に線形関連性がある
- 検定統計量の計算: カイ二乗統計量
- p値の算出: カイ二乗分布に基づいて有意水準と比較し、帰無仮説の採択/棄却を判断
Goodman-Kruskal のガンマ
2つの順序変数の間の順位の一致度を評価します。具体的には、2つの変数がどの程度一貫して順位付けされているかを示します。 ガンマは -1 から +1 の値を取ります:
- +1: 完全な正の一致(すべてのペアが一致している)
- 0: 順位の関連性がない
- -1: 完全な負の一致(すべてのペアが不一致)
これらの方法は、カテゴリ間の順序を考慮するため、通常のカイ二乗検定よりも検出力が高くなる可能性があります。
二項検定
分割表が 1×2 または 2×1 になる場合は、確率=0.5 とした二項検定を行います。 二項分布は、同じ条件で何回も試行を繰り返したとき、特定の結果(成功)が起こる回数を予測するものです。
二項分布の特徴:
- 結果は「成功」か「失敗」の2つだけ
- 各試行の成功確率は常に同じ
- 例:コイン投げ
- コインを10回投げるとき、表が出る回数を予測するのに使えます。 例えば、「表が5回出る確率」や「表が7回以上出る確率」を計算できます。
2群の比率の比較のための検出力およびサンプルサイズの計算
2 x 2 分割表にて有意差がない場合、検出力やサンプルサイズを計算してみると解釈が容易となることがあります。 すなわち、症例数が足りないから有意差が出ないのか、本当に差が無い可能性が高いのかを考える上で有用です。 ただし、「足りないからあと少し症例を追加して解析をやり直す」ことは適切でないとされています。
{{colNames[colIdx-1]}} | |
---|---|
{{rowNames[rowIdx-1]}} {{colNames[rowIdx-1]}} |
分類内容 | 値 | |
{{ item.tag }} |
データの取り扱い
- データインポート
- データの読み込みは、ブラウザ内で完結し、外部へのデータ送信は発生しません。
- データ保持
- 読み込んだデータはブラウザ内に保持されます。
- ブラウザのセッションが終了または全てのタブが閉じられると、保持していたデータは自動的に破棄されます。
- データの安全性
- ブラウザがクラッシュした場合でも、10分経過すれば次回の起動時にデータは安全に消去されます。
- 共用のPCでの使用も考慮し、データの外部漏洩のリスクを最小化しています。
クラウド R を利用する時のデータ送信
- 最小限のデータ送信
- 外部のRサーバーへ送信されるデータは、数値計算に必要な最小限のセットに制限されています。
- 送信データは解析に必要なサブセットのみに限られます。
- ユーザーコントロール下のデータ送信
- 送信前に、どのデータが外部サーバーへ送信されるのか内容を確認することが可能です。
- データの送信はユーザーの操作により行われ、自動的な送信は行いません。
- クラウド R 出力結果の保持
- クラウド R からの出力結果は、将来の自動翻訳や自動解説の機能実現のため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
- 通信経路も全て暗号化していますので、たとえプライバシーに関わる情報が含まれていたとしても、通常は漏洩する恐れはありません。
AI による解説を利用する時のデータ送信
- 最小限のデータ送信
- 外部のAIサーバーへ送信されるデータは、クラウド R の出力結果と、用いた統計手法の徐放です。
- ただし、クラウド R の出力結果に連続した数値データが含まれる場合は、AI にデータ形式を認識させる目的で、連続データの最初の行のみを送信します。
- クラウド R 出力結果の保持
- AI による解説内容は、将来の品質向上などのため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
Reactive stat において、統計データの変数は、通常の数値や文字列として扱われます。 したがって、日付や時間の概念は直接的にはサポートされていません。
統計計算を行う際には、日付や時間の差分を数値として事前に用意しておく必要があります。
チェックされた行が削除対象となります
欠損値を含むカラムを選択
カラムを選択
削除対象の行
データ入力
R の出力結果
R出力図形
AI による R 出力結果の解説
- データ: カラム名 (列名) をそのまま記述するか、"列名" のようにダブルクォートで挟んで指定
- 算術演算子: +, -, *, /, ()
- 基本関数: abs(), sqrt(), pow(), exp(), log(), log10()
- 三角関数: sin(), cos(), tan(), asin(), acos(), atan()
- 丸め関数: round(), floor(), ceil()
体重 / pow(身長, 2)
, "体重" / ("身長" * "身長")
{{ column }}
{{legendX}} | ||
---|---|---|
{{legendY}} | 合計 | |
{{ tableData.data[rowIdx-1][colIdx-1] || 0}}
|
{{ tableSum.rows[rowIdx-1] }}
|
|
{{ tableSum.cols[colIdx-1] }}
|
{{ tableSum.total }}
|
データ
設定
結果
カイ二乗検定 (Chi-Square test)
カイ二乗検定 (補正無し)
カイ二乗検定 (Yates' の補正あり)
クラウド R 分析
Fisher の正確確率検定
クラウド R 分析
セルの数が大きすぎて Fisher の正確確率検定に計算時間がかかりすぎる懸念があるため、クラウド R 分析を実行できません。
二項検定
クラウド R 分析
オッズ比・リスク比・リスク差 (2x2分割表)
a = {{tableData.data[0][0]}} | b = {{tableData.data[0][1]}} |
c = {{tableData.data[1][0]}} | d = {{tableData.data[1][1]}} |
{{ method }}を用いた計算結果
指標 | 値 | 95%信頼区間 | p値 |
---|---|---|---|
{{ item }} | {{ val.estimate.cp3 }} | [{{ val.ci[0].cp3 }}, {{ val.ci[1].cp3 }}] | {{ val.pValue.cp3 }} |
計算に失敗しました。クラウド R で実行してください。
クラウド R 分析
リスク差 の 同等性検定 (2x2分割表)
被験群のリスク: {{equivalence.riskTest.cp4}}
対照群のリスク: {{equivalence.riskControl.cp4}}
リスク差: {{(equivalence.riskTest - equivalence.riskControl).cp4}}
二群の差の信頼区間が完全に (-δ, δ) の範囲内にある場合、2群は同等であると判断されます。
同等性マージンが設定されていません
クラウド R 分析
比率の傾向の検定 (Cochran-Armitage検定)
群別変数に、{{ joinedColNames }} の順序があると仮定して比率の傾向の検定を行います。(順序は設定にて変更できます)
群別変数に、{{ joinedRowNames }} の順序があると仮定して比率の傾向の検定を行います。(順序は設定にて変更できます)
表の上段を「有効」、下段を「無効」として扱います。(実際は入れ替わっていても結果は同じになります)
表の左列を「有効」、右列を「無効」として扱います。(実際は入れ替わっていても結果は同じになります)
クラウド R 分析
順序のある分割表の分析
行と列の両方に順序があると仮定して、Spearmanの順位相関係数、Kendallの順位相関係数、線形併合カイ二乗検定、Goodman-Kruskalのガンマ係数 にて分析を行います。(順序は設定にて変更できます)
群分類に複数のカラムを選択して組み合わせた場合には、組み合わせ全体に順序があると仮定します。
例えば、群分類が [A, B, C] で副群分類が [1, 2] の場合、[A1, A2, B1, B2, C1, C2] の順序を想定します。
それぞれのカラムの順序を層別化しての検定には対応していませんので注意してください。
クラウド R 分析