分割表の作成と群間の比率の比較
解説
このページでは、データの中から変数を選択し、それを基に分割表を作成して、カイ二乗検定 (Chi-square test) および Fisher の正確確率検定 (Fisher's Exact Test) を行うことができます。
順序のある2行または2列 (n x 2, 2 x n) のデータには、比率の傾向の検定 (Cochran-Armitage検定) を行うことができます。
順序のある 3 x 3 以上のデータには、Spearmanの順位相関係数、Kendallの順位相関係数、線形併合カイ二乗検定、Goodman-Kruskal のガンマの計算 を行うことができます。
クラウドR にて P値関数 を描画できます。
複数の分割表をまとめた サマリー表を作成する機能 (Table One) も用意してあります。
{{colNames[colIdx-1]}} | |
---|---|
{{rowNames[rowIdx-1]}} |
分類内容 | 値 | |
{{ item.tag }} |
データの取り扱い
- データインポート
- データの読み込みは、ブラウザ内で完結し、外部へのデータ送信は発生しません。
- データ保持
- 読み込んだデータはブラウザ内に保持されます。
- ブラウザのセッションが終了または全てのタブが閉じられると、保持していたデータは自動的に破棄されます。
- データの安全性
- ブラウザがクラッシュした場合でも、10分経過すれば次回の起動時にデータは安全に消去されます。
- 共用のPCでの使用も考慮し、データの外部漏洩のリスクを最小化しています。
クラウド R を利用する時のデータ送信
- 最小限のデータ送信
- 外部のRサーバーへ送信されるデータは、数値計算に必要な最小限のセットに制限されています。
- 送信データは解析に必要なサブセットのみに限られます。
- ユーザーコントロール下のデータ送信
- 送信前に、どのデータが外部サーバーへ送信されるのか内容を確認することが可能です。
- データの送信はユーザーの操作により行われ、自動的な送信は行いません。
- クラウド R 出力結果の保持
- クラウド R からの出力結果は、将来の自動翻訳や自動解説の機能実現のため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
- 通信経路も全て暗号化していますので、たとえプライバシーに関わる情報が含まれていたとしても、通常は漏洩する恐れはありません。
AI による解説を利用する時のデータ送信
- 最小限のデータ送信
- 外部のAIサーバーへ送信されるデータは、クラウド R の出力結果と、用いた統計手法の徐放です。
- ただし、クラウド R の出力結果に連続した数値データが含まれる場合は、AI にデータ形式を認識させる目的で、連続データの最初の行のみを送信します。
- クラウド R 出力結果の保持
- AI による解説内容は、将来の品質向上などのため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
Reactive stat において、統計データの変数は、通常の数値や文字列として扱われます。 したがって、日付や時間の概念は直接的にはサポートされていません。
統計計算を行う際には、日付や時間の差分を数値として事前に用意しておく必要があります。
チェックされた行が削除対象となります
欠損値を含むカラムを選択
カラムを選択
削除対象の行
データ入力
{{ replaceNewlinesInStrings(replacedScript) }}
R の出力結果
{{ rResult }}
R出力図形
AI による R 出力結果の解説
{{legendX}} | ||
---|---|---|
{{legendY}} | 合計 | |
{{ tableData.data[rowIdx-1][colIdx-1] || 0}}
|
{{ tableSum.rows[rowIdx-1] }}
|
|
{{ tableSum.cols[colIdx-1] }}
|
{{ tableSum.total }}
|
データ
設定
結果
カイ二乗検定 (Chi-Square test)
カイ二乗検定 (補正無し)
カイ二乗検定 (Yates' の補正あり)
背景: カイ二乗検定は、観察された頻度が期待される頻度とどれくらい異なるかを評価するための統計的検定です。この検定は特に、カテゴリデータに関して二つの変数間の独立性を評価するために使用されます。
数式:
\[ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \]ここで、
- \(O_{ij}\) は i行とj列のセルでの観察された頻度
- \(E_{ij}\) は i行とj列のセルでの期待される頻度で、以下の式で計算されます:
補正: Yatesの連続性補正は2x2の表で使用され、計算されたカイ二乗値が真のカイ二乗値を過大評価しないようにするためのものです。スクリプトでは、correct=TRUE
がYatesの連続性補正を適用することを示しています。
クラウド R 分析
Fisher の正確確率検定
背景: Fisher の正確確率検定は、2x2の頻度表に基づいて二つのカテゴリ変数間の独立性を評価するためのものです。この検定は特にサンプルサイズが小さい時や期待値が5未満のセルがテーブル内に存在する場合に有用です。
数式:
この検定の基本的なアイディアは、与えられたマージンの合計を保持しながら、観察されたテーブルが生じる確率を計算することです。その後、観察されたテーブルの確率と同じかそれ以下の確率で他の全ての可能なテーブルが生じる確率を計算します。
\[ P = \frac{\prod \text{factorials of cell values}}{\prod \text{factorials of row totals} \times \prod \text{factorials of column totals}} \]クラウド R 分析
セルの数が大きすぎて Fisher の正確確率検定に計算時間がかかりすぎる懸念があるため、クラウド R 分析を実行できません。
二項検定
二項分布は、同じ条件で何回も試行を繰り返したとき、特定の結果(成功)が起こる回数を予測するものです。
二項分布の特徴:
- 結果は「成功」か「失敗」の2つだけ
- 各試行の成功確率は常に同じ
- 試行回数は決まっている
例: コイン投げ
コインを10回投げるとき、表が出る回数を予測するのに使えます。 例えば、「表が5回出る確率」や「表が7回以上出る確率」を計算できます。
二項検定の計算式:
n回の試行のうち、ちょうどk回成功する確率P(X = k)は以下の式で計算されます:
\[ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} \]ここで、
- n: 試行回数
- k: 成功回数
- p: 各試行での成功確率
- \(\binom{n}{k}\): 二項係数(nCk)
二項検定のp値は、観測された成功回数以上(または以下)の確率を合計して計算します:
片側検定(より大きい)の場合:
\[ P(X \geq k) = \sum_{i=k}^n \binom{n}{i} p^i (1-p)^{n-i} \]片側検定(より小さい)の場合:
\[ P(X \leq k) = \sum_{i=0}^k \binom{n}{i} p^i (1-p)^{n-i} \]両側検定の場合は、これらの小さい方を2倍します。
クラウド R 分析
オッズ比・リスク比・リスク差 (2x2分割表)
a = {{tableData.data[0][0]}} | b = {{tableData.data[0][1]}} |
c = {{tableData.data[1][0]}} | d = {{tableData.data[1][1]}} |
{{ method }}を用いた計算結果
指標 | 値 | 95%信頼区間 | p値 |
---|---|---|---|
{{ item }} | {{ val.estimate.cp3 }} | [{{ val.ci[0].cp3 }}, {{ val.ci[1].cp3 }}] | {{ val.pValue.cp3 }} |
2x2分割表において、以下の統計指標とその95%信頼区間を計算します
a, b, c, d は2x2分割表の各セルの値を表します
計算方法
一般的に、スコア法はWald法よりも精度が高いとされています。特に小標本や極端な確率の場合に、その差が顕著になります。
また、カイ二乗検定の部分はピアソン法 (Pearson's Chi-Square Test) ですので、スコア法が整合します。
ここでは、Wald法による計算方法を示します。
スコア法についてはやや複雑ですので、成書をご参照ください。
オッズ比 (Odds Ratio, OR)
背景: オッズ比は、二つのグループ間でのイベント発生の相対的な確率を比較します。1より大きい値は、グループ1でイベントが発生する可能性が高いことを示します。
応用: 疫学研究やケースコントロール研究で広く使用され、特定の要因へのばく露とアウトカムとの関連を評価します。
数式: \[ OR = \frac{a/b}{c/d} = \frac{ad}{bc} \]
95%信頼区間: \[ \ln(OR) \pm 1.96 \times SE(\ln(OR)) \] \[ SE(\ln(OR)) = \sqrt{\frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d}} \]
p値: \[ p = 2 \times (1 - \Phi(|\ln(OR) / SE(\ln(OR))|)) \] ここで、\(\Phi\)は標準正規分布の累積分布関数です。
リスク比 (Risk Ratio, RR)
背景: リスク比は、二つのグループ間でのイベント発生率の比を示します。1より大きい値は、グループ1でイベントが発生する確率が高いことを示します。
応用: コホート研究や臨床試験で頻繁に使用され、ある要因へのばく露がアウトカムに与える影響を評価します。
数式: \[ RR = \frac{a/(a+b)}{c/(c+d)} \]
95%信頼区間: \[ \ln(RR) \pm 1.96 \times SE(\ln(RR)) \] \[ SE(\ln(RR)) = \sqrt{\frac{1}{a} - \frac{1}{a+b} + \frac{1}{c} - \frac{1}{c+d}} \]
p値: \[ p = 2 \times (1 - \Phi(|\ln(RR) / SE(\ln(RR))|)) \]
リスク差 (Risk Difference, RD)
背景: リスク差は、二つのグループ間でのイベント発生率の絶対的な差を示します。正の値は、グループ1でイベントが発生する確率が高いことを示します。
応用: 公衆衛生や臨床医学で使用され、介入の絶対的な効果や、人口レベルでの影響を評価するのに役立ちます。
数式: \[ RD = \frac{a}{a+b} - \frac{c}{c+d} \]
95%信頼区間: \[ RD \pm 1.96 \times SE(RD) \] \[ SE(RD) = \sqrt{\frac{a \times b}{(a+b)^3} + \frac{c \times d}{(c+d)^3}} \]
p値: \[ p = 2 \times (1 - \Phi(|RD / SE(RD)|)) \]
対数オッズ比と対数リスク比
背景: オッズ比とリスク比の自然対数を取ったものです。これらは統計的分析において重要で、正規分布に近似するため、統計的推論や仮説検定に適しています。
応用: メタアナリシスや複雑な統計モデリングで使用され、効果の大きさを比較したり、異なる研究結果を統合したりする際に役立ちます。
計算: 対数オッズ比と対数リスク比はそれぞれOR、RRの自然対数を取ることで得られます。95%信頼区間は上記の数式で直接得られます。
注意点:
- これらの指標はそれぞれ異なる特性を持ち、研究デザインや目的に応じて適切なものを選択することが重要です。 また、95%信頼区間は推定値の精度を示し、区間が1(リスク差の場合は0)を含まない場合、一般的に統計的に有意と判断されます。
-
対数オッズ比と対数リスク比は、それぞれオッズ比とリスク比の自然対数を取ったものです。
これらの95%信頼区間は、上記の数式で得られた結果の指数を取ることで求められます。 p値は同じ値です。
クラウド R 分析
比率の傾向の検定 (Cochran-Armitage検定)
群別変数に、{{ joinedColNames }} の順序があると仮定して比率の傾向の検定を行います。(順序は設定にて変更できます)
群別変数に、{{ joinedRowNames }} の順序があると仮定して比率の傾向の検定を行います。(順序は設定にて変更できます)
表の上段を「有効」、下段を「無効」として扱います。(実際は入れ替わっていても結果は同じになります)
表の左列を「有効」、右列を「無効」として扱います。(実際は入れ替わっていても結果は同じになります)
比率の傾向の検定、具体的にはCochran-Armitage傾向検定は、2xk(2行、k列)の列連関表において、2つのカテゴリ(通常は「成功」と「失敗」または「陽性」と「陰性」など)の間の比率に順序的なトレンドが存在するかを検定するものです。
具体例
ある薬物の治療応答が、薬物の投与量に依存するかを調べる場合を考えます。以下のようなデータを考えてみましょう:
低投与量 | 中投与量 | 高投与量 | |
---|---|---|---|
成功(陽性) | a | b | c |
失敗(陰性) | d | e | f |
ここで、a, b, cはそれぞれの投与量での「成功」数を、d, e, fは「失敗」数を示します。このテストは、投与量の増加(または減少)に伴って成功率が統計的に有意に増加(または減少)するかどうかを調べます。
数学的アプローチ
数学的には、Cochran-Armitage傾向検定は以下のステップを経て計算されます:
- 期待値と観測値の差の計算。
- カテゴリカル変数の各レベルに対して重みを付け(通常、等間隔の重みが使用される)。
- 重みを使って検定統計量を計算し、その傾向が偶然起こる確率(p値)を得る。
仮説
Cochran-Armitageテストは、仮説検定の枠組みで以下の仮説を検討します:
- 帰無仮説(H0): 比率には傾向がない(比率は全てのレベルで等しい)。
- 対立仮説(Ha): 比率には明確な傾向がある。
統計的なp値が特定の有意水準(通常、0.05)よりも小さければ、帰無仮説は棄却され、比率には有意な傾向があると解釈されます。
クラウド R 分析
順序のある分割表の分析
行と列の両方に順序があると仮定して、Spearmanの順位相関係数、Kendallの順位相関係数、線形併合カイ二乗検定、Goodman-Kruskalのガンマ係数 にて分析を行います。(順序は設定にて変更できます)
群分類に複数のカラムを選択して組み合わせた場合には、組み合わせ全体に順序があると仮定します。
例えば、群分類が [A, B, C] で副群分類が [1, 2] の場合、[A1, A2, B1, B2, C1, C2] の順序を想定します。
それぞれのカラムの順序を層別化しての検定には対応していませんので注意してください。
背景: 順序のある分割表では、行と列の両方またはいずれかに順序がある場合に、その順序を考慮した分析が可能です。
分析方法:
- Spearmanの順位相関係数: 2つの順序変数間の単調な関係の強さを測定します。
- Kendallの順位相関係数: 2つの順序変数間の一致度を測定します。
-
線形併合カイ二乗検定: 行と列の変数間の線形関係の有無を検定します。
線形-線形関連性検定 (Linear-by-Linear Association Test) とも表現されます。
この検定は、順序変数を扱う際に有用な手法です。例えば、治療法の効果と症状の重症度の関係を調べるような場合に使えます。
検定の手順は以下の通りです:
- 帰無仮説: 変数間に線形関連性がない
- 対立仮説: 変数間に線形関連性がある
- 検定統計量の計算: カイ二乗統計量
- p値の算出: カイ二乗分布に基づいて有意水準と比較し、帰無仮説の採択/棄却を判断
-
Goodman-Kruskal のガンマ:
2つの順序変数の間の順位の一致度を評価します。具体的には、2つの変数がどの程度一貫して順位付けされているかを示します。
ガンマは -1 から +1 の値を取ります:
- +1: 完全な正の一致(すべてのペアが一致している)
- 0: 順位の関連性がない
- -1: 完全な負の一致(すべてのペアが不一致)
これらの方法は、カテゴリ間の順序を考慮するため、通常のカイ二乗検定よりも検出力が高くなる可能性があります。
クラウド R 分析