分割表 (直接入力)
解説
このページでは、6×6までの分割表に直接数値を入力して、カイ二乗検定 (Chi-square test) および Fisher の正確確率検定 (Fisher's Exact Test) を行うことができます。
2行 (n x 2) のデータには、比率の傾向の検定 (Cochran-Armitage検定) を行うことができます。
データを入力すると、有効な範囲の背景色が変化し、その範囲が統計計算の対象領域となります。
カイ二乗検定とFisher の正確確率検定の使い分け
- カイ二乗検定:
- 得られる p値は近似値です。
- 大きなサンプルサイズの場合に適しています。
- 期待度数が十分に大きい(一般的には各セルの期待度数が5以上)場合に適切です。
- サンプルサイズが大きい場合、近似的なp値は正確です。
- Fisherの正確確率検定:
- 得られる p値は正確に計算された値あり、近似値ではありません。
- 小さいサンプルサイズや、いずれかのセルの期待度数が小さい(5未満)場合に適しているとされます。
- 特に、データが十分に大きくない場合や、データが非常に不均一な分布を示す場合に有効です。
- カイ二乗検定の近似が不適切な場合に、より正確な代替手段となります。
計算時間が問題にならなければ常にFisherの正確確率検定はカイ二乗検定よりも精度が高いと考えられます。 しかし、サンプルサイズが大きく、期待度数が十分にある場合には、カイ二乗検定でも十分な精度が得られます。
- 2×2より大きなセル数の分割表に対するvFisherの正確確率検定
- Fisherの正確確率検定は、本来は 2×2分割表に対する検定ですが、それより大きなセル数の表に対する拡張が行われ、クラウド R でも実行することができます。
- 一般的な統計的手法としてはあまり広く使われていません。その理由は、セルの数が増えると、計算に必要な可能な組み合わせの数が急速に増加し、計算時間が非常に長くなることがあります。
- 実際に、クラウド R においても、ワークスペースの不足により実行エラーになる場合がしばしば発生します。
比率の傾向の検定 (Cochran-Armitage検定)
2つのカテゴリー間(例えば、成功と失敗)の比率に順序的な傾向が存在するかを評価します。
2 x k (k >=3) の列連関表を使用し、例えば、薬の投与量 (低用量、中用量、高用量) と治療の成功率との間に関連性があるかを検討します。
2群の比率の比較のための検出力およびサンプルサイズの計算
2 x 2 分割表にて有意差がない場合、検出力やサンプルサイズを計算してみると解釈が容易となることがあります。 すなわち、症例数が足りないから有意差が出ないのか、本当に差が無い可能性が高いのかを考える上で有用です。 ただし、「足りないからあと少し症例を追加して解析をやり直す」ことは適切でないとされています。
{{colNames[colIdx-1]}} | |
---|---|
{{rowNames[rowIdx-1]}} |
分類内容 | 値 | |
{{ item.tag }} |
データの取り扱い
- データインポート
- データの読み込みは、ブラウザ内で完結し、外部へのデータ送信は発生しません。
- データ保持
- 読み込んだデータはブラウザ内に保持されます。
- ブラウザのセッションが終了または全てのタブが閉じられると、保持していたデータは自動的に破棄されます。
- データの安全性
- ブラウザがクラッシュした場合でも、10分経過すれば次回の起動時にデータは安全に消去されます。
- 共用のPCでの使用も考慮し、データの外部漏洩のリスクを最小化しています。
クラウド R を利用する時のデータ送信
- 最小限のデータ送信
- 外部のRサーバーへ送信されるデータは、数値計算に必要な最小限のセットに制限されています。
- 送信データは解析に必要なサブセットのみに限られます。
- ユーザーコントロール下のデータ送信
- 送信前に、どのデータが外部サーバーへ送信されるのか内容を確認することが可能です。
- データの送信はユーザーの操作により行われ、自動的な送信は行いません。
- クラウド R 出力結果の保持
- クラウド R からの出力結果は、将来の自動翻訳や自動解説の機能実現のため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
- 通信経路も全て暗号化していますので、たとえプライバシーに関わる情報が含まれていたとしても、通常は漏洩する恐れはありません。
AI による解説を利用する時のデータ送信
- 最小限のデータ送信
- 外部のAIサーバーへ送信されるデータは、クラウド R の出力結果と、用いた統計手法の徐放です。
- ただし、クラウド R の出力結果に連続した数値データが含まれる場合は、AI にデータ形式を認識させる目的で、連続データの最初の行のみを送信します。
- クラウド R 出力結果の保持
- AI による解説内容は、将来の品質向上などのため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
Reactive stat において、統計データの変数は、通常の数値や文字列として扱われます。 したがって、日付や時間の概念は直接的にはサポートされていません。
統計計算を行う際には、日付や時間の差分を数値として事前に用意しておく必要があります。
チェックされた行が削除対象となります
欠損値を含むカラムを選択
カラムを選択
削除対象の行
元データ
id | カラム1 | カラム2 |
---|---|---|
1 | A | B |
2 | C | D |
変換後のデータ
id | データ名 | 値 |
---|---|---|
1 | カラム1 | A |
1 | カラム2 | B |
2 | カラム1 | C |
2 | カラム2 | D |
{{legendX}} | ||
---|---|---|
{{legendY}} | 集計 | |
{{ tableData.data[rowIdx-1][colIdx-1] || 0}}
|
{{ tableSum.rows[rowIdx-1] }}
|
|
{{ tableSum.cols[colIdx-1] }}
|
{{ tableSum.total }}
|
{{ replaced_script }}
R の出力結果
{{ rResult }}
R output figures
AI による R 出力結果の解説
データ
設定
結果
カイ二乗検定 (Chi-Square test)
カイ二乗検定 (補正無し)
カイ二乗検定 (Yates' の補正あり)
背景: カイ二乗検定は、観察された頻度が期待される頻度とどれくらい異なるかを評価するための統計的検定です。この検定は特に、カテゴリデータに関して二つの変数間の独立性を評価するために使用されます。
数式:
\[ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \]ここで、
- \(O_{ij}\) は i行とj列のセルでの観察された頻度
- \(E_{ij}\) は i行とj列のセルでの期待される頻度で、以下の式で計算されます:
補正: Yatesの連続性補正は2x2の表で使用され、計算されたカイ二乗値が真のカイ二乗値を過大評価しないようにするためのものです。スクリプトでは、correct=TRUE
がYatesの連続性補正を適用することを示しています。
クラウド R 分析
Fisher の正確確率検定 (2 x 2 分割表)
Fisher の正確確率検定
背景: Fisher の正確確率検定は、2x2の頻度表に基づいて二つのカテゴリ変数間の独立性を評価するためのものです。この検定は特にサンプルサイズが小さい時や期待値が5未満のセルがテーブル内に存在する場合に有用です。
数式:
この検定の基本的なアイディアは、与えられたマージンの合計を保持しながら、観察されたテーブルが生じる確率を計算することです。その後、観察されたテーブルの確率と同じかそれ以下の確率で他の全ての可能なテーブルが生じる確率を計算します。
\[ P = \frac{\prod \text{factorials of cell values}}{\prod \text{factorials of row totals} \times \prod \text{factorials of column totals}} \]クラウド R 分析
セルの数が大きすぎて Fisher の正確確率検定に計算時間がかかりすぎる懸念があるため、クラウド R 分析を実行できません。
比率の傾向の検定 (Cochran-Armitage検定)
群別変数に、{{ joinedColNames }} の順序があると仮定して比率の傾向の検定を行います。(順序は設定にて変更できます)
表の上段を「有効」、下段を「無効」として扱います。(実際は入れ替わっていても結果は同じになります)
比率の傾向の検定、具体的にはCochran-Armitage傾向検定は、2xk(2行、k列)の列連関表において、2つのカテゴリ(通常は「成功」と「失敗」または「陽性」と「陰性」など)の間の比率に順序的なトレンドが存在するかを検定するものです。
具体例
ある薬物の治療応答が、薬物の投与量に依存するかを調べる場合を考えます。以下のようなデータを考えてみましょう:
低投与量 | 中投与量 | 高投与量 | |
---|---|---|---|
成功(陽性) | a | b | c |
失敗(陰性) | d | e | f |
ここで、a, b, cはそれぞれの投与量での「成功」数を、d, e, fは「失敗」数を示します。このテストは、投与量の増加(または減少)に伴って成功率が統計的に有意に増加(または減少)するかどうかを調べます。
数学的アプローチ
数学的には、Cochran-Armitage傾向検定は以下のステップを経て計算されます:
- 期待値と観測値の差の計算。
- カテゴリカル変数の各レベルに対して重みを付け(通常、等間隔の重みが使用される)。
- 重みを使って検定統計量を計算し、その傾向が偶然起こる確率(p値)を得る。
仮説
Cochran-Armitageテストは、仮説検定の枠組みで以下の仮説を検討します:
- 帰無仮説(H0):比率には傾向がない(比率は全てのレベルで等しい)。
- 対立仮説(Ha):比率には明確な傾向がある。
統計的なp値が特定の有意水準(通常、0.05)よりも小さければ、帰無仮説は棄却され、比率には有意な傾向があると解釈されます。
クラウド R 分析
Cochran-Armitage検定は、2行 x k列 (k >= 3) の分割表に適用され、カテゴリー間での比率の増減の傾向やトレンドを検討するのに有用です。 例えば、異なる年代や時間の経過に伴う疾患の発生率の変化など、比率に傾向があるかを検証する場合に使われます。
与えられたデータは {{ tableData.rowNames.length }}行 x {{ tableData.colNames.length }}列ですので、Cochran-Armitage検定には適切ではありません。