対応のない群間の検定
解説
対応のない群間の検定は、異なるグループ間で連続変数の平均値や分布に統計的な違いがあるかを検定する方法です。 これらの検定は、異なるサンプル群(例えば、異なる治療法を受けた患者群や異なる年齢層の人々)から得られたデータに適用されます。
グラフ
- ヒストグラム: データの分布を視覚化します。各ビン(区間)にデータがどれだけ含まれているかを示します。
- 箱ひげ図: データの分布、中央値、四分位数、外れ値を視覚化します。
- バイオリンプロット: 箱ひげ図の分布情報に密度情報を加えたグラフです。データの密度分布を同時に示します。
- ランクプロット: 各データ点の順位をプロットします。データの順序関係を視覚化します。
- 累積分布関数プロット: ある値以下のデータ点の割合を示します。データの累積分布を視覚化します。
- 正規確率プロット: データが正規分布に従っているかを視覚的に評価します。データの正規性を確認するために使用されます。
統計計算
- t検定: 二群間の平均値の差が統計的に有意かどうかを検定します。データが正規分布に従う場合に使用されます。
- ANOVA (分散分析): 三つ以上の群間で平均値に差があるかを検定します。データが正規分布に従う場合に適しています。一元配置分散分析 (One-Way ANOVA) と同義です。
- F検定: 二つの群の分散が等しいかどうかを検定します。特にt検定の前提条件として使用されます。
- Bartlett検定: 三つ以上の群の分散が等しいかどうかを検定します。ANOVAの前提条件の一つです。
- Levene検定: 二つ以上の群の分散が等しいかどうかを検定します。Bartlett検定と比べ、正規性の仮定からの逸脱に対して頑健です。ANOVAやt検定の前提条件の一つとして使用されます。
- Tukey HSD (Tukeyの正直有意差法): ANOVAの後に行われる、群間の具体的な差異を検証するための検定です。
- Mann-Whitney U検定: 二つの独立した群間で、中央値に差があるかを検定します。データが正規分布に従わない場合に適しています。
- Brunner-Munzel検定: 二つの独立したグループ間の確率的優越性を比較するためのノンパラメトリック検定です。データの分布や分散の等質性に関する仮定が少なく、順序尺度のデータにも適用可能です。特に、小サンプルサイズや非対称分布、外れ値を含むデータに対して有効です。
- Kruskal-Wallis検定: 三つ以上の独立した群間で、中央値に差があるかを検定します。データが正規分布に従わない場合に使用されます。
- Jonckheere-Terpstra検定: 複数の群が特定の順序で並んでいるかを検定します。トレンドを検出するのに適しています。
- あらかじめ適切に設計された臨床試験において、新しい治療法や介入の効果を既存の標準治療と比較する目的で、同等性/非劣性/優越性の検定を行うことができます。
- 同等性試験は、新しい治療法が既存の治療法と同等の効果を持つことを示すために使用されます。
- 非劣性試験は、新しい治療法が既存の治療法と比べて劣っていないことを示すために使用されます。
- 優越性試験は、新しい治療法が既存の治療法よりも優れていることを示すために使用されます。
データ形式
通常、Long Format が適切です。
必要に応じて変換できます。
分類内容 | 値 | |
{{ item.tag }} |
データの取り扱い
- データインポート
- データの読み込みは、ブラウザ内で完結し、外部へのデータ送信は発生しません。
- データ保持
- 読み込んだデータはブラウザ内に保持されます。
- ブラウザのセッションが終了または全てのタブが閉じられると、保持していたデータは自動的に破棄されます。
- データの安全性
- ブラウザがクラッシュした場合でも、10分経過すれば次回の起動時にデータは安全に消去されます。
- 共用のPCでの使用も考慮し、データの外部漏洩のリスクを最小化しています。
クラウド R を利用する時のデータ送信
- 最小限のデータ送信
- 外部のRサーバーへ送信されるデータは、数値計算に必要な最小限のセットに制限されています。
- 送信データは解析に必要なサブセットのみに限られます。
- ユーザーコントロール下のデータ送信
- 送信前に、どのデータが外部サーバーへ送信されるのか内容を確認することが可能です。
- データの送信はユーザーの操作により行われ、自動的な送信は行いません。
- クラウド R 出力結果の保持
- クラウド R からの出力結果は、将来の自動翻訳や自動解説の機能実現のため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
- 通信経路も全て暗号化していますので、たとえプライバシーに関わる情報が含まれていたとしても、通常は漏洩する恐れはありません。
AI による解説を利用する時のデータ送信
- 最小限のデータ送信
- 外部のAIサーバーへ送信されるデータは、クラウド R の出力結果と、用いた統計手法の徐放です。
- ただし、クラウド R の出力結果に連続した数値データが含まれる場合は、AI にデータ形式を認識させる目的で、連続データの最初の行のみを送信します。
- クラウド R 出力結果の保持
- AI による解説内容は、将来の品質向上などのため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
Reactive stat において、統計データの変数は、通常の数値や文字列として扱われます。 したがって、日付や時間の概念は直接的にはサポートされていません。
統計計算を行う際には、日付や時間の差分を数値として事前に用意しておく必要があります。
チェックされた行が削除対象となります
欠損値を含むカラムを選択
カラムを選択
削除対象の行
データ入力
{{ replaceNewlinesInStrings(replacedScript) }}
R の出力結果
{{ rResult }}
R出力図形
AI による R 出力結果の解説
データ
設定
結果
ヒストグラム (度数分布)
ヒストグラムはデータの分布の概要を表すためのツールです。 データがどのように分散しているか、ピークはどこにあるか、外れ値は存在するかなど、初見のデータセットに対しての洞察を得るために役立ちます。
- ビンの選択: ヒストグラムを描く際のビンの数や幅の選択は結果に影響を及ぼします。 ビンが多すぎるとノイズが目立ち、少なすぎるとデータの形状がわからなくなります。ここでは自動調整しています。
- 統計的検定の前に、データが正規分布に従っているかどうかの確認に使用します。
箱ひげ図
箱ひげ図は、データの四分位数を使用して、データのばらつきや中央の値を視覚的に表します。
- ホイスカー: データの最大値と最小値を示します。
- 外れ値: 1.5倍の四分位範囲を超えるデータを外れ値とみなすのが一般的です。
- 応用: 複数のグループ間での中央値や分散を比較できます。
バイオリンプロット
バイオリンプロットはデータの分布を細かく表現するためのグラフです。 データの分布の形や密度に加え、中央の値やばらつきも一度に表すことができます。
- カーネル密度推定: データポイントの周りの滑らかなカーブ。
- 応用: 2つ以上のカテゴリ変数ごとのデータの分布を比較できます。
ランクプロット
ランクプロットは、データを順位に基づいてプロットします。 これにより、データの相対的な順序やランキングを視覚的に理解することが容易になります。
- 順位: 同じ値の場合は平均順位となります。同点3位が2つあればどちらも 3.5。
- 応用: ノンパラメトリックな統計的検定 (例: Wilcoxon の符号順位検定) において、データの順位は中心的な役割を果たします。
累積分布関数プロット
累積分布関数 (CDF) は、データの累積的な確率を示します。 これは、ある値以下のデータポイントの割合を示しています。
- パーセンタイル: CDFを使用して、あるパーセンタイルの値を容易に読み取ることができます。 例えば、中央値は50パーセンタイルに対応します。
- 応用: 2つの分布を比較する際や、特定のパーセンタイルのデータ値を確認する際に有用です。
正規確率プロット
正規確率プロット (Q-Qプロット、Quantile-Quantileプロットとも言います) は、データの分布が正規分布にどれほど近いかを視覚的に評価するためのグラフィカルな方法です。
このプロットは、データが正規分布に従っている場合、点が直線上に位置するはずであるという考えに基づいています。 正規確率プロットを使用すると、データの正規性、特にその偏りやピークを容易に識別できます。
正規確率プロットの解釈
- 直線上に点が並んでいる場合: データは正規分布に従っている可能性が高い。
- 曲線の形状をしている場合: データが正規分布から逸脱していることを示しています。たとえば、データの中央部分の点が直線よりも上にあるが、両端は直線上にある場合、データはピークがあります (すなわち、尖っている)。
- S字カーブを描く点: データが両側に裾が広がっていることを示しています。
正規確率プロットの利点
- データが正規分布に従っているかどうかを直感的に判断できます。
- データの偏りや尖り、外れ値の存在を容易に特定できます。
基礎統計
- {{obj.jp}} ({{obj.en}})
- {{obj.description}}
{{obj.mathjax}}
- {{obj.description}}
クラウド R 分析
正規性の検定と外れ値
四分位範囲 (IQR) に基づく外れ値の判定方法は、以下のステップで行われます:
- データセットから第1四分位数 (Q1) と第3四分位数 (Q3) を計算します。
- 第1四分位数 (Q1) は、データセットを下位25%に分割する値です。
- 第3四分位数 (Q3) は、データセットを上位25%に分割する値です。
- 四分位範囲 (IQR) は、Q3とQ1の差として計算されます:
\( IQR = Q3 - Q1 \) - 外れ値の判定基準は、次のように設定されます:
- 下限値: \( Q1 - 1.5 \times IQR \)
- 上限値: \( Q3 + 1.5 \times IQR \)
この検定は、正規分布を仮定して外れ値の検定をより精密に行います。
- データセット中で最も大きな値と最も小さい値を確認し、平均からの距離が最も大きい値 (\(X_{\text{max}}\) または \(X_{\text{min}}\)) を選択します。
- 次に統計量 \(G\) を以下の式で計算します:
\[
G = \frac{ |X - \bar{X}|}{sd}
\]
ここで、
\(\bar{X}\) はサンプル平均、
\(sd\) はサンプル標準偏差 (標本標準偏差)、
\(X\) は\(X_{\text{max}}\) または \(X_{\text{min}}\)です。 - \(G\) の値が臨界値よりも大きいかどうかを確認します。臨界値は、希望する有意水準とサンプルサイズに依存し、以下の式で計算されます:
\[
G_{\text{crit}} = \frac{(n-1) \sqrt{t^2}}{\sqrt{n(n-2 + t^2)} }
\]
ここで、
\(n\) はサンプルサイズ、
\(t\) は自由度 \(n-2\) のStudent's t分布の \(1-\alpha / (2n)\)パーセンタイル (両側検定) です。 - もし \( G > G_{\text{crit}} \) であれば、そのデータポイントは外れ値と判定されます。そのデータポイントをデータセットから除外し、次のステップへ進みます。
除外後のデータセットに対して、ステップ1から4を繰り返します。これをp値が設定した有意水準より大きくなる (通常は0.05以上)、または外れ値がこれ以上検出されなくなるまで続けます。
Smirnov-Grubbs 検定による外れ値の判定では、正規分布が仮定されていますので、クラウド R では、分布を確認するために歪度 (Skewness) と尖度 (Kurtosis) を示した上で、Kolmogorov-Smirnov検定 および Shapiro–Wilk検定による正規性の検定を行っています。
歪度 (Skewness)
\[ \text{Skewness} = \frac{n}{(n-1)(n-2)} \sum \left( \frac{x_i - \bar{x}}{s} \right)^3 \]
ここで、
\( n \) はデータポイントの数、
\( x_i \) は各データポイント、
\( \bar{x} \) はデータの平均、
\( s \) は標準偏差です。
尖度 (Kurtosis)
\[ \text{Raw Kurtosis} = \frac{\sum (x_i - \bar{x})^4 / n}{s^4} \]
参考値として、Excess Kurtosis も表示します:
\[ \text{Excess Kurtosis} = \text{Raw Kurtosis} - 3 \]
ここで、
\( n \) はデータポイントの数、
\( x_i \) は各データポイント、
\( \bar{x} \) はデータの平均、
\( s \) は標準偏差です。
Raw Kurtosis の場合、正規分布では値が3になります。Excess Kurtosis の場合、正規分布では値が0になります。
クラウド R 分析
- 歪度・尖度
- Kolmogorov-Smirnov検定
- Shapiro–Wilk検定
- Smirnov-Grubbs 検定による外れ値の判定
パラメトリック検定結果
基礎統計量
群 | N | 平均値 | 標準偏差 | 分散 |
---|---|---|---|---|
{{ groupName }} | {{ group.length }} | {{ jStat.mean(group).cp4 }} | {{ jStat.stdev(group).cp4 }} | {{ jStat.variance(group).cp4 }} |
全体 | {{ targetData.length }} | {{ jStat.mean(targetData).cp4 }} | {{ jStat.stdev(targetData).cp4 }} | {{ jStat.variance(targetData).cp4 }} |
t検定
t検定の前提である等分散性が満たされていないことに注意してください。
等分散を仮定
等分散を仮定しない Welch の t検定
t検定
t検定は、2つのグループの平均値の違いを検証する際の基本的な手法です。ここでは、対応のないt検定 (対応のない2群のt検定) を行い、2つの独立したグループの平均値が異なるかどうかを検定します。
前提条件:
- 正規性: データが正規分布に従っていること。
- 分散の等質性: 2つの群の分散が等しいこと (Leveneのテストなどで確認可能)。
t値の計算:
\( t = \frac{\text{標本平均の差}}{\text{標準誤差}} \)
自由度:
- 自由度は、分析で利用できるデータの「自由な」数を示します。
- 2群のt検定の場合、自由度は \( df = n_1 + n_2 - 2 \) です。ここで、\(n_1\) と \(n_2\) はそれぞれのグループのサンプルサイズです。
効果量:
- t検定は有意性を検定しますが、実際の効果の大きさ (効果量) も重要です。
- 一般的な効果量の尺度にはCohenのdがあります。
Welchのt検定
Welchのt検定は、2つのグループの平均値の違いを検証する際に、等分散性の仮定が満たされていない場合に使用される手法です。
前提条件:
- 正規性: データが正規分布に従っていること。
- 分散の不等質性: 2つの群の分散が等しくない場合に適用されます。
Welchのt値の計算:
\( t = \frac{\text{標本平均の差}}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \)
ここで、\(s_1^2\) と \(s_2^2\) はそれぞれのグループの不偏分散、\(n_1\) と \(n_2\) はそれぞれのグループのサンプルサイズです。
自由度 (Welch-Satterthwaite の自由度):
\( df = \frac{(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2})^2}{\frac{(s_1^2/n_1)^2}{n_1-1} + \frac{(s_2^2/n_2)^2}{n_2-1}} \)
注意点:
- t検定とWelchのt検定は、どちらも2つのグループ間の平均値の差を検定します。
- 分散の等質性が満たされる場合はt検定を、満たされない場合はWelchのt検定を使用します。
- 3つ以上のグループを比較する場合は、ANOVAや多重比較の手法を検討してください。
- データが正規分布に従わない場合は、Mann-Whitney U検定などの非パラメトリック検定を検討してください。
F検定 (等分散性の検定)
2群の等分散性の検定 (F検定)
2群の等分散性の検定 (F検定) は、2つの独立したサンプルの母分散が等しいかどうかを検定する方法の一つです。 これは2群が同じ母分散からサンプリングされたものであるか (すなわち、母分散が等しいか) を評価します。 この検定はしばしば、2群の平均値を比較するためのt検定の前に実施されます。 ただし、多重性の問題が生じる可能性があるため、事前検定はなるべく行わない方が良いという考え方もあります。
- 帰無仮説と対立仮説の設定
- \( H_0 \): \( \sigma_1^2 = \sigma_2^2 \) (2つの母分散は等しい)
- \( H_a \) または \( H_1 \): \( \sigma_1^2 \neq \sigma_2^2 \) (2つの母分散は等しくない)
- F値の計算
- p値の計算と帰無仮説の評価
F値は以下の式から計算されます:
\[ F = \frac{ {s_1}^2 }{ {s_2}^2 } \]
ここで、
\( {s_1}^2 \) は1つ目のサンプルの標本分散
\( {s_2}^2 \) は2つ目のサンプルの標本分散
計算されたF値と自由度をもとに、p値を求めます。これは、観測されたF値以上の値が帰無仮説のもとで得られる確率です。通常、p値が事前に設定した有意水準 (例えば、0.05) 以下である場合、帰無仮説を棄却します。
- F検定は、データが正規分布に従っている場合にのみ適切です。
- F検定は、2つのグループに対してのみ適用可能です。3つ以上のグループの分散を比較する場合、Bartlettの検定やLeveneの検定を使用します。
等分散性の検定 (Levene検定)
群分類数が多すぎます
Leveneの検定
Leveneの検定は、k個のサンプルが等分散である (分散が等しい) という仮説を検定する方法です。 分散分析のようないくつかの統計的検定では、群やサンプル間で分散が等しいことを前提とします。 Leveneの検定は、その仮定を検証するために使用されます。
仮説:
- \( H_0 \): すべてのグループの分散は等しい。
- \( H_a \): 少なくとも2つの分散は異なる。
検定統計量 \( W \) の計算:
\[ W = \frac{(N-k)}{(k-1)} \frac{\sum_{i=1}^{k} N_i (\bar{Z}_{i\cdot} - \bar{Z})^2}{\sum_{i=1}^{k} \sum_{j=1}^{N_i} (Z_{ij} - \bar{Z}_{i\cdot})^2} \]ここで
- \( k \) はグループの数
- \( N \) は合計サンプルサイズ
- \( N_i \) は i番目のグループのサンプルサイズ
- \( Z_{ij} = |Y_{ij} - \tilde{Y}_i| \), \( Y_{ij} \) は i番目のグループの j番目の観測値, \( \tilde{Y}_i \) は i番目のグループの中央値
- \( \bar{Z}_{i\cdot} \) は i番目のグループの \( Z_{ij} \) の平均値
- \( \bar{Z} \) は全サンプルの \( Z_{ij} \) の平均値
帰無仮説のもとで検定統計量 \( W \) は、自由度が \( (k-1) \) のF分布に従います。 したがって、p値はF分布を用いて求めることができ、このp値が予め定められた有意水準 (しばしば \( \alpha = 0.05 \) ) よりも小さい場合、等分散の帰無仮説は棄却されます。
仮定と注意
Leveneの検定は各データ群が独立であると仮定しています
Leveneの検定は、Bartlettの検定と比べて正規性からの逸脱に対して頑健です。 各グループ内のデータが対称であることを仮定する必要はありません。 しかし、極端に歪んだ分布やグループサイズが非常に異なる場合には、検出力が低下する可能性があります。
ANOVA (分散分析)
前提である等分散性が満たされていないことに注意してください。
クラウド R では Welchの方法による分散分析を実行できます。
群の数が多すぎます
等分散を仮定しない ANOVA
等分散を仮定した ANOVA
ANOVA (Analysis of Variance)
ANOVAは、二つ以上のグループの平均の間に統計的に有意な差が存在するかどうかを判断するための検定手法です。 一元配置ANOVAの場合、一つの因子に複数の水準 (グループ)があるときに利用します。
主な仮説
- 帰無仮説 (H0): 全てのグループの平均は等しい
- 対立仮説 (H1): 少なくとも一つのグループの平均が他と異なる
要点
- ANOVAは変動 (Variance) を分析するものです。その名の通り、全体の変動ないしグループ間の変動とグループ内の変動を比較しています。
- ANOVAが有意な場合、次にどのグループ間に有意な差があるかを特定するための「事後検定」が行われます。
3群以上の等分散性の検定 (Bartlett検定)
群の数が3未満です
Bartlettの検定
Bartlettの検定は、k個のサンプルが等分散である (分散が等しい) という仮説を検定する方法です。 分散分析のようないくつかの統計的検定では、群やサンプル間で分散が等しいことを前提とします。 Bartlettの検定は、その仮定を検証するために使用されます。
仮説:
- \( H_0 \): すべての母集団の分散は等しい。
- \( H_a \): 少なくとも2つの分散は異なる。
検定統計量 \( K^2 \) の計算:
\[ K^2 = \frac{(n - k) \ln(s_p^2) - \sum_{i=1}^{k} (n_i - 1) \ln(s_i^2)}{1 + \frac{1}{3(k-1)}(\sum_{i=1}^{k}\frac{1}{n_i-1} - \frac{1}{n-k})} \]ここで
- \( k \) はグループの数,
- \( n \) は合計サンプルサイズ,
- \( n_i \) は i番目のグループのサンプルサイズ,
- \( s_p^2 \) はプールされた分散, \[ s_p^2 = \frac{\sum_{i=1}^{k} (n_i - 1)s_i^2}{n - k} \]
- \( s_i^2 \) は i番目のグループの分散.
帰無仮説のもとで検定統計量 \( K^2 \) は、自由度が \( k-1 \) のカイ二乗分布に近似的に従います。 したがって、p値はカイ二乗分布を用いて求めることができ、このp値が予め定められた有意水準 (しばしば \( \alpha = 0.05 \) ) よりも小さい場合、等分散の帰無仮説は棄却されます。
仮定と注意
Bartlettの検定は以下の仮定を置いています
- 各データ群は独立しています。
- 各データは正規分布しています。
Bartlettの検定は、正規性からの逸脱に対して敏感です。 サンプルが非正規分布の場合、Leveneの検定を検討してください。
等分散性の検定 (Levene検定)
群分類数が多すぎます
Leveneの検定
Leveneの検定は、k個のサンプルが等分散である (分散が等しい) という仮説を検定する方法です。 分散分析のようないくつかの統計的検定では、群やサンプル間で分散が等しいことを前提とします。 Leveneの検定は、その仮定を検証するために使用されます。
仮説:
- \( H_0 \): すべてのグループの分散は等しい。
- \( H_a \): 少なくとも2つの分散は異なる。
検定統計量 \( W \) の計算:
\[ W = \frac{(N-k)}{(k-1)} \frac{\sum_{i=1}^{k} N_i (\bar{Z}_{i\cdot} - \bar{Z})^2}{\sum_{i=1}^{k} \sum_{j=1}^{N_i} (Z_{ij} - \bar{Z}_{i\cdot})^2} \]ここで
- \( k \) はグループの数,
- \( N \) は合計サンプルサイズ,
- \( N_i \) は i番目のグループのサンプルサイズ,
- \( Z_{ij} = |Y_{ij} - \tilde{Y}_i| \), \( Y_{ij} \) は i番目のグループの j番目の観測値, \( \tilde{Y}_i \) は i番目のグループの中央値,
- \( \bar{Z}_{i\cdot} \) は i番目のグループの \( Z_{ij} \) の平均値,
- \( \bar{Z} \) は全サンプルの \( Z_{ij} \) の平均値.
帰無仮説のもとで検定統計量 \( W \) は、自由度が \( (k-1) \) のF分布に従います。 したがって、p値はF分布を用いて求めることができ、このp値が予め定められた有意水準 (しばしば \( \alpha = 0.05 \) ) よりも小さい場合、等分散の帰無仮説は棄却されます。
仮定と注意
Leveneの検定は各データ群が独立であると仮定しています
Leveneの検定は、Bartlettの検定と比べて正規性からの逸脱に対して頑健です。 各グループ内のデータが対称であることを仮定する必要はありません。 しかし、極端に歪んだ分布やグループサイズが非常に異なる場合には、検出力が低下する可能性があります。
Tukey's HSD
グループの比較 | p値 |
---|---|
{{ groupNames[item[0][0]] + ' vs. ' +groupNames[item[0][1]] }} | {{ item[1].cp2 }} |
ANOVAの結果が p>0.05 であることに注意してください。 この場合、事後検定を行うことは推奨されません。
Tukey's HSD (Honestly Significant Difference)
Tukey's HSD はANOVAの事後検定の一つで、複数のグループ間の平均値の違いを評価するために使用されます。
主な仮説
- 帰無仮説 (H0): 比較する2つのグループの平均は等しい
- 対立仮説 (H1): 比較する2つのグループの平均は等しくない
要点
- ANOVAでの全体的な結果が有意である場合、Tukey's HSD を用いてどのグループの間に有意な違いが存在するかを特定することができます。
- Tukey's HSD は複数の比較を考慮して調整されており、Type Iエラー (偽陽性) をコントロールするために設計されています。
注意点
- ANOVAが有意でない場合、事後検定を行うことは推奨されません。
- Tukey's HSD 検定は、すべてのペアのグループの平均の違いを同時に比較するための方法として開発されました。この検定は、グループ間の全てのペアに対する比較を行う際のType Iエラー (偽陽性) のリスクを制御します。
クラウド R 分析
前提である等分散性が満たされていないことに注意してください。
ノンパラメトリック検定結果
基礎統計量
群 | N | 中央値 | 範囲 | 第1四分位数 | 第3四分位数 |
---|---|---|---|---|---|
{{ groupName }} | {{ group.length }} | {{ jStat.median(group) }} | {{ jStat.min(group) }} - {{jStat.max(group)}} | {{ jStat.quartiles(group)[0] }} | {{ jStat.quartiles(group)[2] }} |
全体 | {{ targetData.length }} | {{ jStat.median(targetData) }} | {{ jStat.min(targetData) }} - {{ jStat.max(targetData) }} | {{ jStat.quartiles(targetData)[0] }} | {{ jStat.quartiles(targetData)[2] }} |
Mann-Whitney のU検定
正規近似法で計算し、連続性補正と同順位の補正を行っています
Mann-Whitney のU検定
2つの独立した標本が同じ母集団から抽出されたか、あるいは同じ分布を持つ母集団から抽出されたかを判断するためのノンパラメトリックな検定方法です。以下のような場合に利用します。
- 2つの独立した標本があり、それらが同じ母集団から抽出されたかどうかを検証したい場合。
- データが正規分布に従っていない、またはそのような仮定が不適切な場合。
- 比較されるグループのサイズが小さい場合や、データに外れ値が含まれる場合。
検定の手順
- 両方のグループの全データ点を合わせて順位付けします。
- 各グループでの順位の合計を計算します。
- U1とU2の値を計算し、最小値を選択します。
- U値を使用してp値を計算します。
数式
\[ U = \min(U_1, U_2) \]
ここで、
- \( U_1 = n_1 \times n_2 + \frac{n_1 (n_1 + 1)}{2} - R_1 \)
- \( U_2 = n_1 \times n_2 + \frac{n_2 (n_2 + 1)}{2} - R_2 \)
- \( n_1 \) と \( n_2 \) はそれぞれ1つ目と2つ目のグループのサンプルサイズです。
- \( R_1 \) と \( R_2 \) はそれぞれ1つ目と2つ目のグループの順位の合計です。
Mann-WhitneyのU検定では、正規近似を使用する場合には、連続性補正 (continuity correction) を適用することが一般的です。
\[ \text{連続性補正値} = \frac{1}{2} \]
これを使用して、標準化されたU値 (Z) が次のように計算されます:
\[ Z = \frac{U - \text{平均U} + \text{連続性補正値}}{\text{標準偏差U}} \]
連続性補正を適用することで、正確な分布に近い結果を得ることができます。
注意点
- Mann-Whitney のU検定はノンパラメトリック検定であるため、データの分布が同じであるという仮定のもとで行われます。
- 大きなサンプルサイズの場合には正規近似を使用することができますが、小さなサンプルサイズの場合には正確な分布を使用する必要があります。
Reactive stat の内部関数ではサンプルサイズにかかわらず正規近似を使用しています。
Brunner-Munzel 検定
Brunner-Munzel 検定
Brunner-Munzel 検定 (別名: 一般化ウィルコクソン検定) は、2つの独立したサンプルの確率的優位性を検定するためのノンパラメトリックな方法です。以下のような場合に利用します:
- 2つの独立したサンプルがあり、一方が他方より確率的に大きいかどうかを検証したい場合。
- データが正規分布に従っていない、またはそのような仮定が不適切な場合。
- Mann-Whitney の U 検定よりも強力な検定が必要な場合。
検定の手順
- 両方のグループの全データ点を合わせて順位付けします。
- 各グループでの順位の平均を計算します。
- 各グループ内での順位の分散を計算します。
- 検定統計量とその自由度を計算します。
- t分布を用いてp値を計算します。
数式
検定統計量 \( T \) は以下のように計算されます:
\[ T = \frac{n_1 n_2 (m_2 - m_1)}{n_1 + n_2} \cdot \frac{1}{\sqrt{n_1 v_1 + n_2 v_2}} \]
ここで、
- \( n_1 \) と \( n_2 \) はそれぞれ1つ目と2つ目のグループのサンプルサイズです。
- \( m_1 \) と \( m_2 \) はそれぞれ1つ目と2つ目のグループの順位の平均です。
- \( v_1 \) と \( v_2 \) はそれぞれ1つ目と2つ目のグループ内での順位の分散です。
自由度 \( df \) は以下のように計算されます:
\[ df = \frac{(n_1 v_1 + n_2 v_2)^2}{\frac{(n_1 v_1)^2}{n_1 - 1} + \frac{(n_2 v_2)^2}{n_2 - 1}} \]
効果量の推定値 \( p \) は以下のように計算されます:
\[ p = \frac{m_2 - (n_2 + 1)/2}{n_1} \]
この \( p \) は \( P(X < Y) + 0.5 P(X=Y) \) を表しています。
注意点
- Brunner-Munzel 検定は Mann-Whitney の U 検定よりも検出力が高いとされています。
- この検定は、2つのグループの分布の形状が異なる場合でも適用可能です。
- サンプルサイズが小さい場合でも使用できますが、非常に小さいサンプルサイズ (例: n < 10) の場合は注意が必要です。
- 結果の解釈には、p値だけでなく効果量の推定値 \( p \) も考慮することが重要です。
Kruskal-Wallis 検定
群分類数が多すぎます
ANOVAや Tukey's HSD はパラメトリックな手法ですが、データが正規分布に従わない、または等分散性の仮定が満たされない場合など、パラメトリックな手法の前提条件が満たされない場合にはノンパラメトリックな手法を用いることが推奨されます。
Kruskal-Wallis 検定
三つ以上の独立したグループの分布を比較するためのノンパラメトリックな手法。
ANOVAに対応するノンパラメトリックな手法といえます。 ANOVAが比較するのが平均値であるのに対し、Kruskal-Wallis 検定は中央値を比較します。
Reactive stats では、以下の計算式を使用しています。
Kruskal-Wallis 検定は、3つ以上の独立したサンプル間の分布の差を検定する非パラメトリック手法です。この検定は、ANOVAの非パラメトリック版として知られています。
- ランクの計算
\[ \text{allValues} = \bigcup_{i=1}^k \text{groups}_i \]
ここで、\(k\) はグループの数です。 - ランク合計
\[ R_i = \sum_{j=1}^{n_i} \text{rank}_{i,j} \]
ここで、\(R_i\) は第\(i\)グループのランク合計で、\(n_i\) は第\(i\)グループのデータ点の数です。 - Kruskal-Wallis 統計量 \( H \) の計算
\[ H = \frac{12}{N(N+1)} \sum_{i=1}^k \frac{R_i^2}{n_i} - 3(N+1) \]
ここで、\(N\) は全データ点の数です。 - 同順位の補正
\[ T = \sum_{i=1}^{n_{\text{ties}}} (t_i^3 - t_i) \]
ここで、\(t_i\) は同順位のデータ点の数です。 補正値:\[ \text{correctionT} = 1 - \frac{T}{N^3 - N} \]
- 補正済み Kruskal-Wallis 統計量
\[ \text{kruskalWallisH} = \frac{H}{\text{correctionT}} \]
- p値の計算
最後に、χ^2 分布を使用してp値を計算します。
Mann-Whitney のU検定を用いたペアワイズ比較
グループの比較 | p 値 (補正なし; 非推奨) |
p 値 (Bonferroni 補正) |
p 値 (Holm 補正) |
---|---|---|---|
{{ groupNames[item.position[0]] + ' vs. ' + groupNames[item.position[1]] }} | {{ item.pValue.cp2 }} | {{ testResults.bonferroniMethodP[idx].cp2 }} | {{ testResults.holmMethodP[idx].cp2 }} |
Mann-Whitney のU検定を用いたペアワイズ比較
Kruskal-Wallis 検定の結果が有意であった場合に、事後検定として、どのグループ間で有意な差が存在するかを特定するために、2群ごとに Mann-Whitney のU検定を行います。
得られたp値に対して、複数の比較 (多重比較) を考慮した補正を施す必要があります。
多重比較の問題に対する補正
群間で比較する場合は、検定を繰り返すため、p値が偶然 0.05を下回ってしまう確率 (Type I エラー: 偽陽性) が高まります。 これが多重比較における多重性の問題です。 補正のための多数の手法が提案されていますが、Reactive stat では、以下の二つの補正値を計算して表示します。 他にも、多数の補正方法があります。
Bonferroni 補正
- 最も簡単で保守的な補正方法の一つ。各p値に比較回数を掛けることで補正する。p値が十分小さいのであれば、これを適用しておけば間違いはない。
- 利点: 簡単で明確。Type I エラー (偽陽性) のリスクが高まることがない。
- 欠点: 非常に保守的で、Type IIエラー (偽陰性) のリスクが高まる。
Holm 補正
- p値を昇順にソートし、最小のp値から Bonferroni 補正を順次適用する。最小のp値が補正後のしきい値を超えた時点で、そのp値とその後のすべてのp値を棄却する。
- 利点: Bonferroni 補正よりもパワーが高い。
- 欠点: まだ保守的な場合がある。
クラウド R 分析
順序関係の検定 (Jonckheere-Terpstra 検定)
Jonckheere-Terpstra検定
Jonckheere-Terpstra検定は非パラメトリックな統計検定で、3つ以上の独立したサンプル間で順序関係が存在するかを評価するために使用されます。
主な仮説
- 帰無仮説 (H0): サンプル間に特定の順序関係はない
- 対立仮説 (H1): サンプル間に特定の順序関係がある
要点
- Jonckheere-Terpstra検定は、特にサンプルサイズが異なる場合やデータが正規分布に従わない場合に有用です。
- この検定は、複数のサンプル間での中央値の順序に関心がある場合に特に適しています。
注意点
- この検定は、データに順序差が存在するかどうかを判断しますが、具体的な順序 (どのグループが最も大きい、または最も小さいか等) を提供しません。
- サンプル数が2つの場合、Jonckheere-Terpstra検定は通常使用されず、Mann-Whitney U検定が推奨されます。
クラウド R 分析 (Jonckheere-Terpstra)
同等性/非劣性/優越性検定 (パラメトリック)
同等性/非劣性/優越性試験は、新しい治療法や介入の効果を既存の標準治療と比較する際に用いられます。 それぞれ異なる目的を持ち、仮説の設定方法が異なります。
注意点
マージン (\(\delta\)) の設定は重要で、臨床的に意味のある差に基づいて決定する必要があります。
同等性や非劣性を示すことは、優越性を否定することではありません。
これらの試験は、適切にデザインされた試験で事前に計画されている必要があります。
同等性試験 (Equivalence Test)
同等性試験は、新しい治療法が既存の治療法と同等の効果を持つことを示すために使用されます。
仮説:
\(H_0: |\mu_1 - \mu_2| \geq \delta\) (帰無仮説: 差の絶対値が許容範囲 \(\delta\) 以上)
\(H_1: |\mu_1 - \mu_2| < \delta\) (対立仮説: 差の絶対値が許容範囲 \(\delta\) 未満)
ここで、\(\mu_1\)は新治療の効果、\(\mu_2\)は標準治療の効果、 \(\delta\) は同等性マージンを表します。
解釈:
95%信頼区間が完全に(-\(\delta\) , \(\delta\))の範囲内に収まれば、同等性が示されます。
非劣性試験 (Non-inferiority Test)
非劣性試験は、新しい治療法が既存の治療法と比べて劣っていないことを示すために使用されます。
仮説:
\(H_0: \mu_1 - \mu_2 \leq -\delta\) (帰無仮説: 新治療が標準治療より \(\delta\) 以上劣る)
\(H_1: \mu_1 - \mu_2 > -\delta\) (対立仮説: 新治療が標準治療より \(\delta\) 未満の差でしか劣らない)
ここで、\(\delta\) は非劣性マージンを表します。
解釈:
95%信頼区間の下限が- \(\delta\) より大きければ、非劣性が示されます。
優越性試験 (Superiority Test)
優越性試験は、新しい治療法が既存の治療法よりも優れていることを示すために使用されます。
仮説:
\(H_0: \mu_1 - \mu_2 \leq \delta\) (帰無仮説: 新治療が標準治療より \(\delta\) 以上優れていない)
\(H_1: \mu_1 - \mu_2 > \delta\) (対立仮説: 新治療が標準治療より \(\delta\) 以上優れている)
ここで、\(\delta\) は優越性マージンを表しますが、通常は \(0\) を指定します。
解釈:
95%信頼区間の下限が \(\delta\) (通常 \(0\)) より大きければ、優越性が示されます。
二群の差の信頼区間が完全に (-δ, δ) の範囲内にある場合、2群は同等であると判断されます。
二群の差の信頼区間の下限が -δ より大きい場合、新治療は非劣性であると判断されます。
二群の差の信頼区間の下限が0より大きい場合、新治療は優越性があると判断されます。
統計的有意性だけでなく、臨床的意義も考慮する必要があり、効果量 (二群の差の大きさ) も重要な判断材料となります。
{{equivalence.type}}マージンが設定されていません