対応のある群間の検定
解説
対応のある群間の検定は、同じ被験者群に対して異なる条件を適用した場合や、時間の経過と共に同じ被験者群を測定した場合に使用される統計的手法です。 この種類の検定では、各被験者が両方の条件下でのデータを提供するため、データは「ペア」を形成します。
グラフ
- ヒストグラム: データの分布を視覚化します。各ビン(区間)にデータがどれだけ含まれているかを示します。
- 箱ひげ図: データの分布、中央値、四分位数、外れ値を視覚化します。
- バイオリンプロット: 箱ひげ図の分布情報に密度情報を加えたグラフです。データの密度分布を同時に示します。
- 散布図: 一方のサンプルを他方にプロットすることで、観察のペアを視覚化します。
- 並列座標プロット: データポイント間の関係を可視化するために使用されます。それぞれの変数が平行線としてプロットされ、各データポイントはこれらの線を横断する形で描かれます。
- 正規確率プロット: データが正規分布に従っているかを視覚的に評価します。データの正規性を確認するために使用されます。
統計計算
2群間
- 対応のある t検定: 同じ被験者群が二つの異なる条件下で異なる結果を示すかどうかを検定します。例えば、同じ被験者が異なる二つの治療法を受けた場合の効果の差を検定する際に用いられます。ペアのt検定では、データが連続的であり、両群間の差異が正規分布していることが前提条件です。
- 対応のある2群間の比較 (Wilcoxon の符号順位検定): データが正規分布に従わない場合、ペアのt検定の代わりにWilcoxon符号順位検定が用いられます。この検定は、ペアのデータセットにおける中央値の差が統計的に有意かどうかを検定します。
多群間
- 反復測定ANOVA(分散分析): 同じ被験者群に対して時間の経過とともに複数回の測定を行った際に使用される統計手法です。時間の経過や異なる条件下での測定値の変化について、群間での平均値に有意な差があるかどうかを検定します。データが正規分布に従っていることと、分散の均一性が前提条件です。
- フリードマン検定: 反復測定データが正規分布に従わない場合に用いられるノンパラメトリックな統計手法です。3群以上の関連する群間での中央値に有意な差があるかどうかを検定します。
- Wilcoxonの符号順位検定を用いたペアワイズ比較: フリードマン検定の結果に基づいて、どの群間に有意な差が存在するかを特定するために使用されます。各ペアの群間で中央値の差を個別に検定します。各ペアの比較には多重比較の補正が必要となる場合があります。
データ形式
通常、Wide Format が適切です。
必要に応じて変換できます。
分類内容 | 値 | |
{{ item.tag }} |
データの取り扱い
- データインポート
- データの読み込みは、ブラウザ内で完結し、外部へのデータ送信は発生しません。
- データ保持
- 読み込んだデータはブラウザ内に保持されます。
- ブラウザのセッションが終了または全てのタブが閉じられると、保持していたデータは自動的に破棄されます。
- データの安全性
- ブラウザがクラッシュした場合でも、10分経過すれば次回の起動時にデータは安全に消去されます。
- 共用のPCでの使用も考慮し、データの外部漏洩のリスクを最小化しています。
クラウド R を利用する時のデータ送信
- 最小限のデータ送信
- 外部のRサーバーへ送信されるデータは、数値計算に必要な最小限のセットに制限されています。
- 送信データは解析に必要なサブセットのみに限られます。
- ユーザーコントロール下のデータ送信
- 送信前に、どのデータが外部サーバーへ送信されるのか内容を確認することが可能です。
- データの送信はユーザーの操作により行われ、自動的な送信は行いません。
- クラウド R 出力結果の保持
- クラウド R からの出力結果は、将来の自動翻訳や自動解説の機能実現のため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
- 通信経路も全て暗号化していますので、たとえプライバシーに関わる情報が含まれていたとしても、通常は漏洩する恐れはありません。
AI による解説を利用する時のデータ送信
- 最小限のデータ送信
- 外部のAIサーバーへ送信されるデータは、クラウド R の出力結果と、用いた統計手法の徐放です。
- ただし、クラウド R の出力結果に連続した数値データが含まれる場合は、AI にデータ形式を認識させる目的で、連続データの最初の行のみを送信します。
- クラウド R 出力結果の保持
- AI による解説内容は、将来の品質向上などのため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
Reactive stat において、統計データの変数は、通常の数値や文字列として扱われます。 したがって、日付や時間の概念は直接的にはサポートされていません。
統計計算を行う際には、日付や時間の差分を数値として事前に用意しておく必要があります。
チェックされた行が削除対象となります
欠損値を含むカラムを選択
カラムを選択
削除対象の行
データ入力
{{ replaceNewlinesInStrings(replacedScript) }}
R の出力結果
{{ rResult }}
R output figures
AI による R 出力結果の解説
データ
設定
結果
ヒストグラム (度数分布)
ヒストグラムはデータの分布の概要を表すためのツールです。 データがどのように分散しているか、ピークはどこにあるか、外れ値は存在するかなど、初見のデータセットに対しての洞察を得るために役立ちます。
- ビンの選択: ヒストグラムを描く際のビンの数や幅の選択は結果に影響を及ぼします。 ビンが多すぎるとノイズが目立ち、少なすぎるとデータの形状がわからなくなります。ここでは自動調整しています。
- 統計的検定の前に、データが正規分布に従っているかどうかの確認に使用します。
箱ひげ図
箱ひげ図は、データの四分位数を使用して、データのばらつきや中央の値を視覚的に表します。
- ホイスカー: データの最大値と最小値を示します。
- 外れ値: 1.5倍の四分位範囲を超えるデータを外れ値とみなす場合が多いです。
- 応用: 複数のグループ間での中央値や分散を比較できます。
バイオリンプロット
バイオリンプロットはデータの分布を細かく表現するためのグラフです。 データの分布の形や密度に加え、中央の値やばらつきも一度に表すことができます。
- カーネル密度推定: データポイントの周りの滑らかなカーブ。
- 応用: 2つ以上のカテゴリ変数ごとのデータの分布を比較できます。
散布図{{settings.targetColumns.length > 2? '行列': ''}}
並列座標プロット
並列座標プロット(Parallel Coordinate Plot: PCP)は、多次元データを二次元の平面上で可視化するためのグラフィカル手法です。 各変数は平行な軸としてプロットされ、データポイントはこれらの軸をまたぐ連続した線として表現されます。
- 各変数は平行な縦軸になります。
- 各データポイントは、関連する変数の値に基づいて複数の軸に沿って線として描画されます。
正規確率プロット
正規確率プロット (Q-Qプロット、Quantile-Quantileプロットとも言います) は、データの分布が正規分布にどれほど近いかを視覚的に評価するためのグラフィカルな方法です。
このプロットは、データが正規分布に従っている場合、点が直線上に位置するはずであるという考えに基づいています。 正規確率プロットを使用すると、データの正規性、特にその偏りやピークを容易に識別できます。
正規確率プロットの解釈
- 直線上に点が並んでいる場合: データは正規分布に従っている可能性が高い。
- 曲線の形状をしている場合: データが正規分布から逸脱していることを示しています。たとえば、データの中央部分の点が直線よりも上にあるが、両端は直線上にある場合、データはピークがあります(すなわち、尖っている)。
- S字カーブを描く点: データが両側に裾が広がっていることを示しています。
正規確率プロットの利点
- データが正規分布に従っているかどうかを直感的に判断できます。
- データの偏りや尖り、外れ値の存在を容易に特定できます。
パラメトリック検定結果
対応のある t検定の結果 (両側検定)
対応のあるt検定 (対応のあるt検定) は、同じ被験者が2つの異なる条件下で測定された場合などの、対応のある測定値の変化があるのかどうかを検定するための手法です。
ある治療の前後での症状の変化を比較する際などに用いられます。
例えば、体重は個人差が大きいですが、対応のある検定であれば、個人内の体重の増減だけが検討対象となるので、変化を確認しやすいです。
利用場面繰り返し測定が行われたデータ、例えば治療前後、あるいは介入前後の効果を評価する際などに利用されます。
計算式対応のあるt検定では、対応するデータの差の平均値が0であるという帰無仮説を検定します。
差の平均値 \(\bar{D}\) は以下のように定義されます。 \[ \bar{D} = \frac{1}{n} \sum_{i=1}^n D_i \] ここで、\(D_i = x_{1i} - x_{2i}\) は、それぞれ \(i\) 番目の個体の条件1と条件2での測定値の差です。
差の標本標準偏差 \(s_D\) は以下のように定義されます。 \[ s_D = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (D_i - \bar{D})^2} \]
対応のあるt検定のt統計量は、以下のように計算されます。 \[ t = \frac{\bar{D}}{s_D / \sqrt{n}} \] ここで、\(\bar{D}\) は差の標本平均、\(s_D\) は差の標本標準偏差、\(n\) はサンプルサイズを表します。
注意事項この検定は平均値の差のみを検討するため、差のデータが正規分布に従っていると仮定します。そのため、差の正規性の確認が必要です。 差のデータが正規分布をしていない場合や、異常値や外れ値が含まれている場合は、その結果に影響を及ぼす可能性があります。 そのような場合には、ノンパラメトリックな手法 (Wilcoxonの符号付順位和検定など) の利用を検討してください。
また、2つの条件間のデータが対応していることを前提としています。
反復測定 ANOVA (分散分析) の結果
群分類数が多すぎます
反復測定ANOVA (Repeated Measures ANOVA) は、同じ対象群に対して複数回の異なる条件や時間点での測定を比較するための統計的手法です。 この手法は、時間経過に伴う変化や異なる条件下での変化を検討する際に特に役立ちます。
- 同じ対象群の複数の測定: 同じ個体や対象群が複数回の測定を受けることから、「反復測定」と呼ばれます。
- 条件間の変化を分析: 薬の効果、トレーニングの影響、時間経過といった要因の効果を検討するのに適しています。
- 対象群の個体差を考慮: 同じ個体からの複数の測定データを利用するため、個体間の変動を制御することが可能です。
- データの欠損: 全ての時間点や条件でデータが欠損している場合、分析を行うことが難しい場合があります。
- 球面性の仮定: 反復測定ANOVAでは、球面性 (sphericity) の仮定を満たす必要があります。これは、全ての条件間の差の分散が等しいことを意味します。この仮定が満たされない場合、自由度の調整 (例: Greenhouse-Geisser correction) が必要です。
- 正規性: 反復測定ANOVAを適用する前に、データが正規分布に従っているかを確認する必要があります。正規分布に従っていない場合には、ノンパラメトリックな手法の利用を検討してください。
Reactive stats では、以下の計算式を使用しています。 R では、複雑な補正などが行われており、より信頼性が高いので、実務での使用においては クラウド R 分析 の結果をご利用ください。
- 条件間の平方和 (Between-Conditions Sum of Squares)
- 被験者間の平方和 (Between-Subjects Sum of Squares)
- 条件内の平方和 (Within-Conditions Sum of Squares)
この部分は、各条件の平均が全体の平均からどれだけ離れているかを示します。
\[ SS_{\text{Between}} = n \sum_{i=1}^{k} (\bar{X}_{i} - \bar{X}_{\text{Grand}})^2 \]ここで、
\( n \) は各条件の被験者数、
\( k \) は条件の数、
\( \bar{X}_{i} \) は第i条件の平均、
\( \bar{X}_{\text{Grand}} \) は全体の平均です。
この部分は、各被験者の全条件にわたる平均が全体の平均からどれだけ離れているかを示します。
\[ SS_{\text{Subjects}} = k \sum_{j=1}^{n} (\bar{X}_{j} - \bar{X}_{\text{Grand}})^2 \]ここで、
\( \bar{X}_{j} \) は第j被験者の全条件にわたる平均です。
この部分は、各被験者のスコアがその条件の平均からどれだけ離れているかを示します。
\[ SS_{\text{Within}} = \sum_{i=1}^{k} \sum_{j=1}^{n} (X_{ij} - \bar{X}_{i})^2 \]ここで、
\( X_{ij} \) は第i条件の第j被験者のスコアです。
最後に、これらの変動を元にF統計量を計算します。
\[ F = \frac{MS_{\text{Between}}}{MS_{\text{Within}}} \]ここで、
\( MS_{\text{Between}} \) は条件間の平均平方 (条件間の平方和を自由度で割ったもの)、
\( MS_{\text{Within}} \) は条件内の平均平方 (条件内の平方和を自由度で割ったもの) です。
F統計量とその自由度からp値を計算します。
クラウド R 分析
ノンパラメトリック検定結果
対応のある2群間の比較 (Wilcoxon の符号順位検定)
Wilcoxon の符号順位検定は、対応のある2群間の中央値の差を検定する非パラメトリック手法です。
2つの群の間で繰り返し測定が行われたデータやペアのデータに対して検定を行います。 例えば、治療前後の変化を調査したい場合などに使用されます。
データが正規分布をしていない場合や、サンプルサイズが小さい場合でも使用可能です。また、外れ値の影響を受けにくいという特徴も持っています。
注意事項この検定は中央値の差を検定するものであるため、平均値の差に関する情報は提供しません。 対応のないデータには適用できません。対応のある群間の検定手法をご利用ください。
Reactive stats では、以下の計算式を使用しています。
- 2つのデータセット \( A \) と \( B \) から、差の値を計算します。 \[ d_i = A_i - B_i \]
- これらの差 \( d_i \) の絶対値に順位をつけます。 \[ \text{ranks} = \text{rank}(|d_i|) \]
- 差の符号に応じて、順位に正または負の符号をつけます。 \[ \text{signedRanks}_i = \begin{cases} -\text{ranks}_i & \text{if } d_i < 0 \\ \text{ranks}_i & \text{otherwise} \end{cases} \]
- 正と負の符号順位の和を計算します。 \[ \text{posSum} = \sum_{i=1}^{n} \text{signedRanks}_i^{+} \] \[ \text{negSum} = \sum_{i=1}^{n} \text{signedRanks}_i^{-} \]
- \( W \) 統計量は、正と負の符号順位の和の絶対値の小さい方として計算します。 \[ W = \min(|\text{posSum}|, |\text{negSum}|) \]
- \( W \) の期待値と分散を計算します。 \[ E(W) = \frac{n(n + 1)}{4} \] \[ \text{Var}(W) = \frac{n(n + 1)(2n + 1)}{24} \]
-
サンプルサイズが大きい場合や同順位が存在する場合には、正規近似を使用してp値を計算します。この際、連続性補正(continuity correction)を適用します。
連続性補正値は以下のように計算されます。 \[ \text{連続性補正値} = \begin{cases} -0.5, & \text{if } W < E(W) \\ 0.5, & \text{if } W \geq E(W) \end{cases} \] この連続性補正値を用いて、標準化されたW値(Z)を次のように計算します。 \[ Z=\frac{W - E(W) - \text{連続性補正値}}{\sqrt{\text{Var}(W)}} \] 直観的には、$W$が期待値より小さい場合は補正値として$-0.5$を減算することで$Z$値を小さくし、$W$が期待値以上の場合は補正値として$0.5$を減算することで$Z$値を大きくします。これにより、$W$が極端な値をとる確率を適切に調整し、正規近似による計算結果を正確な分布に近づけることができます。 - 最後に、標準正規分布を用いてZ値を計算し、p値を求めます。 \[ Z = \frac{W - E(W)}{\sqrt{\text{Var}(W)}} \]
フリードマン検定 の結果
群分類数が多すぎます
フリードマン検定は、3つ以上の対応のある群間で、群の効果が存在するかどうかを検定する非パラメトリックな手法です。
この検定は中央値の比較を行います。 正規分布を仮定しないので、データの分布が歪んでいる場合や等分散性が仮定できない場合でも利用できます。
同じ被験者に対して複数回、異なる条件や時間点での測定結果を比較する際に使用されます。 例えば、ある治療法の効果を3つの異なる時間点で評価するような場面です。
注意事項フリードマン検定は対応のあるデータ用ですので、独立した群間のデータには使用できません。 また、検定の力が低い場合があるので、効果サイズやサンプルサイズの計算も検討する必要があります。
Reactive stats では、以下の計算式を使用しています。 R では、同順位の補正などが行われており、より信頼性が高いので、実務での使用においては クラウド R 分析 の結果をご利用ください。
フリードマン検定の主要な手順は、異なる群からの各ペアの観測値に順位を付け、その後各群の順位の和を計算することに基づいています。
- 各ペアの観測値に順位を付ける: \[ r_{ij} = \text{rank} (X_{ij}) \]
- 各群の順位の和を計算する: \[ R_j = \sum_{i=1}^{n} r_{ij} \]
- 同順位の補正を行う:
- フリードマン統計量を計算する: \[ \chi^2 = \frac{12}{n \times k \times (k + 1)} \times \left(\sum_{j=1}^{k} R_j^2\right) - 3n(k+1) - \frac{1}{n \times k \times (k-1)} \times \left(\sum_{i=1}^{n} \sum_{j=1}^{k} (r_{ij}^3 - r_{ij})\right) \]
- 自由度 \( k - 1 \) の \( \chi^2 \) 分布を用いてp値を計算します。
ここで、\( r_{ij} \) は \( j \) 群の \( i \) 番目の観測値の順位を表します。
\( R_j \) は \( j \) 群の順位の和を表します。
同順位が存在する場合、フリードマン統計量の計算に影響を与えます。同順位の補正は以下の式で行われます。
\[ \sum_{i=1}^{n} \sum_{j=1}^{k} (r_{ij}^3 - r_{ij}) \]ここで、\( r_{ij} \) は \( j \) 群の \( i \) 番目の観測値の順位を表します。
ここで、\( n \) は各群の観測数、\( k \) は群の数です。
Wilcoxon の符号順位検定を用いたペアワイズ比較
グループの比較 | p 値 (補正なし; 非推奨) |
p 値 (Bonferroni 補正) |
p 値 (Holm 補正) |
---|---|---|---|
{{ groupNames[item[0][0]] + ' vs. ' +groupNames[item[0][1]] }} | {{ item[1].customPrecision(3) }} | {{ testResults.bonferroniMethodP[idx].customPrecision(3) }} | {{ testResults.holmMethodP[idx].customPrecision(3) }} |
Wilcoxon の符号順位検定を用いたペアワイズ比較
フリードマン検定の結果が有意であった場合に、事後検定として、どのグループ間で有意な差が存在するかを特定するために、2群ごとに Wilcoxon の符号順位検定を行います。
得られたp値に対して、複数の比較 (多重比較) を考慮した補正を施す必要があります。
多重比較の問題に対する補正
群間で比較する場合は、検定を繰り返すため、p値が偶然 0.05を下回ってしまう確率が高まります。 これが多重比較における多重性の問題です。 補正のための多数の手法が提案されていますが、Reactive stat では、以下の二つの補正値を計算して表示します。 他にも、多数の補正方法があります。
Bonferroni 補正
- 最も簡単で保守的な補正方法の一つ。各p値を比較回数倍することで補正する。p値が十分小さいのであれば、これを適用しておけば間違いはない。
- 利点: 簡単で明確。Type I エラーのリスクが高まることがない。
- 欠点: 非常に保守的で、Type IIエラーのリスクが高まる。
Holm 補正
- p値を昇順にソートし、最小のp値から Bonferroni 補正を適用する。最小のp値が補正後のしきい値を超えた場合、そのp値とその後のすべてのp値を棄却する。
- 利点: Bonferroni 補正よりもパワーが高い。
- 欠点: まだ保守的な場合がある。
クラウド R 分析