相関と回帰
解説
相関と回帰は、2つの連続変数間の関係を分析するために使用されます。 ユーザーは2つの連続変数を指定して、散布図を描き、相関係数を得ることができます。
散布図
- 群分類して表示できます。
- データのトレンドを示す回帰直線と、その信頼区間を表示します。
- データの分布の確率を示す確率楕円(信頼度指定可能)描画できます。
相関係数
- Pearsonの積率相関係数: 2つの変数間の線形関係の強さと方向を示します。
- Spearmanの順位相関係数: 2つの変数間の順位に基づく関係の強さと方向を示します。
分類内容 | 値 | |
{{ item.tag }} |
データの取り扱い
- データインポート
- データの読み込みは、ブラウザ内で完結し、外部へのデータ送信は発生しません。
- データ保持
- 読み込んだデータはブラウザ内に保持されます。
- ブラウザのセッションが終了または全てのタブが閉じられると、保持していたデータは自動的に破棄されます。
- データの安全性
- ブラウザがクラッシュした場合でも、10分経過すれば次回の起動時にデータは安全に消去されます。
- 共用のPCでの使用も考慮し、データの外部漏洩のリスクを最小化しています。
クラウド R を利用する時のデータ送信
- 最小限のデータ送信
- 外部のRサーバーへ送信されるデータは、数値計算に必要な最小限のセットに制限されています。
- 送信データは解析に必要なサブセットのみに限られます。
- ユーザーコントロール下のデータ送信
- 送信前に、どのデータが外部サーバーへ送信されるのか内容を確認することが可能です。
- データの送信はユーザーの操作により行われ、自動的な送信は行いません。
- クラウド R 出力結果の保持
- クラウド R からの出力結果は、将来の自動翻訳や自動解説の機能実現のため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
- 通信経路も全て暗号化していますので、たとえプライバシーに関わる情報が含まれていたとしても、通常は漏洩する恐れはありません。
AI による解説を利用する時のデータ送信
- 最小限のデータ送信
- 外部のAIサーバーへ送信されるデータは、クラウド R の出力結果と、用いた統計手法の徐放です。
- ただし、クラウド R の出力結果に連続した数値データが含まれる場合は、AI にデータ形式を認識させる目的で、連続データの最初の行のみを送信します。
- クラウド R 出力結果の保持
- AI による解説内容は、将来の品質向上などのため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
Reactive stat において、統計データの変数は、通常の数値や文字列として扱われます。 したがって、日付や時間の概念は直接的にはサポートされていません。
統計計算を行う際には、日付や時間の差分を数値として事前に用意しておく必要があります。
チェックされた行が削除対象となります
欠損値を含むカラムを選択
カラムを選択
削除対象の行
データ入力
{{ replaceNewlinesInStrings(replacedScript) }}
R の出力結果
{{ rResult }}
R出力図形
AI による R 出力結果の解説
データ
設定
散布図
直線回帰
直線回帰は、二つの変数間の関係をモデル化するための統計的手法です。 具体的には、一つの独立変数と一つの従属変数との関係を直線で表現するものです。
使用目的
- 関係の予測: 独立変数の値に基づいて従属変数の値を予測するために使用します。
- 関係の強さと方向: 独立変数が従属変数にどれほどの影響を持つか、その関係が正または負であるかを評価するために使用します。
注意事項
- 線形性: データが線形の関係を持っている場合にのみ、直線回帰は適切です。非線形の関係が疑われる場合、非線形回帰などの他の手法を検討する必要があります。
- 外れ値と影響点: 直線回帰は外れ値や影響点に敏感であり、それらの存在がモデルのパラメータを大きく変える可能性があります。
- 独立性: 誤差項は互いに独立であることが前提とされています。この前提が破られると、モデルの解釈が難しくなります。
確率分布楕円
確率分布楕円は、多変量データの分布を2次元平面上で可視化するためのツールです。 この楕円は、データの中心(平均)を中心にして描かれ、データの分散や共分散を反映しています。
使用目的
- データの分散の可視化: データのばらつきや、二つの変数間の関係を直感的に理解するために使用されます。
- 外れ値の確認: 楕円から大きく外れている点は、外れ値として評価されることが多いです。
パラメトリック検定結果
相関係数の検定 (Pearsonの積率相関係数)
{{group}}
検定の多重性の補正は行っておりません
Pearsonの積率相関係数は、二つの量的変数間の線形関係の強さと方向を示す指標です。 この係数は-1から1までの値を取ります。 正の値は正の相関(片方の変数が増加すると、もう片方も増加する)を示し、負の値は負の相関(片方の変数が増加すると、もう片方は減少する)を示します。 値が0の場合、変数間に線形関係は認められません。
変数間の関係が正の方向にあるか、または負の方向にあるかを判断するために使用されます。
二つの変数がどれほど密接に線形関係にあるかを評価するために使用されます。
注意事項
- Pearsonの相関係数は線形関係のみを示します。変数間の関係が非線形の場合、この係数はその関係を正確に捉えることができません。
- 外れ値がデータに存在すると、相関係数に大きな影響を及ぼす可能性があります。
- 相関係数が高いからといって、一方の変数がもう一方の変数の原因であるとは言えません(相関関係は因果関係を意味しない)。
Reactive stats では、以下の計算式を使用しています。
1. 相関係数:
\[ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \]2. Fisherのz変換:
\[ z = \frac{1}{2} \ln \left( \frac{1 + r}{1 - r} \right) \]3. 標準誤差:
\[ \text{SE} = \frac{1}{\sqrt{n - 3}} \]4. 95%信頼区間:
\[ z_{\text{CI,lower}} = z - 1.96 \times \text{SE} \] \[ z_{\text{CI,upper}} = z + 1.96 \times \text{SE} \]5. zから相関係数の信頼区間への逆変換:
\[ r_{\text{CI,lower}} = \frac{\exp(2 \times z_{\text{CI,lower}}) - 1}{\exp(2 \times z_{\text{CI,lower}}) + 1} \] \[ r_{\text{CI,upper}} = \frac{\exp(2 \times z_{\text{CI,upper}}) - 1}{\exp(2 \times z_{\text{CI,upper}}) + 1} \]6. t値の計算:
\[ t = \frac{r \times \sqrt{n - 2}}{\sqrt{1 - r^2}} \]7. p値: この値は、t分布を使用して計算されるt統計量に基づいています。
クラウド R 分析
ノンパラメトリック検定結果
相関係数の検定 (Spearmanの順位相関係数)
{{group}}
検定の多重性の補正は行っておりません
Spearmanの順位相関係数は、2つの変数の順位データ間の単純な関係の強さを示す指標です。 これは、変数が正規分布に従っていない場合や、変数間の関係が線形ではない場合に使用されます。 Spearmanの相関係数は、変数の値そのものではなく、それらの値の順位を考慮して計算されます。
この係数は-1から1までの値を取ります。 正の値は正の相関を示し、負の値は負の相関を示します。 値が0の場合、変数間に関係は認められません。
二つの変数間の関係の強さを量的に評価できます。
正規分布に従わない変数や、線形でない関係性を持つ変数間の関係の方向を明確にします。
注意事項
- Spearmanの順位相関係数は順位データに基づいています。したがって、実際のデータの値そのものの差は考慮されません。
- この相関係数は線形な関係を前提としていません。したがって、線形な関係が疑われる場合にはPearsonの積率相関係数の使用も検討する必要があります。
- 相関係数が高いからといって、一方の変数がもう一方の変数の原因であるとは言えません(相関関係は因果関係を意味しない)。
Reactive stats では、以下の計算式を使用しています。
1. Spearmanの順位相関係数:
\[ r_s = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} \]2. Fisherのz変換:
\[ z = \frac{1}{2} \ln \left( \frac{1 + r_s}{1 - r_s} \right) \]3. 標準誤差:
\[ \text{SE} = \frac{1}{\sqrt{n - 3}} \]4. 95%信頼区間:
\[ z_{\text{CI,lower}} = z - 1.96 \times \text{SE} \] \[ z_{\text{CI,upper}} = z + 1.96 \times \text{SE} \]5. zから相関係数の信頼区間への逆変換:
\[ r_{\text{CI,lower}} = \frac{\exp(2 \times z_{\text{CI,lower}}) - 1}{\exp(2 \times z_{\text{CI,lower}}) + 1} \] \[ r_{\text{CI,upper}} = \frac{\exp(2 \times z_{\text{CI,upper}}) - 1}{\exp(2 \times z_{\text{CI,upper}}) + 1} \]6. t値の計算:
\[ t = \frac{r_s \times \sqrt{n - 2}}{\sqrt{1 - r_s^2}} \]7. p値: この値は、t分布を使用して計算されるt統計量に基づいています。
クラウド R 分析