重回帰分析 (Multiple Regression)
解説
重回帰分析とは
重回帰分析 (Multiple Regression) は、複数の説明変数を用いて1つの連続変数(目的変数)を予測する線形モデルです。各説明変数が目的変数にどの程度影響するかを回帰係数として推定し、予測式を構築します。
単回帰分析が1つの説明変数のみを扱うのに対し、重回帰分析は2つ以上の説明変数を同時に扱い、他の変数の影響を制御した上での各変数の独立した効果を評価できます。
主な用途:
- 予測モデルの構築: 連続的なアウトカムの予測
- 影響要因の同定: 目的変数に影響する要因の特定と定量化
- 交絡因子の調整: 他の変数を制御した上での特定の変数の効果推定
- 予測式の導出: 回帰式による定量的予測
本アプリでサポートする機能
| 機能 | 詳細 | 特徴 |
|---|---|---|
| モデル推定 | lm() による最小二乗法 | フルモデルの推定 |
| 変数選択 | step() による自動変数選択 | 3種類の選択法に対応 |
| 効果量 | R²(決定係数)と Cohen's f² | モデル全体の説明力 |
| 診断プロット | 4種類の回帰診断プロット | モデルの前提条件を視覚的に確認 |
| 外れ値検出 | Cook's Distance | 影響力の大きい観測値の特定 |
変数選択法
| 手法 | 概要 | 適用場面 |
|---|---|---|
| ステップワイズ法 | 変数の追加と除去を繰り返し最適モデルを探索 | 一般的な変数選択(デフォルト) |
| 前向き選択法 | 最も有意な変数を順に追加 | 変数が多い場合 |
| 後向き選択法 | 全変数から有意でない変数を順に除去 | フルモデルから不要な変数を削除 |
変数選択は AIC (赤池情報量規準) に基づいて行われます。AICが最も低くなるモデルが最適モデルとして選択されます。
データ要件と推奨事項
変数の要件
- 目的変数: 連続変数 1つ
- 説明変数: 連続変数またはカテゴリカル変数(混在可)、2つ以上必須
サンプルサイズの目安
| 分析の種類 | 最低限 | 推奨 |
|---|---|---|
| 基本モデル | 説明変数1個あたり10件以上 | 説明変数1個あたり20件以上 |
| 変数選択を行う場合 | 説明変数1個あたり15件以上 | 説明変数1個あたり30件以上 |
前提条件
- 線形性: 説明変数と目的変数の関係が線形であること
- 正規性: 残差が正規分布に従うこと
- 等分散性: 残差の分散が一定であること(均一分散)
- 独立性: 残差が独立であること(系列相関なし)
- 多重共線性の回避: 説明変数間に強い相関がないこと
4種類の診断プロット
| プロット | 確認内容 | 理想的なパターン |
|---|---|---|
| 残差 vs 予測値 | 線形性と等分散性 | ランダムに散布(パターンなし) |
| 正規Q-Qプロット | 残差の正規性 | 点が直線に沿って並ぶ |
| 尺度-位置プロット | 等分散性の詳細確認 | 水平な傾向線 |
| Cook's Distance | 影響力の大きい観測値 | 4/n 以下が理想 |
結果の解釈
回帰係数の解釈
- 回帰係数 (β): 他の変数を一定にしたとき、その説明変数が1単位増加すると目的変数がβだけ変化
- 標準化係数: 変数間の相対的な重要度の比較に使用
- p値: 各回帰係数が0でないことの統計的有意性
決定係数 R²
| R² | 説明力 |
|---|---|
| ≥ 0.75 | 優秀 |
| 0.50 - 0.74 | 良好 |
| 0.25 - 0.49 | 中程度 |
| < 0.25 | 低い |
Cohen's f² (効果量)
| f² | 効果の大きさ |
|---|---|
| ≥ 0.35 | 大 |
| 0.15 - 0.34 | 中 |
| 0.02 - 0.14 | 小 |
Cook's Distance による外れ値の判定
- 一般的に Cook's D > 4/n(n = サンプルサイズ)を外れ値の閾値とします
- 外れ値が検出された場合、その観測値を除外した上での再分析を検討してください
注意事項
- 多重共線性: VIF (分散拡大要因) > 10 の変数がある場合、推定が不安定になります。相関の高い変数の一方を除外するか、主成分分析を検討してください
- 変数選択の限界: ステップワイズ法はデータに過剰適合する傾向があります。結果の解釈には注意が必要です
- 外挿の危険性: 学習データの範囲外での予測は信頼性が低くなります
- 因果推論: 重回帰分析は変数間の関連性を示すものであり、因果関係の証明には研究デザインの検討が必要です
- カテゴリカル変数のダミー変数化: カテゴリカル変数はRの内部でダミー変数に自動変換されます。基準カテゴリの設定が結果の解釈に影響します
他の多変量解析手法
複数の説明変数によるデータ分析 (多変量解析) ページでは、本手法を含む10種類の多変量解析手法の概要と比較をご覧いただけます。
下のアプリでは、入力されたデータの目的変数・説明変数のタイプを自動判定し、適用可能な統計手法をすべて提示します。 そのため、本ページの手法以外の結果も表示されることがあります。これは同じデータ設定で複数の分析を比較検討できる仕組みです。
アプリ
| 分類内容 | 値 | |
| {{ item.tag }} |
データの取り扱い
- データインポート
- データの読み込みは、ブラウザ内で完結し、外部へのデータ送信は発生しません。
- データ保持
- 読み込んだデータはブラウザ内に保持されます。
- ブラウザのセッションが終了または全てのタブが閉じられると、保持していたデータは自動的に破棄されます。
- データの安全性
- ブラウザがクラッシュした場合でも、10分経過すれば次回の起動時にデータは安全に消去されます。
- 共用のPCでの使用も考慮し、データの外部漏洩のリスクを最小化しています。
クラウド R を利用する時のデータ送信
- 最小限のデータ送信
- 外部のRサーバーへ送信されるデータは、数値計算に必要な最小限のセットに制限されています。
- 送信データは解析に必要なサブセットのみに限られます。
- ユーザーコントロール下のデータ送信
- 送信前に、どのデータが外部サーバーへ送信されるのか内容を確認することが可能です。
- データの送信はユーザーの操作により行われ、自動的な送信は行いません。
- クラウド R 出力結果の保持
- クラウド R からの出力結果は、将来の自動翻訳や自動解説の機能実現のため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
- 通信経路も全て暗号化していますので、たとえプライバシーに関わる情報が含まれていたとしても、通常は漏洩する恐れはありません。
AI による解説を利用する時のデータ送信
- 最小限のデータ送信
- 外部のAIサーバーへ送信されるデータは、クラウド R の出力結果と、用いた統計手法の徐放です。
- ただし、クラウド R の出力結果に連続した数値データが含まれる場合は、AI にデータ形式を認識させる目的で、連続データの最初の行のみを送信します。
- クラウド R 出力結果の保持
- AI による解説内容は、将来の品質向上などのため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
Reactive stat において、統計データの変数は、通常の数値や文字列として扱われます。 したがって、日付や時間の概念は直接的にはサポートされていません。
統計計算を行う際には、日付や時間の差分を数値として事前に用意しておく必要があります。
チェックされた行が削除対象となります
削除対象の行
データ入力
AI による R コードの解説
R の出力結果
R出力図形
AI による R 出力結果の解説
- データ: カラム名 (列名) をそのまま記述するか、"列名" のようにダブルクォートで挟んで指定
- 算術演算子: +, -, *, /, ()
- 基本関数: abs(), sqrt(), pow(), exp(), log(), log10()
- 三角関数: sin(), cos(), tan(), asin(), acos(), atan()
- 丸め関数: round(), floor(), ceil()
体重 / pow(身長, 2), "体重" / ("身長" * "身長")
{{ column }}
{{title}}
入力されたデータの目的変数・説明変数のタイプを自動判定し、適用可能な統計手法をすべて提示します。 これは同じデータ設定で複数の分析を比較検討できる仕組みです。
{{calledFromSubPage? '本アプリで統合的に実行可能な': ''}}分析法の特徴一覧
| 手法 | 英語名 | 目的変数のタイプ | 説明変数のタイプ | 特徴 | Wikipedia |
|---|---|---|---|---|---|
| {{ method.japaneseName }} | {{ method.englishName }} | {{ method.dependentVariableType }} | {{ method.independentVariableType }} | {{ method.characteristic }} |
データ
設定
統計手法
| 変数名 | 数値 | 連続変数 | カテゴリカル /離散変数 |
|||
|---|---|---|---|---|---|---|
| {{ variable }} | {{ type.numerical ? '〇' : '-' }} | {{ type.originallyContinuous ? '〇' : '-' }} | {{ type.originallyCategorical ? '〇' : '-' }} |
データの分類は以下のルールに従っています
変数タイプは手動で調整できます
- : 有効 / : 無効
- クリックすると切り替わり、各統計手法に渡されるデータ形式を明示できます。
| 手法 | 目的変数のタイプ | 説明変数のタイプ | 適用 |
|---|---|---|---|
| {{ method.japaneseName }} | {{ method.dependentVariableType }} | {{ method.independentVariableType }} | {{ method.reason }} |
結果
{{method.japaneseName}} ({{method.englishName}})
- {{ warning }}