重回帰分析のサンプルサイズの計算

重回帰分析のサンプルサイズ計算は、指定した効果サイズを指定した検出力で統計的に検出するために必要な最小サンプルサイズを算出する手法です。研究計画段階で適切なサンプルサイズを設定することで、効率的で信頼性の高い研究を実施できます。

本アプリでは、個別の回帰係数の検定 (t検定) において、特定の回帰係数が0でないかの検定が対象です。

: 血圧 = β₀ + β₁×年齢 + β₂×性別 + β₃×BMI + ε のモデルで、「年齢の回帰係数β₁が0でない」という仮説の検定

すべての回帰係数が同時に0かどうかというモデル全体の検定 (F検定) には対応していません。

本アプリではCohen's f² を効果サイズの指標として使用します。

Cohen's f² の定義と解釈

f² = R²/(1 - R²)

R: 重相関係数
R²: 重相関係数の二乗 = 決定係数
効果サイズ R²換算 解釈
小効果 f² = 0.02 R² ≈ 0.02 わずかな説明力
中効果 f² = 0.15 R² ≈ 0.13 中程度の説明力 (一般的な目標)
大効果 f² = 0.35 R² ≈ 0.26 高い説明力

効果サイズの決定方法

  • 先行研究: 類似研究でのR²値を参考にf²を算出
  • 実用的重要性: 研究分野での実用的に意味のある説明力
  • 予備分析: パイロット研究での回帰分析結果
要因 サンプルサイズへの影響 重回帰分析での特徴
効果サイズ (f²) 小さいほど多く必要 R²/(1-R²)で算出、分野により大きく異なる
検出力 (1-β) 高いほど多く必要 一般的に80%以上を設定
有意水準 (α) 小さいほど多く必要 通常0.05を使用
検定対象変数数 多いほど多く必要 同時検定する回帰係数の個数

検定対象の予測変数数

定義: 仮説検定で関心のある回帰係数の個数

重回帰分析での例:

  • 年齢の効果のみを検定 → 1
  • 教育手法 (3群) の効果を検定 → 2 (ダミー変数2個)
  • 年齢と性別の効果を同時検定 → 2

最も一般的: 単一変数の効果検定 (1変数)

効果サイズの現実的な設定

推奨アプローチ:

  • 先行研究ベース: 類似研究での効果サイズの70-80%程度を設定
  • 最小実用効果: 実用的に意味のある最小の効果サイズ
  • 保守的設定: 中効果 (f² = 0.15) 程度が現実的

例1: 単一変数の効果検定

研究: 年齢が血圧に与える影響の検証 (性別・BMIで調整)

設定:

  • 検定対象: 年齢の効果 (1変数)
  • 効果サイズ: f² = 0.15 (中程度の効果を期待)
  • 検出力: 80%、有意水準: 5%

結果: 必要サンプルサイズ = 55名

解釈: 比較的現実的なサンプルサイズで実行可能

例2: 複数変数の同時検定

研究: 治療効果 (薬物A・B vs 対照) の比較研究

設定:

  • 検定対象: 治療効果のダミー変数 (2変数)
  • 効果サイズ: f² = 0.20 (やや大きめの効果を期待)
  • 検出力: 85%、有意水準: 5%

結果: 必要サンプルサイズ = 52名

解釈: 効果サイズが大きければ複数変数検定でもサンプル数は抑制可能

例3: 小さな効果サイズでの研究

研究: 社会経済要因が健康に与える影響

設定:

  • 検定対象: 収入の効果 (1変数)
  • 効果サイズ: f² = 0.05 (社会科学では現実的)
  • 検出力: 80%、有意水準: 5%

結果: 必要サンプルサイズ = 153名

解釈: 小さな効果サイズでは大規模な調査が必要

重回帰分析での経験則

  • 最小限: 被験者数 > 予測変数数 × 10
  • 推奨: 被験者数 > 予測変数数 × 15-20
  • 安全: 被験者数 > 予測変数数 × 30

実際の研究での考慮事項

  • 脱落率: 10-20%の参加者脱落を見込んで1.2倍程度で設計
  • 外れ値: 数%の外れ値除去を考慮
  • 欠損データ: 完全ケース分析の場合はさらに余裕を持った設計

R の pwr パッケージの pwr.f2.test() 関数を使用しています。 pwrパッケージは統計的検出力とサンプルサイズ計算のための標準的なライブラリです。

pwr パッケージについて

  • 公式ページ: CRAN - pwr
  • 詳細ドキュメント: pwr Package Manual
  • 対応する統計手法: t検定、ANOVA、回帰分析、相関分析、比率検定など多数の手法に対応
  • 特徴: Cohen (1988) の統計的検出力分析の理論に基づく標準的なライブラリ

重回帰分析特有の考慮点

  • 多重共線性: 予測変数間の高い相関がある場合、より多くのサンプルが必要
  • 変数選択: モデル選択により実際に必要なサンプル数が変動
  • 交互作用: 変数間の相互作用を含める場合はさらに大きなサンプルが必要

計算の前提と限界

  • 線形関係の仮定: 従属変数と独立変数の関係が線形
  • 効果サイズの固定: 実際の効果サイズが設定値と異なる場合、結果も変わる
  • 正規性仮定: 誤差項の正規性が前提

重回帰分析のサンプルサイズ計算は研究の実行可能性を事前に評価する重要なツールです。効果サイズの現実的な設定と、研究分野での標準的な値を参考にして、適切なサンプルサイズを計画することが重要です。