複数の説明変数によるデータ分析 (多変量解析)

解説

複数の説明変数を用いて、一つまたは複数の従属変数を分析します。 分析手法として、

  • 多元配置分散分析 (Analysis of Variance, ANOVA)
  • ロジスティック回帰モデル (Logistic Regression Model)
  • ポアソン回帰 (Poisson Regression)
  • 分散共分散分析 (Analysis of Covariance, ANCOVA)
  • 重回帰分析 (Multiple Regression)
  • 多変量分散分析 (Multivariate Analysis of Variance, MANOVA)
  • 主成分分析 (Principal Component Analysis, PCA)
  • 因子分析 (Factor Analysis)

を準備しています。

ポアソン回帰 は、カウントデータ(非負の整数値)を目的変数とする回帰分析手法で、稀な事象の発生回数や単位時間・空間あたりの事象数を予測するモデルです。過分散が検出された場合、準ポアソン回帰と負の二項回帰による追加分析も自動的に実行されます。

なお、これらの古典的手法は広く知られていますが、前提条件 (独立性、正規性、等分散性など) を満たさない場合や、複雑なデータ構造では解釈が難しくなることがあります。 また、欠測値の取り扱いにも注意が必要です。

反復測定や経時データ、階層構造を持つデータの分析には、以下の比較的モダンな手法も利用可能です。

観察データからの因果推論には、以下の手法が利用可能です。

  • 傾向スコアマッチング (Propensity Score Matching, PSM): 観察データにおいて、治療群と対照群の共変量のバランスを調整し、因果効果を推定する手法です。各個体の治療受領確率(傾向スコア)に基づいてマッチングを行います。
  • 逆確率重み付け (Inverse Probability of Treatment Weighting, IPTW): 傾向スコアの逆数を重みとして用いることで、全データを活用しながら共変量のバランスを調整し、因果効果を推定する手法です。

適用可能な手法の判定

多変量解析は、複数の説明変数を用いて、一つまたは複数の目的変数を分析する統計手法です。

構築したい予測モデルに応じて、まず統計手法を選択し、適切な形式のデータを用意する必要があります。 データ形式が間違っていると、分析結果の解釈が難しくなるだけでなく、誤った結論に至る可能性があります。

Reactive stat では、発想を変えて、 「どのデータから」「何が知りたいか」 を設定することで、適用可能な手法を判定し、各々について解析を行えるようにしました。

R による分析

Reactive stat の内部には、上記分析手法の独自コードは内蔵しておりません。 全て、クラウドの R で分析を実行することになります。

R では、基本ライブラリにて分析を実行します。 そのため、目的変数や説明変数の型制限の拡張などには対応していません。

より高度な統計分析を行う場合には、R のスクリプトコードをクリップボード経由でコピーして、R studio に貼付してご利用頂くことができます。

分析法の特徴一覧

手法 英語名 目的変数のタイプ 説明変数のタイプ 特徴 Wikipedia
{{ method.japaneseName }} {{ method.englishName }} {{ method.dependentVariableType }} {{ method.independentVariableType }} {{ method.characteristic }}

データ

設定