複数の説明変数によるデータ分析 (多変量解析)
数多くの機能追加を行いましたので、その内容をまとめました。 バージョンアップレポート
解説
このページで実行可能な分析手法
手法 | 目的変数 | 説明変数 | 主な用途 |
---|---|---|---|
多元配置分散分析 (ANOVA) | 連続変数 | カテゴリカル変数 | 群間の平均値比較 |
ロジスティック回帰モデル | カテゴリカル変数 | 連続/カテゴリカル | 分類問題の解決 |
ポアソン回帰 | カウントデータ | 連続/カテゴリカル | 稀な事象の発生予測 |
判別分析 | カテゴリカル変数 | 連続変数 | グループ分類・判別 |
順序ロジスティック回帰 | 順序カテゴリカル | 連続/カテゴリカル | 順序データの予測 |
共分散分析 (ANCOVA) | 連続変数 | 連続+カテゴリカル | 共変量を制御した群間比較 |
重回帰分析 | 連続変数 | 連続/カテゴリカル | 連続値の予測 |
多変量分散分析 (MANOVA) | 複数の連続変数 | カテゴリカル変数 | 多変量の群間比較 |
主成分分析 (PCA) | なし | 複数の連続変数 | 次元削減・データ要約 |
因子分析 | なし | 複数の連続変数 | 潜在因子の特定 |
古典的手法の制限事項
これらの古典的手法は広く知られていますが、以下の点に注意が必要です:
- 前提条件: 独立性、正規性、等分散性などの仮定
- データ構造: 複雑なデータ構造では解釈が困難
- 欠測値: 適切な取り扱いが必要
- 多重比較: 複数検定による第1種エラーの増大
その他の多変量解析手法
その他の多変量解析手法は以下のページから利用できます。
- 構造方程式モデリング (SEM): 測定モデルと構造モデルを統合した包括的分析
- 確認的因子分析 (CFA): 理論的因子構造の統計的検証
- 多次元尺度法 (MDS): 高次元データの低次元可視化
- 階層線形モデル (HLM): 階層構造・クラスタ構造データの分析
- 混合正規分布モデル (GMM): 教師なし学習による潜在グループ発見
- 線形混合効果モデル (LMM): 固定効果・ランダム効果の統合分析
- 一般化推定方程式 (GEE): 経時データ・繰り返し測定データの分析
- 線形混合効果モデル (Linear Mixed Effects Model, LMM): 被験者内変動と被験者間変動を同時にモデル化でき、欠測データがある場合や測定時点が不均一な場合にも適用可能です。ランダム効果を導入することで、被験者ごとの特性を考慮した分析が可能になります。
- 一般化推定方程式 (Generalized Estimating Equations, GEE): 相関のある繰り返し測定データや縦断的データを分析する際に、平均応答に焦点を当てる手法です。様々な相関構造を指定でき、非正規分布の応答変数にも対応しています。
観察データからの因果推論には、以下の手法が利用可能です。
- 傾向スコアマッチング (Propensity Score Matching, PSM): 観察データにおいて、治療群と対照群の共変量のバランスを調整し、因果効果を推定する手法です。各個体の治療受領確率(傾向スコア)に基づいてマッチングを行います。
- 逆確率重み付け (Inverse Probability of Treatment Weighting, IPTW): 傾向スコアの逆数を重みとして用いることで、全データを活用しながら共変量のバランスを調整し、因果効果を推定する手法です。
適用可能な手法の判定
多変量解析は、複数の説明変数を用いて、一つまたは複数の目的変数を分析する統計手法です。
統計手法選択の重要性
適切な統計分析のためには、研究仮説とデータの性質の両方を考慮した手法選択が不可欠です。 データ形式や前提条件が満たされていない場合、分析結果の解釈が困難になり、誤った結論に至る可能性があります。
探索的分析支援システム
Reactive Statでは、データの特性を客観的に評価し、適用可能な統計手法を候補として提示することで、次の機能を提供します
- 教育的価値: 各手法の適用条件と制約の理解促進
- 予備的検討: 本格的な仮説検証前の探索的分析
- 品質管理: データの前提条件チェックと診断
- 学習支援: 統計手法の選択理由と解釈方法の習得
本システムは統計的推論の出発点として位置づけられます。 以下の点を必ず遵守してください。
- 事前の仮説設定: データ分析前に検証したい仮説を明確に設定する
- 単一手法の選択: 研究目的に最も適した手法を一つ選択して実行する
- 多重比較の回避: 複数の統計手法を同時実行して結果を比較することは避ける
- p-hackingの禁止: 有意な結果が出るまで異なる手法を試行することは不適切
- 選択的報告の禁止: 都合の良い結果のみを報告することは統計的に不正
最終的な手法選択は、研究目的、理論的背景、専門知識に基づいて慎重に行ってください。
R による分析
Reactive stat の内部には、上記分析手法の独自コードは内蔵しておりません。 全て、クラウドの R で分析を実行することになります。
R では、基本ライブラリにて分析を実行します。 そのため、目的変数や説明変数の型制限の拡張などには対応していません。
より高度な統計分析を行う場合には、R のスクリプトコードをクリップボード経由でコピーして、R studio に貼付してご利用頂くことができます。
アプリ
分類内容 | 値 | |
{{ item.tag }} |
データの取り扱い
- データインポート
- データの読み込みは、ブラウザ内で完結し、外部へのデータ送信は発生しません。
- データ保持
- 読み込んだデータはブラウザ内に保持されます。
- ブラウザのセッションが終了または全てのタブが閉じられると、保持していたデータは自動的に破棄されます。
- データの安全性
- ブラウザがクラッシュした場合でも、10分経過すれば次回の起動時にデータは安全に消去されます。
- 共用のPCでの使用も考慮し、データの外部漏洩のリスクを最小化しています。
クラウド R を利用する時のデータ送信
- 最小限のデータ送信
- 外部のRサーバーへ送信されるデータは、数値計算に必要な最小限のセットに制限されています。
- 送信データは解析に必要なサブセットのみに限られます。
- ユーザーコントロール下のデータ送信
- 送信前に、どのデータが外部サーバーへ送信されるのか内容を確認することが可能です。
- データの送信はユーザーの操作により行われ、自動的な送信は行いません。
- クラウド R 出力結果の保持
- クラウド R からの出力結果は、将来の自動翻訳や自動解説の機能実現のため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
- 通信経路も全て暗号化していますので、たとえプライバシーに関わる情報が含まれていたとしても、通常は漏洩する恐れはありません。
AI による解説を利用する時のデータ送信
- 最小限のデータ送信
- 外部のAIサーバーへ送信されるデータは、クラウド R の出力結果と、用いた統計手法の徐放です。
- ただし、クラウド R の出力結果に連続した数値データが含まれる場合は、AI にデータ形式を認識させる目的で、連続データの最初の行のみを送信します。
- クラウド R 出力結果の保持
- AI による解説内容は、将来の品質向上などのため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
Reactive stat において、統計データの変数は、通常の数値や文字列として扱われます。 したがって、日付や時間の概念は直接的にはサポートされていません。
統計計算を行う際には、日付や時間の差分を数値として事前に用意しておく必要があります。
チェックされた行が削除対象となります
削除対象の行
データ入力
AI による R コードの解説
R の出力結果
R出力図形
AI による R 出力結果の解説
- データ: カラム名 (列名) をそのまま記述するか、"列名" のようにダブルクォートで挟んで指定
- 算術演算子: +, -, *, /, ()
- 基本関数: abs(), sqrt(), pow(), exp(), log(), log10()
- 三角関数: sin(), cos(), tan(), asin(), acos(), atan()
- 丸め関数: round(), floor(), ceil()
体重 / pow(身長, 2)
, "体重" / ("身長" * "身長")
{{ column }}
{{title}}
分析法の特徴一覧
手法 | 英語名 | 目的変数のタイプ | 説明変数のタイプ | 特徴 | Wikipedia |
---|---|---|---|---|---|
{{ method.japaneseName }} | {{ method.englishName }} | {{ method.dependentVariableType }} | {{ method.independentVariableType }} | {{ method.characteristic }} |
データ
設定
統計手法
変数名 | 数値 | 連続変数 | カテゴリカル /離散変数 |
|||
---|---|---|---|---|---|---|
{{ variable }} | {{ type.numerical ? '〇' : '-' }} | {{ type.originallyContinuous ? '〇' : '-' }} | {{ type.originallyCategorical ? '〇' : '-' }} |
データの分類は以下のルールに従っています
変数タイプは手動で調整できます
- : 有効 / : 無効
- クリックすると切り替わり、各統計手法に渡されるデータ形式を明示できます。
手法 | 目的変数のタイプ | 説明変数のタイプ | 適用 |
---|---|---|---|
{{ method.japaneseName }} | {{ method.dependentVariableType }} | {{ method.independentVariableType }} | {{ method.reason }} |
結果
{{method.japaneseName}} ({{method.englishName}})
- {{ warning }}
目的変数の順序:
クラウド R 分析