一般化推定方程式 (GEE)
解説
一般化推定方程式 (Generalized Estimating Equations, GEE) は、同じ対象から複数回データを取得する場合に使用する統計手法です。 例えば、同じ患者の血圧を治療前後で複数回測定する場合などに適しています。
通常の統計手法は、全てのデータが互いに独立していることを前提としますが、同じ人から取得したデータには関連性があります。 GEEは、このような関連性を考慮しながら分析を行うことができます。
比較的新しい統計手法ですが、実験デザインやデータの性質に応じて、相関構造を使ってデータの変動をより適切にモデル化できるため、幅広い分野で応用されつつあります。
GEEを使用する状況
以下のような場合にGEEの使用を検討します。
- 同一対象から複数回のデータを取得する場合
- データ間に時間的な関係がある場合
- 測定値同士に関連性がある場合
- 欠測値を含むデータを分析する必要がある場合
GEEの利点と制限
利点:
- データ間の関連性を適切に扱える
- 様々なタイプのデータに対応できる
制限:
- 解釈が複雑になることがある
- 適切な相関構造の選択が必要
- 一定のサンプルサイズが必要
数学的な表現
GEEは以下の数式で表現されます。
\[ E(Y_{it}) = \mu_{it} = g^{-1}(X_{it}\beta) \]
各要素の意味は以下の通りです。
- \( Y_{it} \): 個体 i の時点 t での測定値
- \( X_{it} \): 説明変数 (例: 治療の種類、投薬量など)
- \( \beta \): 説明変数の影響を表す係数
- \( g \): データの性質に応じて選択する関数
相関構造の種類
GEEでは、データ間の関連性を以下の3つの方法で表現できます。
- 交換可能: 全ての測定値間で関連性が同じ
- 自己回帰: 時間的に近い測定ほど関連性が強い
- 非構造化: 各測定値の組み合わせで関連性が異なる
データの準備
GEEで使用するデータは、以下の2つの形式で準備できます。
長い形式 (推奨):
ID | 群 | 時点 | 測定値 |
---|---|---|---|
1 | A | 治療前 | 10.5 |
1 | A | 1ヶ月後 | 12.3 |
1 | A | 2ヶ月後 | 13.3 |
2 | B | 治療前 | 9.8 |
2 | B | 1ヶ月後 | 11.2 |
2 | B | 2ヶ月後 | 12.6 |
広い形式:
ID | 群 | 治療前 | 1ヶ月後 | 2ヶ月後 |
---|---|---|---|---|
1 | A | 10.5 | 12.3 | 13.3 |
2 | B | 9.8 | 11.2 | 12.6 |
欠損値の取り扱い
一般化推定方程式 (GEE) は、欠損値の取り扱いについて2つの方法を選択することができます。
1. 欠損値を含むデータのまま解析を行う場合
GEEの重要な特徴の一つとして、不完全なデータセットでも適切な解析が可能であることが挙げられます。
データの有効活用 - 一部の時点でデータが欠損していても、その被験者の他の時点のデータを活用できます - サンプルサイズの減少を最小限に抑えることができます
前提条件 - 欠損メカニズムがMAR (Missing At Random: ランダムな欠損) であることを仮定します - 観測されたデータに基づいて、欠損が生じる確率が決まると考えます
利点 - 統計的検出力の維持が期待できます - より多くの情報を活用した推定が可能です
2. 欠損値を含む行を除外して解析を行う場合
データが揃っている被験者のみを対象とした解析を行います。
Wide format の場合には、内部的に Long format に変換した後に、データが揃った行を選択します。 したがって、複数回の測定のうち一部が欠損値となっていても、それ以外のデータは有効になります。
完全ケース分析 - 欠損のない完全なデータセットでの解析となります - より保守的な結果が得られる可能性があります
注意点 - サンプルサイズが減少します - 統計的検出力が低下する可能性があります - 選択バイアスが生じる可能性があります
注意事項
以下の点について、十分な検討を行うことをお勧めします。 - 欠損値の発生パターンを十分に検討してください - 欠損メカニズムの仮定が妥当かどうかを検討してください - 解析結果の解釈には、選択した欠損値の取り扱い方法を考慮してください - 必要に応じて、両方の方法で解析を行い、結果を比較することをお勧めします
注意: いずれの方法を選択した場合でも、GEEは欠損値の自動的な補完は行いません。欠損値の補完が必要な場合は、別途適切な方法で行う必要があります。
分類内容 | 値 | |
{{ item.tag }} |
データの取り扱い
- データインポート
- データの読み込みは、ブラウザ内で完結し、外部へのデータ送信は発生しません。
- データ保持
- 読み込んだデータはブラウザ内に保持されます。
- ブラウザのセッションが終了または全てのタブが閉じられると、保持していたデータは自動的に破棄されます。
- データの安全性
- ブラウザがクラッシュした場合でも、10分経過すれば次回の起動時にデータは安全に消去されます。
- 共用のPCでの使用も考慮し、データの外部漏洩のリスクを最小化しています。
クラウド R を利用する時のデータ送信
- 最小限のデータ送信
- 外部のRサーバーへ送信されるデータは、数値計算に必要な最小限のセットに制限されています。
- 送信データは解析に必要なサブセットのみに限られます。
- ユーザーコントロール下のデータ送信
- 送信前に、どのデータが外部サーバーへ送信されるのか内容を確認することが可能です。
- データの送信はユーザーの操作により行われ、自動的な送信は行いません。
- クラウド R 出力結果の保持
- クラウド R からの出力結果は、将来の自動翻訳や自動解説の機能実現のため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
- 通信経路も全て暗号化していますので、たとえプライバシーに関わる情報が含まれていたとしても、通常は漏洩する恐れはありません。
AI による解説を利用する時のデータ送信
- 最小限のデータ送信
- 外部のAIサーバーへ送信されるデータは、クラウド R の出力結果と、用いた統計手法の徐放です。
- ただし、クラウド R の出力結果に連続した数値データが含まれる場合は、AI にデータ形式を認識させる目的で、連続データの最初の行のみを送信します。
- クラウド R 出力結果の保持
- AI による解説内容は、将来の品質向上などのため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
Reactive stat において、統計データの変数は、通常の数値や文字列として扱われます。 したがって、日付や時間の概念は直接的にはサポートされていません。
統計計算を行う際には、日付や時間の差分を数値として事前に用意しておく必要があります。
チェックされた行が削除対象となります
欠損値を含むカラムを選択
カラムを選択
削除対象の行
データ入力
R の出力結果
R出力図形
AI による R 出力結果の解説
- データ: カラム名 (列名) をそのまま記述するか、"列名" のようにダブルクォートで挟んで指定
- 算術演算子: +, -, *, /, ()
- 基本関数: abs(), sqrt(), pow(), exp(), log(), log10()
- 三角関数: sin(), cos(), tan(), asin(), acos(), atan()
- 丸め関数: round(), floor(), ceil()
体重 / pow(身長, 2)
, "体重" / ("身長" * "身長")
{{ column }}
データ
設定
...(要素が多すぎます)
交互作用の設定:
結果