一般化推定方程式 (GEE)

解説

一般化推定方程式 (Generalized Estimating Equations, GEE) は、同じ対象から複数回データを取得する場合に使用する統計手法です。 例えば、同じ患者の血圧を治療前後で複数回測定する場合などに適しています。

通常の統計手法は、全てのデータが互いに独立していることを前提としますが、同じ人から取得したデータには関連性があります。 GEEは、このような関連性を考慮しながら分析を行うことができます。

比較的新しい統計手法ですが、実験デザインやデータの性質に応じて、相関構造を使ってデータの変動をより適切にモデル化できるため、幅広い分野で応用されつつあります。

GEEを使用する状況

以下のような場合にGEEの使用を検討します。

  • 同一対象から複数回のデータを取得する場合
  • データ間に時間的な関係がある場合
  • 測定値同士に関連性がある場合
  • 欠測値を含むデータを分析する必要がある場合

GEEの利点と制限

利点:

  • データ間の関連性を適切に扱える
  • 様々なタイプのデータに対応できる

制限:

  • 解釈が複雑になることがある
  • 適切な相関構造の選択が必要
  • 一定のサンプルサイズが必要

数学的な表現

GEEは以下の数式で表現されます。

\[ E(Y_{it}) = \mu_{it} = g^{-1}(X_{it}\beta) \]

各要素の意味は以下の通りです。

  • \( Y_{it} \): 個体 i の時点 t での測定値
  • \( X_{it} \): 説明変数 (例: 治療の種類、投薬量など)
  • \( \beta \): 説明変数の影響を表す係数
  • \( g \): データの性質に応じて選択する関数

相関構造の種類

GEEでは、データ間の関連性を以下の3つの方法で表現できます。

  • 交換可能: 全ての測定値間で関連性が同じ
  • 自己回帰: 時間的に近い測定ほど関連性が強い
  • 非構造化: 各測定値の組み合わせで関連性が異なる

データの準備

GEEで使用するデータは、以下の2つの形式で準備できます。

長い形式 (推奨):

ID 時点 測定値
1 A 治療前 10.5
1 A 1ヶ月後 12.3
1 A 2ヶ月後 13.3
2 B 治療前 9.8
2 B 1ヶ月後 11.2
2 B 2ヶ月後 12.6

広い形式:

ID 治療前 1ヶ月後 2ヶ月後
1 A 10.5 12.3 13.3
2 B 9.8 11.2 12.6

欠損値の取り扱い

一般化推定方程式 (GEE) は、欠損値の取り扱いについて2つの方法を選択することができます。

1. 欠損値を含むデータのまま解析を行う場合

GEEの重要な特徴の一つとして、不完全なデータセットでも適切な解析が可能であることが挙げられます。

データの有効活用 - 一部の時点でデータが欠損していても、その被験者の他の時点のデータを活用できます - サンプルサイズの減少を最小限に抑えることができます

前提条件 - 欠損メカニズムがMAR (Missing At Random: ランダムな欠損) であることを仮定します - 観測されたデータに基づいて、欠損が生じる確率が決まると考えます

利点 - 統計的検出力の維持が期待できます - より多くの情報を活用した推定が可能です

2. 欠損値を含む行を除外して解析を行う場合

データが揃っている被験者のみを対象とした解析を行います。

Wide format の場合には、内部的に Long format に変換した後に、データが揃った行を選択します。 したがって、複数回の測定のうち一部が欠損値となっていても、それ以外のデータは有効になります。

完全ケース分析 - 欠損のない完全なデータセットでの解析となります - より保守的な結果が得られる可能性があります

注意点 - サンプルサイズが減少します - 統計的検出力が低下する可能性があります - 選択バイアスが生じる可能性があります

注意事項

以下の点について、十分な検討を行うことをお勧めします。 - 欠損値の発生パターンを十分に検討してください - 欠損メカニズムの仮定が妥当かどうかを検討してください - 解析結果の解釈には、選択した欠損値の取り扱い方法を考慮してください - 必要に応じて、両方の方法で解析を行い、結果を比較することをお勧めします

注意: いずれの方法を選択した場合でも、GEEは欠損値の自動的な補完は行いません。欠損値の補完が必要な場合は、別途適切な方法で行う必要があります。

データ

設定

データ形式:
欠損値:

交互作用の設定:

 との交互作用