傾向スコアマッチング

解説

傾向スコアマッチング (propensity score matching; PSM) は、観察データから因果関係を推定する統計手法です。

医学研究などで、ランダム化されていないデータにおいて、治療群と非治療群間のバイアスを調整します。各参加者の治療受領の確率 (傾向スコア) を推定し、スコアが似ている被験者同士をマッチングします。

計画段階から共変量のバイアスを小さくする方法として、ランダム化 (無作為化) 比較試験があります。しかし、ランダム化ができない観察研究や、遡及的研究 (retrospective study) では、得られたデータをそのまま利用すると、共変量のバイアスが問題となります。

例えば、癌のステージII の患者さんの平均年齢が90歳で、ステージIIIの平均年齢が70歳では、単純に予後を比較してもその解釈は困難で、誤った結論につながります。そのため、多変量解析や、ここで提供する傾向スコアマッチングを利用します。

利点

観察データにおいて治療群とコントロール群間の共変量のバランスを改善し、選択バイアスを減らせます。
多変量解析では、モデルが共変量の影響を適切に調整しているかが不明確な場合があります。誤った統計的モデルは誤った結果につながります。しかし、傾向スコアマッチングでは、治療群とコントロール群間で共変量がより均等になるように個体をマッチングします。これにより、治療効果の推定が、共変量の影響がバランスされた状態で行われるため、より正確になる可能性があります。
マッチング後の解析が容易です。

欠点

適切なマッチングを見つけるのが困難な場合があります。
マッチングプロセスにおいて「利用できないデータ」、すなわち、適切なマッチが見つからないために分析から除外されるデータが発生します。これは特に、マッチング対象の個体が少ない場合や、特定の特性を持つ個体が少ない場合に顕著です。その結果、分析対象のサンプルサイズが減少し、結果の一般化や統計的な力に影響を与える可能性があります。

マッチング品質の評価

傾向スコアマッチングの品質は 標準化平均差 (SMD: Standardized Mean Difference) で評価します。

SMD < 0.1: 良好なバランス
SMD 0.1-0.2: 許容範囲
SMD > 0.2: バランス不良

SMDは群間の差をプールした標準偏差で標準化した効果量で、サンプルサイズに依存しないため、マッチング前後の比較に最適です。
p値はサンプルサイズに依存し、マッチング後はサンプルサイズが変わるため、マッチング品質の評価には適していません。

使用方法

応答変数の選択

応答変数には、研究で比較する対象 (例: 治療の有無) を指定します。この変数は2値 (バイナリ) である必要がありますが、3値以上の場合には、そのうちの一つを処理群に指定し、それ以外は自動的にコントロールに割り当てます。

マッチさせたい変数の選択

連続的な特性や測定値 (例: 年齢、血圧) と、カテゴリー (離散) 変数 (例: 性別、喫煙歴) は、扱いが異なりますので、別々に指定します。

このとき、数値で表されたカテゴリー変数については、順序がある場合には連続変数として選択することができますが、数値の間隔は一定であることを前提として解析します。カテゴリー変数として選択した場合には、数値の大小関係は無視され、単なるラベルとして扱われます。

処理群と対照群のマッチング比率の設定

処理群の各メンバーに対してマッチングされる対照群メンバーの数を設定します。デフォルトは1:2です。

Caliperの設定

傾向スコアの差の最大許容値を設定します。デフォルトは0.2です。 Caliper を設定することで、マッチングされるメンバー間の類似性を制御します。

Caliper を小さくすると、マッチングされる個体間の類似性は高まりますが、一方でマッチングできる個体の数が減少します。その結果、特にサンプルサイズが小さい場合や傾向スコアの分布に大きな違いがある場合、マッチング対象となる個体が不足することがあります。これは、分析の一般化可能性や統計的な力に影響を与える可能性があるため、Caliperの設定は慎重に行う必要があります。

マッチング処理後

マッチングできたら、その情報を以下の２つの特殊カラムに追加できます。

ps_matched_pairs: マッチング対象となった行には、対応する通し番号が入ります。マッチング対象とならなかった行には、空白が入ります。
__propensity_scores__: 傾向スコアの値です。

これらのカラムは、通常の統計処理の対象にはなりません。引き続いてマッチさせたサンプルの比率の比較(Mantel-Haenszel検定)、比率の多変量解析(条件付ロジスティック回帰)、生存率の多変量解析(層別化比例ハザード回帰) を行う際に、内部的に使用されます。

1:1マッチング の場合の 連続アウトカムおよび二値アウトカム に対しては、通常の対応のある検定を行うこともできます。
PSM後の解析において対応のある統計手法 (二値アウトカムではMcNemar検定、連続アウトカムでは対応のあるt検定) の使用により、より適切な第1種過誤率と信頼区間のカバー率が得られることが示されています。
参考文献: Austin PC. Comparing paired vs non-paired statistical methods of analyses when making inferences about absolute risk reductions in propensity-score matched samples. Stat Med. 2011;30(11):1292-1301.

設定内容と結果の保存

マッチング結果を保存するには、ファイル の データと設定を保存 により、設定内容も含めて保存する必要があります。

データファイルだけを csv やエクセルで保存した場合は、マッチング情報と傾向スコアは保存されますが、設定は失われます。そのため、引き続き行うべき検定を後で行おうとしても実行不可能な場合がありますのでご注意ください。

その他

Reactive stat では、マッチングには R の Matching ライブラリの Match() 関数を利用しており、最近傍マッチングを実行します。最適マッチング (optimal matching)、遺伝的マッチング (genetic matching)、フルマッチング (full matching) には対応していません。

アプリ

データ

設定

処理群の値を選択 (非選択はすべて対照群(コントロール))

...(候補が多すぎます)

マッチング結果と傾向スコアをデータテーブルの新しい列に追加しました。

{{ new Set(matchResult.matchedRowsTreated).size }}個の処理群のメンバーに対して、{{ matchResult.matchedRowsControl.length }}個の対照群のメンバーがマッチングしました。
上のボタンを押すと、"{{ matchedPairsColumnName }}" カラムに傾向スコアマッチングのペア情報を、"{{ propensityScoresColumnName }}" カラムに傾向スコアを格納します。
その際、現在の "{{ matchedPairsColumnName }}" および "{{ propensityScoresColumnName }}" カラムの内容は上書きされます。
同じ数字の入った行がマッチングしたデータとなります。マッチングしなかった行には空白が入ります。
実行後は、必要に応じてファイルにダウンロードして保存してください。
事後の統計処理を行う場合には、適宜欠損値処理などを行ってデータを整形してください。

傾向スコアマッチングのペアに選ばれなかった行をすべて削除しました。

	マッチング前		マッチング後
	処理群	対照群	処理群	対照群
{{ stat }}	{{ plot.preMatchTreatedStats[stat].cp3 }}	{{ plot.preMatchControlStats[stat].cp3 }}	{{ plot.postMatchTreatedStats[stat].cp3 }}	{{ plot.postMatchControlStats[stat].cp3 }}
SMD	{{ plot.preSMD \|\| '-' }}		{{ plot.postSMD \|\| '-' }}
{{ category['カテゴリー'] }}	{{ category['個数'] }} ({{ category['割合'] }}%)	{{ plot.preMatchControlStats?.[index]?.['個数'] \|\| 0 }} ({{ plot.preMatchControlStats?.[index]?.['割合'] \|\| 0 }}%)	{{ plot.postMatchTreatedStats?.[index]?.['個数'] \|\| 0 }} ({{ plot.postMatchTreatedStats?.[index]?.['割合'] \|\| 0 }}%)	{{ plot.postMatchControlStats?.[index]?.['個数'] \|\| 0 }} ({{ plot.postMatchControlStats?.[index]?.['割合'] \|\| 0 }}%)
SMD	{{ plot.preSMD \|\| '-' }}		{{ plot.postSMD \|\| '-' }}

変数	マッチング前 (N={{ summaryTableData[0]?.preTreatedN + summaryTableData[0]?.preControlN }})			マッチング後 (N={{ summaryTableData[0]?.postTreatedN + summaryTableData[0]?.postControlN }})
変数	処理群 (N={{ summaryTableData[0]?.preTreatedN }})	対照群 (N={{ summaryTableData[0]?.preControlN }})	SMD	処理群 (N={{ summaryTableData[0]?.postTreatedN }})	対照群 (N={{ summaryTableData[0]?.postControlN }})	SMD
{{ row.name }}	{{ row.preTreatedValue }}	{{ row.preControlValue }}	{{ row.preSMD }}	{{ row.postTreatedValue }}	{{ row.postControlValue }}	{{ row.postSMD }}
{{ row.name }}			{{ row.preSMD }}			{{ row.postSMD }}
{{ val.category }}	{{safeVal(row.preTreatedValue, idx)}}	{{safeVal(row.preControlValue, idx)}}		{{safeVal(row.postTreatedValue, idx)}}	{{safeVal(row.postControlValue, idx)}}
注: 数値変数は平均±標準偏差、カテゴリ変数は度数 (割合) を表示し、各変数のバランス評価には標準化平均差 (SMD) を使用しています。 SMDは群間の差をプールした標準偏差で標準化した効果量で、一般的に SMD < 0.1 で良好なバランス、SMD < 0.2 で許容範囲とされます。

設定項目	指定するカラム
IDのカラム	`{{ matchedPairsColumnName }}`
値のカラム	比較したい値 (アウトカム変数)
分類カラム	`{{ settings.responseVariableColumn }}`

分類内容	値
{{ item.tag }}

データ可視化・探索的分析

名義変数の解析

連続変数の解析

統計的モデリング

クラスタ分析

生存期間の解析

メタアナリシス

検査の正確度

傾向スコアによる解析

比率(割合)のサンプルサイズ

平均値のサンプルサイズ

生存時間のサンプルサイズ

傾向スコアマッチング

解説

利点

欠点

マッチング品質の評価

使用方法

応答変数の選択

マッチさせたい変数の選択

処理群と対照群のマッチング比率の設定

Caliperの設定

マッチング処理後

設定内容と結果の保存

その他

アプリ

{{title}}

データの取り扱い

クラウド R を利用する時のデータ送信

AI による解説を利用する時のデータ送信

チェックされた行が削除対象となります

削除対象の行

データ入力

AI による R コードの解説

R の出力結果

R出力図形

AI による R 出力結果の解説

シートを選択してください

SVG出力オプション

フォント設定

色設定

境界線設定

プレビュー

データ

設定

分析

クラウド R 分析

結果

マッチング結果

{{plot.name}}

指定の条件ではマッチングできませんでした

マッチング後の解析