多重比較

統計的検定を行う際、一般的に「有意水準」 (例えば5%や1%) を設定します。 これは、誤って「差がある」と判断してしまう偽陽性 (第一種の過誤) をどの程度許容するかを表しています。 しかし、複数の比較を行うと、偽陽性の確率が想定以上に高くなる「多重比較問題」が生じます。

統計的仮説検定では、次の2種類の誤りが発生します。

1. 第一種の過誤 (αエラー):
実際には帰無仮説が正しいのに、それを誤って棄却してしまう誤りです。これを偽陽性とも言います。 例: 効果がない薬を「効果がある」と誤って判断すること。

2. 第二種の過誤 (βエラー):
実際には帰無仮説が誤っているのに、それを誤って採択してしまう誤りです。これを偽陰性とも言います。 例: 効果がある薬を「効果がない」と誤って判断すること。

  • αは第一種の過誤を犯す確率、βは第二種の過誤を犯す確率を表します。
  • 1-βは検出力と呼ばれ、実際に存在する効果を正しく検出する確率を表します。

過誤のバランス

αエラーを小さく設定することで第一種の過誤を減らすことができますが、βエラー (偽陰性) の確率が増加する可能性があります。 検出力 (1-β) はサンプルサイズや効果量、有意水準に依存します。

多重比較の問題は、複数の統計的検定を同時に行う際に、第一種の過誤の確率が増大する問題です。

例えば、10回の独立した検定を行い、各検定で有意水準を5%に設定した場合、少なくとも1回の偽陽性が生じる確率は次のように計算されます: \[ 1 - (0.95)^{10} ≈ 0.40 = 40\% \] つまり、本当は差がないのに、40%の確率で「有意な差」が見つかってしまうのです。これは当初設定した5%を大幅に超えるリスクです。

複数回繰り返した検定全体において、帰無仮説が棄却される可能性 (「有意な差」が見つかってしまう率) を、FWER (family wise error rate) と呼びます。

一方で、検出力 (真の効果を正しく検出する能力) も考慮する必要があります。 偽陽性が生じないように判定を厳しくしすぎると、検出力を低下させ、偽陰性のリスクが増加します。

これらの問題を解決するために、様々な手法が利用されています。 それぞれに特徴があり、適用すべき場面が異なりますので、注意して利用する必要があります。

FWER 調整する⽅法として、

  1. F 統計量や t 統計量等の統計量に基づいた⽅法
  2. 統計量から算出された p 値のみを操作する⽅法

があります。

p値を調整する⽅法は、統計量に依存しないため、どのような検定に対しても利⽤できますので、汎⽤性が⾼いです。

この問題に対処するため、p値を調整するいくつかの方法が提案されています。代表的な手法を以下の表に示します。

手法 説明 特徴 用途
Bonferroni法 p値に比較の回数を掛ける 最も単純で保守的 少数の比較で確実に第一種の過誤を制御したい場合
Holm法 Bonferroni法を段階的に適用 Bonferroni法より検出力が高い 多数の比較でより高い検出力が必要な場合
Hochberg法 Holm法の逆順で適用 Holm法よりさらに検出力が高い 検定統計量が独立または正の相関がある場合
Hommel法 Shaffer法の簡略版 非常に高い検出力 計算コストが高いが、高い検出力が必要な場合
Benjamini-Hochberg (BH) 法 偽発見率 (FDR) を制御 高い検出力、FDRを制御 多数の比較で一定割合の偽陽性を許容できる場合
Benjamini-Yekutieli (BY) 法 BH法を保守的にした方法 依存性のある検定でもFDRを制御 検定間に依存性がある場合

FDR (False Discovery Rate): 発見された差のうち偽陽性である割合を制御する指標です。

適用にあたって:

  • Bonferroni法は少数の比較で第一種の過誤を強く制御したい場合に適しますが、検出力が低くなるため、効果を見逃す可能性がありますが、偽陽性を確実に避けることができます。最も査読を通りやすい無難な手法と言えます。
  • Hommel法はBonferroni法の改良版と位置づけられます。強力ですが、比較的新しい手法ですので査読者に馴染みがない可能性がありますので、選択理由を明確に説明することが望ましいです。p値に非負の相関が見られることを仮定してαを制御する手法ですので、研究デザインによっては、この仮定が適切でない場合もあるため、適用する際には注意が必要です。
  • Benjamini-Hochberg法は、多数の検定を行う分野 (例: ゲノム解析) でよく使用され、真の効果を検出する確率を向上させるために、一定の偽陽性を許容します。

複数のp値を入力し、各種手法で補正することができます。

入力

結果

手法 p値 {{ index + 1 }}
{{ methodLabels[result.method] }} {{ value.toFixed(3) }}
p値が入力されていません

TukeyのHSD: 分散分析 (ANOVA) 後の群間比較に使用されます。 すべての群のペアの差を検定し、群間の有意な差を明示します。

Scheffé法: Schefféの方法は、複数群と複数群のすべての比較を行う際に使われます。これは事後検定の手法で、すべてのペア間の比較 (つまり、各群間の全ての組み合わせでの比較) を行うことができます。この方法は、比較数が多くなるほど自由度が高く、群間の全体的な差を調べたい場合に使われます。 任意の線形比較を行うため、保守的な手法として知られています。 Scheffé法は、特に分散分析 (ANOVA) 後に、具体的にどの群間で有意な差があるのかを調べるために有効です。

Dunnett法: Dunnettの方法は、対照群と他の複数の処置群を比較する際に使われます。この方法は、全ての処置群を1つの対照群と比較し、多重比較による第一種過誤 (偽陽性) のリスクをコントロールします。通常、薬の効果を調べる際に、対照群 (プラセボなど) と複数の実験群 (薬の投与群など) を比較する場合に適しています。

これらは、p値の調整とは異なる目的を持っています。

多重比較問題は、複数の統計的検定を行う際に考慮すべき重要な課題です。適切なp値調整手法を用いることで、偽陽性のリスクを管理し、信頼性の高い結果を得ることができます。

ただし、調整を行うことで検出力が低下する可能性もあるため、研究の目的に応じた手法の選択が重要です。

Q: 小規模な臨床研究でも多重性の問題は出てくるのでしょうか?

A: 研究の規模にかかわらず、複数のアウトカム (結果) やサブグループに対する解析を行うと、多重性の問題が発生します。これは、いくつもの検査を行うことで、偶然に有意な結果が出やすくなるリスクが高まるという問題です。


Q: どのようなときに多重性の問題に気をつけるべきですか?

A: 複数のアウトカムを測定する場合や、複数のサブグループに分けて解析する場合には、必ず多重性を考慮すべきです。たとえば、新薬がいくつかの症状に対して効果があるかどうかを調べる際、それぞれの症状に対して検定を行うと、誤って効果があると判断される可能性が高くなります。


Q: Bonferroni補正をやっておけば間違いないと言われました

A: Bonferroni補正は、多重性を管理するための基本的な方法で、最も保守的でわかりやすい手法です。しかし、特に小規模な研究では厳しすぎる場合があり、補正をかけると有意な結果が得られにくくなることが多いです。そのため、結果を見逃すリスクが高くなるかもしれません。


Q: 遡及的な研究ではどうやって多重性の問題に対処するべきでしょうか?

A: 遡及的な研究では、すでに収集したデータを使って複数の解析を行うことが多く、特に多重性の問題に注意が必要です。主要な解析 (最も重要な結果) と、副次的な解析 (他の結果) を明確に分けておくことが大切です。


Q: 遡及的な研究で、同じデータを使って探索的な解析をした場合、多重性の問題にどう対処するべきでしょうか?

A: 遡及的な研究では、データを使って繰り返し解析を行うことで、偶然に有意な結果が出やすくなりますので、十分な注意が必要です。データを2つに分け、一方を探索用、もう一方を検証用に使う「データスプリット法」などが利用される場合があります。


Q: どのようにして多重性の問題を軽減できますか?

A: アウトカムをあらかじめ1つに絞って解析を行うことが、多重性の問題を減らすために重要です。


Q: 一連の実験において、まとめた論文を書くときには多重性が問題となり、バラバラに発表すると多重性を考慮しなくて良いのですか?

A: 多重比較の問題は、論文をまとめて発表するか、個別に発表するかに関わらず発生します。発表形式ではなく、実験の目的や性質に基づいて検討すべきであり、多重性を回避するためには、p値の調整などの適切な統計処理が必要です。

  1. 一連の実験をまとめて発表する場合
    すべての実験結果をまとめた場合、多くの比較が行われるため、多重比較による第一種過誤率の制御が必要です。p値の調整法 (Bonferroni や Benjamini-Hochbergなど) を使用するのが一般的です。

  2. 実験結果をバラバラに発表する場合
    個別に発表する場合でも、多重比較の問題がなくなるわけではありません。同じ仮説に対する複数回の検定結果は、発表形式に関わらず多重性のリスクが存在します。


Q: 例えば、膨大な数の遺伝子発現を、癌患者と健常者で比較し、差の見つかったものを重要な指標とするような研究があります。このような研究では、多重性を考慮すると何も言えなくなりませんか?

A: 膨大な数の遺伝子発現を扱う研究では、多重性が非常に深刻な問題になります。たとえば、何千もの遺伝子について検定を行う場合、偽陽性のリスクが高まりますが、適切な統計処理を行うことで問題を回避できます。

  1. FDR (False Discovery Rate) の活用
    遺伝子研究では、Benjamini-Hochberg法などのFDRを制御する手法を使うことで、多重比較の問題を軽減し、検出力を保つことができます。

  2. 多重性の緩和
    個々の遺伝子ではなく、遺伝子パスウェイ全体や機能的なカテゴリーに基づいた解析を行うことで、多重性を緩和し、意味のある結論を引き出せます。


  1. Nature

    • 多重比較の問題に対して厳格な統計的手法を推奨しています。特に、複数の仮説を検証する際には、適切な統計的補正を行うことが求められます。
  2. New England Journal of Medicine (NEJM)

    • 多重比較問題に対して、研究デザインの段階から適切な計画が必要であることを強調しています。特に、第一種過誤 (偽陽性) を調整するための手法を事前に定める必要があります。
  3. Science

  4. The EMBO Journal

    • 研究者に対して、複数の仮説を検証する際には、全体の誤差を最小限に抑えるための統計的補正を行うことを求めています。
  5. JAMA (Journal of the American Medical Association)