比率の信頼区間

この統計手法は、サンプルデータを元に、大きな母集団における実際の事象 (例: 疾患の罹患率) がどれくらいの範囲にあるのかを推定するのに使います。 具体的には、特定の信頼水準 (例: 95%) で、真の比率がどれくらいの範囲に収まるかを予測するのが目的です。

具体的な例:

  1. データの収集:

    1000人の市民をサンプルとして、ある病気の調査を行い、結果、50人が罹患していると判明しました。

  2. サンプルに基づく罹患率の計算:

    サンプルに基づく罹患率は \( \frac{50}{1000} = 0.05 \) (5%) となります。

  3. 信頼区間の計算:

    Wilson のスコア区間の計算結果に基づき、95%信頼区間は 0.0381 ~ 0.0653 となります。

  4. 結論:

    95%の確率で、真の罹患率が 3.81% から 6.53% の間にあることを意味します。
    このように、サンプルデータだけから大きな母集団における事象の発生範囲を推定することができます。

比率の信頼区間の計算には、通常の正規近似ではなく、ウィルソンのスコア区間を使用することが推奨されます。

1. まず、サンプル比率 \( p \) を計算します。
\[ p = \frac{\text{event_count}}{\text{sample_size}} \]

2. 特定の信頼水準に対応する正規分布のz値(\( z \))を求めます。このz値は、求めたい信頼区間の範囲を決定する重要な要素です。
例えば、95%の信頼水準の場合、\( z \) はおおよそ1.96です。この値は、信頼水準が高いほど大きくなり、信頼区間が広がることを意味します。

3. ウィルソンのスコア区間を以下の式で計算します。この計算により、与えられた信頼水準(%)に基づいて、サンプル比率がどの範囲に存在する可能性が高いかを示す信頼区間が得られます。
\[ \text{denominator} = 1 + \frac{z^2}{\text{sample_size}} \] \[ \text{center} = \frac{p + \frac{z^2}{2 \times \text{sample_size}}}{\text{denominator}} \] \[ \text{adjustment} = \frac{z \times \sqrt{\frac{p(1-p)}{\text{sample_size}} + \frac{z^2}{4 \times \text{sample_size}^2}}}{\text{denominator}} \] \[ \text{Lower Limit} = \text{center} - \text{adjustment} \] \[ \text{Upper Limit} = \text{center} + \text{adjustment} \]