1標本の比率の検定

解説

母集団の一部から得たデータ (標本) の比率が、既に分かっている母集団全体の比率 (母比率) とどの程度異なるのかを判断するための統計的手法を 1標本の比率の検定 と呼びます。 この手法は、製品の不良率の評価や、新しい施策の効果測定などで広く活用されています。

検定手法の比較

1標本の比率の検定には、主に2つのアプローチがあります:

検定手法 適用条件 特徴
比率の検定 (正規近似) サンプルサイズが大きい場合 正規分布による近似。計算が高速
正確二項検定 サンプルサイズに制限なし 二項分布を直接使用。小標本でも正確

前提条件

どちらの検定手法でも、以下の条件が必要です:

  • データはランダムに抽出されている
  • 各観測値は互いに独立している

重要な概念

帰無仮説と対立仮説:

  1. 帰無仮説は「サンプルの比率は母比率と等しい」という主張です。
  2. 対立仮説は「サンプルの比率は母比率と異なる」という主張になります。

検定の種類:

  1. 両側検定: 比率が母比率より高いか低いか、どちらの方向でも差があるかを検証
  2. 片側検定: 比率が母比率より高いまたは低い、いずれか一方向の差のみを検証

信頼区間: 同じ条件でサンプリングと計算を何度も繰り返した場合、計算された区間の95%が母比率を含むような区間を95%信頼区間と呼びます。

p値: 帰無仮説が正しいと仮定した場合に、観測されたデータと同じかそれ以上に極端なデータが得られる確率です。 一般的に0.05未満であれば、「統計的に有意である」と判断します。

正確二項検定について

正確二項検定は、正規近似を使わずに二項分布の確率を直接計算する手法です。

利点:

  • サンプルサイズが小さくても正確な結果が得られる
  • 極端な比率 (0に近い、1に近い) でも信頼性が高い

信頼区間の計算: 正確二項検定では、Clopper-Pearson法による信頼区間を使用します。これは、ベータ分布を利用した厳密な計算方法です。

解釈のポイント

結果 解釈
p値 < 0.05 母比率との差は偶然とは考えにくい
p値 ≥ 0.05 母比率との差は偶然の範囲内かもしれない
信頼区間が母比率を含まない 統計的に有意な差がある
信頼区間が母比率を含む 統計的に有意な差があるとはいえない

注意点

  • p値が小さいことは、差が大きいことを意味しません
  • 統計的有意差があっても、実務的に重要とは限りません
  • p値が0.05以上でも、「差がない」とは結論できません
  • 正確二項検定は計算負荷が大きいため、大標本では正規近似を推奨

具体例

ある都市の住民の中で、特定の健康プログラムに参加している人の割合を調べたいとします。 全国のデータによれば、全国民の20%がこのプログラムに参加しているとされています。 この都市から無作為に選んだ1000人のサンプルを調査したところ、230人がプログラムに参加していることが分かりました。

このデータをもとに、都市の参加率が全国平均と有意に異なるかを検証します。

分析結果の比較

項目 正規近似 正確二項検定
サンプル比率 23.0% 23.0%
95%信頼区間 [20.5%, 25.5%] [20.4%, 25.6%]
p値 0.018 0.018
z値 2.37

分析手順

  • サンプル比率の計算
    • \( \frac{230}{1000} = 0.23 \) または 23%
  • 仮説の設定
    • 帰無仮説 H0: 都市の参加率 = 20%
    • 対立仮説 H1: 都市の参加率 ≠ 20%
  • 検定統計量の計算 (正規近似の場合)
    • 標準誤差 \( SE = \sqrt{\frac{p_0(1-p_0)}{n}} = 0.0126 \)
    • z値 \( = \frac{p - p_0}{SE} = 2.37 \)
    • 両側p値 \( = 2 \times (1 - \Phi(z)) = 0.018 \)
  • 結果の解釈
    • p値は0.018で0.05未満のため、帰無仮説は棄却される
    • 95%信頼区間に全国平均の20%が含まれない
    • したがって、都市の参加率は全国平均と統計的に有意に異なる
    • 実務的な意味: この都市は全国平均より約3パーセントポイント高い参加率を示している

表示例 (正規近似)

15% 20% 25% 30% 35% 全国平均 (20%) 標本比率 (23%) 20.4% 25.6% 調査対象: 1000人 プログラム参加者: 230人 標本比率: 23.0% 95%信頼区間: 20.5% ~ 25.5% p値: 0.018 信頼区間が全国平均(20%)と 重ならないことから、 有意な差があると判断できる 健康プログラム参加率の95%信頼区間 (n=1000)

アプリ

データ

設定

 p = p0