平均値の信頼区間

平均値の信頼区間とは?

「平均値の信頼区間」とは、ある確率(信頼水準)で真の平均値が含まれると期待される範囲のことを指します。つまり、得られたサンプルから計算した平均値の周りにどれだけの幅で真の平均値が存在する可能性があるのかを示す指標です。

信頼区間が必要な理由

例えば、ランダムに選んだ中学生100人の身長を測定して、平均身長を求めたとしましょう。この平均身長は全国の中学生の真の平均身長とは限りません。しかし、この100人のサンプルから、全国の中学生の真の平均身長がおおよそどれくらいの範囲にあるのかを推測したい場合、信頼区間が役立ちます。

信頼区間を求めかた

  1. 平均: サンプルデータの中央の値を計算します。例:100人の平均身長は160cm。
  2. 標準偏差: サンプル内のデータが平均からどれだけばらついているかの指標。例:100人の身長のばらつき (標準偏差) が10cm。
  3. サンプル数: この場合、100人。
  4. 信頼水準: 真の平均値が求めた信頼区間内に含まれる確率。よく使われる信頼水準は95%や99%です。

これらの情報をもとに、平均値の周りにどれだけの幅を持たせるべきかを計算します。この幅が信頼区間です。

: 160cm±5cm。これは、真の平均身長が155cmから165cmの間に95%の確率で含まれることを示しています。

1. 標準誤差 (SE) の計算

\[ SE = \frac{\sigma}{\sqrt{n}} \]

ここで、\(\sigma\) は母集団の標準偏差、\(n\) はサンプルサイズです。

2. 信頼区間のマージンオブエラー (MOL) の計算

\[ MOL = t_{\alpha/2, n-1} \times SE \]

\[ t_{\alpha/2, n-1} \] は、自由度 \( n-1 \) と指定された信頼水準のt値です。95%信頼区間の場合、\[ \alpha \] は0.05ですので、\[ t_{\alpha/2} \] は97.5%点に該当するt値を取得します。

3. 信頼区間の上限および下限の計算

\[ \text{下限} = \bar{x} - MOL \]

\[ \text{上限} = \bar{x} + MOL \]

ここで、\(\bar{x}\) はサンプルの平均値です。

上記の数式をもとに、Rのコードは平均値の95%信頼区間を計算しています。