1標本の比率の検定
解説
母集団の一部から得たデータ (標本) の比率が、既に分かっている母集団全体の比率 (母比率) とどの程度異なるのかを判断するための統計的手法を 1標本の比率の検定 と呼びます。 この手法は、製品の不良率の評価や、新しい施策の効果測定などで広く活用されています。
検定手法の比較
1標本の比率の検定には、主に2つのアプローチがあります:
検定手法 | 適用条件 | 特徴 |
---|---|---|
比率の検定 (正規近似) | サンプルサイズが大きい場合 | 正規分布による近似。計算が高速 |
正確二項検定 | サンプルサイズに制限なし | 二項分布を直接使用。小標本でも正確 |
前提条件
どちらの検定手法でも、以下の条件が必要です:
- データはランダムに抽出されている
- 各観測値は互いに独立している
重要な概念
帰無仮説と対立仮説:
- 帰無仮説は「サンプルの比率は母比率と等しい」という主張です。
- 対立仮説は「サンプルの比率は母比率と異なる」という主張になります。
検定の種類:
- 両側検定: 比率が母比率より高いか低いか、どちらの方向でも差があるかを検証
- 片側検定: 比率が母比率より高いまたは低い、いずれか一方向の差のみを検証
信頼区間: 同じ条件でサンプリングと計算を何度も繰り返した場合、計算された区間の95%が母比率を含むような区間を95%信頼区間と呼びます。
p値: 帰無仮説が正しいと仮定した場合に、観測されたデータと同じかそれ以上に極端なデータが得られる確率です。 一般的に0.05未満であれば、「統計的に有意である」と判断します。
正確二項検定について
正確二項検定は、正規近似を使わずに二項分布の確率を直接計算する手法です。
利点:
- サンプルサイズが小さくても正確な結果が得られる
- 極端な比率 (0に近い、1に近い) でも信頼性が高い
信頼区間の計算: 正確二項検定では、Clopper-Pearson法による信頼区間を使用します。これは、ベータ分布を利用した厳密な計算方法です。
解釈のポイント
結果 | 解釈 |
---|---|
p値 < 0.05 | 母比率との差は偶然とは考えにくい |
p値 ≥ 0.05 | 母比率との差は偶然の範囲内かもしれない |
信頼区間が母比率を含まない | 統計的に有意な差がある |
信頼区間が母比率を含む | 統計的に有意な差があるとはいえない |
注意点
- p値が小さいことは、差が大きいことを意味しません
- 統計的有意差があっても、実務的に重要とは限りません
- p値が0.05以上でも、「差がない」とは結論できません
- 正確二項検定は計算負荷が大きいため、大標本では正規近似を推奨
具体例
ある都市の住民の中で、特定の健康プログラムに参加している人の割合を調べたいとします。 全国のデータによれば、全国民の20%がこのプログラムに参加しているとされています。 この都市から無作為に選んだ1000人のサンプルを調査したところ、230人がプログラムに参加していることが分かりました。
このデータをもとに、都市の参加率が全国平均と有意に異なるかを検証します。
分析結果の比較
項目 | 正規近似 | 正確二項検定 |
---|---|---|
サンプル比率 | 23.0% | 23.0% |
95%信頼区間 | [20.5%, 25.5%] | [20.4%, 25.6%] |
p値 | 0.018 | 0.018 |
z値 | 2.37 | — |
分析手順
- サンプル比率の計算
- \( \frac{230}{1000} = 0.23 \) または 23%
- 仮説の設定
- 帰無仮説 H0: 都市の参加率 = 20%
- 対立仮説 H1: 都市の参加率 ≠ 20%
- 検定統計量の計算 (正規近似の場合)
- 標準誤差 \( SE = \sqrt{\frac{p_0(1-p_0)}{n}} = 0.0126 \)
- z値 \( = \frac{p - p_0}{SE} = 2.37 \)
- 両側p値 \( = 2 \times (1 - \Phi(z)) = 0.018 \)
- 結果の解釈
- p値は0.018で0.05未満のため、帰無仮説は棄却される
- 95%信頼区間に全国平均の20%が含まれない
- したがって、都市の参加率は全国平均と統計的に有意に異なる
- 実務的な意味: この都市は全国平均より約3パーセントポイント高い参加率を示している
表示例 (正規近似)
アプリ
分類内容 | 値 | |
{{ item.tag }} |
データの取り扱い
- データインポート
- データの読み込みは、ブラウザ内で完結し、外部へのデータ送信は発生しません。
- データ保持
- 読み込んだデータはブラウザ内に保持されます。
- ブラウザのセッションが終了または全てのタブが閉じられると、保持していたデータは自動的に破棄されます。
- データの安全性
- ブラウザがクラッシュした場合でも、10分経過すれば次回の起動時にデータは安全に消去されます。
- 共用のPCでの使用も考慮し、データの外部漏洩のリスクを最小化しています。
クラウド R を利用する時のデータ送信
- 最小限のデータ送信
- 外部のRサーバーへ送信されるデータは、数値計算に必要な最小限のセットに制限されています。
- 送信データは解析に必要なサブセットのみに限られます。
- ユーザーコントロール下のデータ送信
- 送信前に、どのデータが外部サーバーへ送信されるのか内容を確認することが可能です。
- データの送信はユーザーの操作により行われ、自動的な送信は行いません。
- クラウド R 出力結果の保持
- クラウド R からの出力結果は、将来の自動翻訳や自動解説の機能実現のため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
- 通信経路も全て暗号化していますので、たとえプライバシーに関わる情報が含まれていたとしても、通常は漏洩する恐れはありません。
AI による解説を利用する時のデータ送信
- 最小限のデータ送信
- 外部のAIサーバーへ送信されるデータは、クラウド R の出力結果と、用いた統計手法の徐放です。
- ただし、クラウド R の出力結果に連続した数値データが含まれる場合は、AI にデータ形式を認識させる目的で、連続データの最初の行のみを送信します。
- クラウド R 出力結果の保持
- AI による解説内容は、将来の品質向上などのため、サーバーがデータベースに保持します。
- その際に、送信者の情報や、計算元となるデータなど、プライバシーに関わる情報は保持しません。
Reactive stat において、統計データの変数は、通常の数値や文字列として扱われます。 したがって、日付や時間の概念は直接的にはサポートされていません。
統計計算を行う際には、日付や時間の差分を数値として事前に用意しておく必要があります。
チェックされた行が削除対象となります
削除対象の行
データ入力
AI による R コードの解説
R の出力結果
R出力図形
AI による R 出力結果の解説
- データ: カラム名 (列名) をそのまま記述するか、"列名" のようにダブルクォートで挟んで指定
- 算術演算子: +, -, *, /, ()
- 基本関数: abs(), sqrt(), pow(), exp(), log(), log10()
- 三角関数: sin(), cos(), tan(), asin(), acos(), atan()
- 丸め関数: round(), floor(), ceil()
体重 / pow(身長, 2)
, "体重" / ("身長" * "身長")
{{ column }}
{{title}}
データ
設定
結果
比率の検定 (正規近似)
説明
正確二項検定
各バーは成功回数ごとの発生確率を示します。赤色が観測値、オレンジ色が統計的に極端な値、緑色が信頼区間内の値、薄緑の背景が信頼区間の範囲です。
説明
クラウド R 分析
クラウド R 分析では、サンプルサイズが小さい場合にYatesの連続補正を適用できます。
また、小標本でも正確な結果が得られる二項検定 (正確検定) も同時に行います。