確率分布

代表的な確率分布を、パラメータを変えながら視覚的に確認し理解できます。

パラメータ設定

一般的に使用される確率分布の包括的な一覧です。 各分布について、特徴、用途、数式 (PDF/PMF)、期待値、分散、パラメータ、および関連する分布やその他の関連情報が含まれています。

分布名特徴・用途数式 (PDF/PMF)期待値・分散パラメータ関連する分布・備考
連続型分布
正規分布
(Normal)
• データ分析の基本分布
• 身長、体重などの自然現象
• 測定誤差のモデル化
• 金融でのリターン分析
$f(x) = \frac{1}{\sigma\sqrt{2\pi} }e^{-\frac{(x-\mu)^2}{2\sigma^2} }$$E(X) = \mu$
$Var(X) = \sigma^2$
$\mu$: 期待値
$\sigma > 0$: 標準偏差
• 中心極限定理の極限分布
• 標準正規分布は$\mu=0, \sigma=1$
t 分布
(t)
• 小標本での平均の検定
• 回帰係数の検定
• 2 群の平均値の差の検定
• ロバスト統計
$f(x) = \frac{\Gamma(\frac{\nu+1}{2})}{\sqrt{\nu\pi}\Gamma(\frac{\nu}{2})}(1+\frac{x^2}{\nu})^{-\frac{\nu+1}{2} }$$E(X) = 0$ ($\nu > 1$)
$Var(X) = \frac{\nu}{\nu-2}$ ($\nu > 2$)
$\nu > 0$: 自由度• $\nu \to \infty$で正規分布に収束
• $\nu = 1$でコーシー分布
• 等分散を仮定する場合 (Student): $\nu = n_1 + n_2 - 2$
• 等分散を仮定しない場合 (Welch):
$\nu \approx \frac{(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2})^2}{\frac{(s_1^2/n_1)^2}{n_1-1}+\frac{(s_2^2/n_2)^2}{n_2-1} }$
一様分布
(Uniform)
• 乱数生成
• シミュレーション
• ベイズ統計の無情報事前分布
$f(x) = \begin{cases}\frac{1}{b-a} & (a \leq x \leq b)\\0 & \text{(otherwise)}\end{cases}$$E(X) = \frac{a+b}{2}$
$Var(X) = \frac{(b-a)^2}{12}$
$a$: 下限
$b$: 上限
• 最大エントロピー分布
• 区間$[a,b]$上で一定
カイ二乗分布
(Chi-squared)
• 分散の検定
• 適合度検定
• 独立性の検定
$f(x) = \frac{1}{2^{\nu/2}\Gamma(\nu/2)}x^{\nu/2-1}e^{-x/2}$$E(X) = \nu$
$Var(X) = 2\nu$
$\nu > 0$: 自由度• 標準正規分布の二乗和
• ガンマ分布の特殊ケース
F 分布
(F)
• 分散分析(ANOVA)
• 回帰分析
• 分散比の検定
$f(x) = \frac{\Gamma(\frac{\nu_1+\nu_2}{2})}{\Gamma(\frac{\nu_1}{2})\Gamma(\frac{\nu_2}{2})}(\frac{\nu_1}{\nu_2})^{\nu_1/2}x^{\nu_1/2-1}(1+\frac{\nu_1x}{\nu_2})^{-(\nu_1+\nu_2)/2}$$E(X) = \frac{\nu_2}{\nu_2-2}$ ($\nu_2 > 2$)
$Var(X) = \frac{2\nu_2^2(\nu_1+\nu_2-2)}{\nu_1(\nu_2-2)^2(\nu_2-4)}$ ($\nu_2 > 4$)
$\nu_1, \nu_2 > 0$: 自由度• 2 つのカイ二乗分布の比
• $Y_1/\nu_1$と$Y_2/\nu_2$の比 ($Y_1,Y_2$はカイ二乗分布)
指数分布
(Exponential)
• 待ち時間
• 機器の寿命
• 到着間隔時間
$f(x) = \lambda e^{-\lambda x}$$E(X) = \frac{1}{\lambda}$
$Var(X) = \frac{1}{\lambda^2}$
$\lambda > 0$: レート• 無記憶性を持つ唯一の連続分布
• ガンマ分布($\alpha=1$)の特殊ケース
ガンマ分布
(Gamma)
• 待ち時間の和
• 降雨量
• 保険金支払額
$f(x) = \frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x}$$E(X) = \frac{\alpha}{\beta}$
$Var(X) = \frac{\alpha}{\beta^2}$
$\alpha > 0$: 形状
$\beta > 0$: レート
• $\alpha=1$で指数分布
• $\alpha=\nu/2, \beta=1/2$でカイ二乗分布
• レートパラメータ($\beta$)の代わりに尺度パラメータ($\theta=1/\beta$)でも表現可能
ベータ分布
(Beta)
• 確率の確率分布
• ベイズ統計での事前分布
• 信頼性解析
$f(x) = \frac{x^{\alpha-1}(1-x)^{\beta-1} }{B(\alpha,\beta)}$$E(X) = \frac{\alpha}{\alpha+\beta}$
$Var(X) = \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}$
$\alpha,\beta > 0$: 形状• 二項分布の共役事前分布
• $[0,1]$区間で定義
対数正規分布
(Log-normal)
• 資産価格
• 所得分布
• 反応時間
$f(x) = \frac{1}{x\sigma\sqrt{2\pi} }e^{-\frac{(\ln x-\mu)^2}{2\sigma^2} }$$E(X) = e^{\mu+\frac{\sigma^2}{2} }$
$Var(X) = (e^{\sigma^2}-1)e^{2\mu+\sigma^2}$
$\mu$: 対数平均
$\sigma > 0$: 対数標準偏差
• $\ln(X)$が正規分布
• 常に正の値
ワイブル分布
(Weibull)
• 信頼性工学
• 風速分布
• 製品寿命
$f(x) = \frac{k}{\lambda}(\frac{x}{\lambda})^{k-1}e^{-(x/\lambda)^k}$$E(X) = \lambda\Gamma(1+\frac{1}{k})$
$Var(X) = \lambda^2[\Gamma(1+\frac{2}{k})-\Gamma^2(1+\frac{1}{k})]$
$k > 0$: 形状
$\lambda > 0$: 尺度
• $k=1$で指数分布
• $k=2$でレイリー分布
コーシー分布
(Cauchy)
• 重裾の現象
• 共鳴現象
• 金融データ
$f(x) = \frac{1}{\pi\gamma[1+(\frac{x-x_0}{\gamma})^2]}$期待値は未定義
分散は未定義
$x_0$: 位置
$\gamma > 0$: 尺度
• t 分布($\nu=1$)の特殊ケース
• 安定分布の一種
混合正規分布
(Mixture Normal)
• 複数集団の混合
• クラスタリング
• 金融データ
$f(x) = \sum_{i=1}^k w_i\frac{1}{\sigma_i\sqrt{2\pi} }e^{-\frac{(x-\mu_i)^2}{2\sigma_i^2} }$$E(X) = \sum_{i=1}^k w_i\mu_i$
$Var(X) = \sum_{i=1}^k w_i[\sigma_i^2 + (\mu_i - \sum_{j=1}^k w_j\mu_j)^2]$
$w_i$: 混合比率
$\mu_i$, $\sigma_i$: 各成分のパラメータ
• $\sum_{i=1}^k w_i = 1$
• 複数の正規分布の重み付き和
ディリクレ分布
(Dirichlet)
• 多項分布の共役事前分布
• トピックモデル
• 組成データ
$f(x_1,\ldots,x_k) = \frac{1}{B(\alpha) }\prod_{i=1}^k x_i^{\alpha_i-1} $$E(X_i) = \frac{\alpha_i}{\sum_j \alpha_j}$
$Var(X_i) = \frac{\alpha_i(\sum_j \alpha_j-\alpha_i) }{(\sum_j \alpha_j)^2(\sum_j \alpha_j+1) } $
$\alpha_i > 0$: 濃度パラメータ• ベータ分布の多変量化
• $\sum_{i=1}^k x_i = 1$
離散型分布
二項分布
(Binomial)
• 成功/失敗の回数
• 品質管理
• 医学試験
$P(X=k) = \binom{n}{k}p^k(1-p)^{n-k}$$E(X) = np$
$Var(X) = np(1-p)$
$n$: 試行回数
$p$: 成功確率
• $n=1$でベルヌーイ分布
• $n\to\infty$でポアソン分布に近づく
幾何分布
(Geometric)
• 最初の成功までの試行回数
• 待ち時間の離散モデル
• 信頼性解析
$P(X=k) = (1-p)^{k-1}p$$E(X) = \frac{1}{p}$
$Var(X) = \frac{1-p}{p^2}$
$p$: 成功確率
(0 < p ≤ 1)
• 負の二項分布の特殊ケース(r=1)
• 離散型で唯一の無記憶性を持つ分布
• 初めての成功までの失敗回数を数える場合は k-1 を k に変更
超幾何分布
(Hypergeometric)
• 非復元抽出での成功回数
• 品質管理
• 標本調査
$P(X=k) = \frac{\binom{K}{k}\binom{N-K}{n-k} }{\binom{N}{n} }$$E(X) = n\frac{K}{N}$
$Var(X) = n\frac{K}{N}(1-\frac{K}{N})(\frac{N-n}{N-1})$
$N$: 母集団サイズ
$K$: 母集団中の成功数
$n$: 抽出数
$k$: 成功数
• 二項分布の非復元版
• $N$ が大きい場合、二項分布に近似
• $k \leq min(n,K)$ の制約あり
ポアソン分布
(Poisson)
• 稀事象の発生回数
• 交通事故数
• 顧客到着数
$P(X=k) = \frac{\lambda^k e^{-\lambda} }{k!}$$E(X) = \lambda$
$Var(X) = \lambda$
$\lambda > 0$: 平均発生率• 二項分布の極限
• 加法性を持つ
負の二項分布
(Negative Binomial)
• 成功までの失敗回数
• 過分散データ
• 事故発生数
$P(X=k) = \binom{k+r-1}{k}p^r(1-p)^k$$E(X) = \frac{r(1-p)}{p}$
$Var(X) = \frac{r(1-p)}{p^2}$
$r$: 成功回数
$p$: 成功確率
• $r=1$で幾何分布
• ポアソン-ガンマ混合分布
多項分布
(Multinomial)
• 複数カテゴリの出現回数
• テキスト分析
• 遺伝子頻度
$P(X_1=k_1,\ldots,X_m=k_m) = \frac{n!}{k_1!\cdots k_m!}p_1^{k_1}\cdots p_m^{k_m}$$E(X_i) = np_i$
$Var(X_i) = np_i(1-p_i)$
$n$: 総試行回数
$p_i$: カテゴリ確率
• 二項分布の多次元拡張
• ディリクレ分布が共役事前分布
  1. 全ての数式では、定義域や存在条件などの細かい制約は省略しています。
  2. 期待値・分散が存在しない場合や、特定の条件下でのみ存在する場合があります。
  3. パラメータの制約条件は主要なものだけを記載しています。
  4. 分布間の関係性は、最も重要なものを選択して記載しています。
  5. PDF (Probability Density Function, 確率密度関数) は連続型確率分布、PMF (Probability Mass Function, 確率質量関数) は離散型確率分布を表します。
  • PDF は区間での確率を面積として表現し、全区間での積分が 1 になります
  • PMF は各点での確率を直接表現し、全ての確率の和が 1 になります
  • PDF は特定の点での確率は常に 0 ですが、PMF は 0 から 1 の値をとります