二項分布とは、成功か失敗かの2択の試行を繰り返した際、何回成功するか、その確率を求めるものです。
「製品の不良率,政権への支持率,テレビの視聴率」などの比率に関する統計的推測の際に用いられます。
定数 | \( n, p \) |
確率質量関数 | \( f(k | n,p) = \begin{pmatrix}n\\k\end{pmatrix} p^k (1-p)^{n-k} \) |
平均値 | \( np \) |
分散 | \( np(1-p) \) |
定義
コインの裏表や成功・失敗のような0か1で表せる思考をベルヌーイ試行といいます。
ここで、ベルヌーイ試行を\( n \)回実行したとき、\( k \)回成功したときの確率を表す式を二項分布といいます。
ベルヌーイ試行の定義
確率変数\( Z = 0, 1\)に対して、
$$ P(Z=1)=p, \quad P(Z=0)=1-p \qquad (0 \leq p \leq 1) $$を満たす試行のことを成功確率\( p \)のベルヌーイ試行という。
二項分布の確率質量関数
成功確率\( p \)のベルヌーイ試行を\( n \)回繰り返したとき、\( k \)回成功するときの確率を二項分布といい、\( B(n,p) \)と書く。また、\( B(1,p) \)をベルヌーイ分布という。
\( B(n,p) \) の確率質量関数は、以下となる。
$$ f(k | n,p) = \begin{pmatrix}n\\k\end{pmatrix} p^k (1-p)^{n-k} \ $$
ここで、二項係数\( \displaystyle \begin{pmatrix}n\\k\end{pmatrix} \)は、\( n \)個の中から\( k \)個を選ぶ組み合わせの数であり、
$$ \begin{pmatrix}n\\k\end{pmatrix} = \frac{n!}{k!(n-k)!} = \frac{\overbrace{n(n-1) \cdots (n-k+1)}^{k個}}{k(k-1) \cdots 1} $$と定義されます。
二項分布が確率分布であることの証明
二項定理より、
$$ \sum_i f(i | n,p) = \sum_i \begin{pmatrix}n\\i\end{pmatrix} p^i (1-p)^{n-i} = 1 $$
再生性
2つの確率変数\( X_i (i=1, 2) \)が、それぞれ二項分布\( B(n_i,p) \)に独立に従うとする。
このとき、\( X_1 + X_2 \)は、\( B(n_1 + n_2, p) \)に従う。
証明
確率分布\( P(X_1+X_2=x | n_1, n_2, p) \)を計算する。ここで、\( n_i \)は各\( X_i \)に対する試行回数である。
$$ \begin{eqnarray*} && P( X_1+X_2=x | n_1, n_2, p ) \\ &=& \sum_{i=0}^{x} f(i | n_1, p) f(x-i | n_2, p) \\ &=& \sum_{i=0}^{x} \begin{pmatrix}n_1\\i\end{pmatrix} p^i (1-p)^{n_1-i} \begin{pmatrix}n_2\\x-i\end{pmatrix} p^{x-i} (1-p)^{n_2-x+i} \\ &=& \sum_{i=0}^{x} \begin{pmatrix}n_1\\i\end{pmatrix} \begin{pmatrix}n_2\\x-i\end{pmatrix} p^x (1-p)^{n_1 + n_2 – x} \end{eqnarray*} $$ヴァンデルモンドの畳み込みより、\( \displaystyle \begin{pmatrix}n_1+n_2\\x\end{pmatrix} = \sum_{i=0}^x \begin{pmatrix}n_1\\i\end{pmatrix} \begin{pmatrix}n_2\\x-i\end{pmatrix} \)が成り立つので、
$$ P( X_1+X_2=x | n_1, n_2, p ) = \begin{pmatrix}n_1+n_2\\x\end{pmatrix} p^x (1-p)^{n_1 + n_2 – x} $$したがって、再生性が成り立つ。
平均値
二項分布\( B(n,p) \)の平均値は\( np \)である。
証明
まず、ベルヌーイ分布\( B(1,p) \)の平均値が\( p \)となることを示す。
確率変数\( Z \)が\( B(1,p) \)に従うとする。
このとき、\( Z \)の平均値を計算すると、
$$ E[Z] = 1 \times p + 0 \times (1-p) = p $$
次に二項分布\( B(n,p) \)の平均値を求める。
\( n \)個の確率変数\( Z_1, \cdots, Z_n \)がそれぞれ独立に\( B(1,p) \)に従うとする。
ここで、\( \displaystyle X = \sum_{i=1}^{n}Z_i \)とおくと、二項分布の再生性から\( X \)は\( B(n,p) \)に従う。
\( Z_1, \cdots, Z_n \) の独立性から、
$$ E[X] = E \left[ \sum_{i=1}^{n}Z_i \right] = \sum_{i=1}^{n} E[Z_i] = np $$
分散
二項分布\( B(n,p) \)の分散は\( np(1-p) \)である。
証明
まず、ベルヌーイ分布\( B(1,p) \)の分散が\( p(1-p) \)となることを示す。
確率変数\( Z \)が\( B(1,p) \)に従うとする。
このとき、\( Z \)の分散を計算すると、\( Z^2=Z \)であるから、
$$ \begin{eqnarray*} V[Z] &=& E[Z^2] – E[Z]^2 = E[Z] – E[Z]^2 \\
&=& p-p^2 = p(1-p) \end{eqnarray*}$$
次に二項分布\( B(n,p) \)の分散を求める。
\( n \)個の確率変数\( Z_1, \cdots, Z_n \)がそれぞれ独立に\( B(1,p) \)に従うとする。
ここで、\( \displaystyle X = \sum_{i=1}^{n}Z_i \)とおくと、平均値を求める際と同様に\( X \)は\( B(n,p) \)に従う。
\( Z_1, \cdots, Z_n \) の独立性から、
$$ \begin{eqnarray*} V[X] &=& V \left[ \sum_{i=1}^{n}Z_i \right] = \sum_{i=1}^{n} V[Z_i] \\ &=& np(1-p) \end{eqnarray*}$$