二项分布

贡献者： addis; FFjet; 零穹; jiangnan

预备知识　二项式定理

1. 伯努利试验

定义 1　

　　若随机试验 $E$ 只有 2 个可能的结果：$A$ 与 $\overline{A}$。则称 $E$ 为伯努利试验（Bernoulli trial）。若将 $E$ 独立的重复进行 $n$ 次，则称 $n$ 重伯努利试验。

　　伯努利试验中的 2 个结果 $A$ 与 $\overline{A}$ 也被称为 “成功” 与 “失败”。所以当用数字 1 和 0 来表示的时候，这个数字被称为第 $i$ 个试验的成功次数。即对 $n$ 重伯努利试验，其成功次数 $X$ 等于每个试验的成功次数之和

\begin{equation} X=\sum_i x_i~. \end{equation}

其中，$x_i$ 为第 $i$ 次试验的成功次数。

2. 二项分布

　　如果记 $X $ 为 $n $ 重伯努利试验中成功（记为事件 $A$）的次数，则 $X $ 的可能取值为 $0,1,\dots,n$。记 $p $ 为每次试验中 $A $ 发生的概率，即 $P(A)=p$，则 $P(\overline{A})=1-p$。

　　而我们知道，$n$ 重伯努利试验的基本结果可以记作

\begin{equation} \omega=\left(\omega_{1}, \omega_{2}, \cdots, \omega_{n}\right)~, \end{equation}

其中 $\omega_i$ 为 $A$，或者为 $\overline{A}$。这样的 $\omega$ 共有 $2^n$ 个，这 $2^n$ 个样本点 $\omega$ 组成了样本空间 $\Omega$。

　　下面求事件 $X$ 的分布列，即 $\{X=k\}$ 的概率。若某个样本点

\begin{equation} \omega=\left(\omega_{1}, \omega_{2}, \cdots, \omega_{n}\right) \in\{X=k\}~, \end{equation}

意味着 $\omega_1,\omega_2,\cdots,\omega_n$ 中有 $k$ 个 $A$，$n-k$ 个 $\overline A$。由事件的独立性知：

\begin{equation} P(\omega)=p^{k}(1-p)^{n-k}~, \end{equation}

而事件 $\{X=k\}$ 中这样的 $\omega$ 共有 $\binom nk$ 个，所以 $X$ 的分布列为：

\begin{equation} P(X=k)=\binom nk p^{k}(1-p)^{n-k} \qquad (k=0,1, \cdots, n)~, \end{equation}

这个分布称为二项分布（binomial distribution），记为 $X\sim b(n, p)$。

　　那么它的和是不是为 $1$ 呢？这很容易验证。根据二项式定理有

\begin{equation} \sum_{k=0}^{n}\binom nk p^{k}(1-p)^{n-k}=[p+(1-p)]^{n}=1~. \end{equation}

并且从上式可以看出，二项概率 $\binom nk p^{k}(1-p)^{n-k}$ 恰好是二项式 $[p+(1-p)]^{n}$ 的展开式中的第 $k+1$ 项，这正是其名称的由来。

　　显然，二项概率是一种离散分布。它很常见，举例来说：

例 1　二项分布的例子

检查 $10$ 件产品，$ 10 $ 件产品中不合格品的个数 $X $ 服从二项分布 $b(10,p)$，其中 $p$ 为不合格品率。
调查 $50 $ 个人，$ 50 $ 个人中患色盲的人数 $Y $ 服从二项分布 $b(50,p)$，其中 $p$ 为色盲率。
射击 $5 $ 次，$ 5 $ 次中命中次数 $Z $ 服从二项分布 $b(5,p)$，其中 $p $ 为射手的命中率。

　　下面来计算一些具体的例题。

例 2　治愈的概率

　　某特效药的临床有效率为 $0. 95$，今有 $10 $ 人服用，问至少有 $8 $ 人治愈的概率是多少？

　　直接计算，我们有

\begin{equation} \begin{aligned} P(X \geqslant 8) &=P(X=8)+P(X=9)+P(X=10) \\ &=\binom{10}{8} 0.95^{8} 0.05^{2}+\binom{10}{9} 0.95^{9} 0.05+\binom{10}{10} 0.95^{10} \\ &=0.0746+0.3151+0.5988=0.9885~, \end{aligned} \end{equation}

即 $10 $ 人中有 $8 $ 人以上被治愈的概率为 $0. 988 5$。

例 3　

　　设随机变量 $X\sim b(2,p),Y\sim b(3,p)$。若 $P (X\geqslant1) = 5/9$, 试求 $P(Y\geqslant1)$。

　　由 $P(X\geqslant1)=5/9$，知 $P(X=0)=4/9$，所以 $(1-p)^2=4/9$，由此得 $p=1/3$。再由 $Y\sim b(3,p)$ 可得

\begin{equation} P(Y \geqslant 1)=1-P(Y=0)=1-\left(1-\frac{1}{3}\right)^{3}=\frac{19}{27}~. \end{equation}

3. 二点分布

　　 $n=1$ 时的二项分布 $b (1 ,p)$ 称为二点分布，或称 0-1 分布，或称伯努利分布（Bernoulli distribution）。其分布列为

\begin{equation} P(X=x)=p^{x}(1-p)^{1-x} \qquad (x=0,1)~. \end{equation}

或者，用表格可以列为：

\begin{equation} \begin{array}{|c|c|c|}\hline x & 0 & 1 \\ \hline P & 1-p & p \\ \hline \end{array}~ \end{equation}

　　二点分布 $b(1 ,p) $ 主要用来描述一次伯努利试验中成功（记为 $A$）的次数（$0$ 或 $1$）。很多随机现象的样本空间 $\Omega$ 常可一分为二，记为 $A $ 与 $\overline A$，由此形成伯努利试验。$n $ 重伯努利试验是由 $n $ 个相同的、独立进行的伯努利试验组成，若将第 $i $ 个伯努利试验中 $A $ 出现的次数记为 $X_i (i= 1,2, \cdots, n)$, 则 $X_i$ 相互独立，且服从相同的二点分布 $b(1 ,p)$。此时其和 $X=X_1+X_2+\cdots+X_n$ 就是 $n $ 重伯努利试验中 $A $ 出现的总次数，它服从二项分布 $b(n,p)$。这就是二项分布 $b (n ,p) $ 与二点分布 $b(1,p)$ 之间的联系，即服从二项分布的随机变量是 $n$ 个独立同为二点分布的随机变量之和。

4. 二项分布的数学期望和方差

　　设随机变量 $X\sim b(n,p)$，则

\begin{equation} \begin{aligned} E(X) &=\sum_{k=0}^{n} k\binom{n}{k} p^{k}(1-p)^{n-k}=n p \sum_{k=1}^{n}\binom{n-1}{k-1} p^{k-1}(1-p)^{(n-1)} \\ &=n p[p+(1-p)]^{n-1}=n p~.\end{aligned} \end{equation}

又因为

\begin{equation} \begin{aligned} E\left(X^{2}\right) &=\sum_{k=0}^{n} k^{2}\binom{n}{k} p^{k}(1-p)^{n-k}=\sum_{k=1}^{n}(k-1+1) k\binom{n}{k} p^{k}(1-p)^{n-k} \\ &=\sum_{k=1}^{n} k(k-1)\binom{n}{k} p^{k}(1-p)^{n-k}+\sum_{k=1}^{n} k\binom{n}{k} p^{k}(1-p)^{n-k} \\ &=\sum_{k=2}^{n} k(k-1)\binom{n}{k} p^{k}(1-p)^{n-k}+n p \\ &=n(n-1) p^{2} \sum_{k=2}^{n}\binom{n-2}{k-2} p^{k-2}(1-p)^{(n-2)-(k-2)}+n p \\ &=n(n-1) p^{2}+n p~. \end{aligned} \end{equation}

　　由此得 $X $ 的方差为

\begin{equation} \operatorname{Var}(X)=E\left(X^{2}\right)-(E(X))^{2}=n(n-1) p^{2}+n p-(n p)^{2}=n p(1-p)~. \end{equation}

因为二点分布是 $n=1$ 时的二项分布 $b(1,p)$，所以二点分布的数学期望为 $p$，方差为 $p(1-p)$。

　　为了看出不同的 $p $ 的值，其二项分布 $b(n ,p) $ 的变化情况，我们给出 $n=10$ 时，不同 $p $ 值的二项分布的概率值：

表1：二项分布 $b(n, p)$

k	0	1	2	3	4	5	6	7	8	9	10
b(10,0.2)	0.107	0.268	0.302	0.201	0.088	0.027	0.006	0.001
b(10,0.5)	0.001	0.010	0.044	0.117	0.205	0.246	0.205	0.117	0.044	0.010	0.001
b(10,0.8)				0.001	0.006	0.027	0.088	0.201	0.302	0.268	0.107

　　我们再来看一下按照上面的数据描绘出的线条图：

图 1：二项分布 $b(n,p)$ 的线条图

　　从上图可以看出：

位于均值 $np$ 附近概率较大。
随着 $p $ 的增加，分布的峰逐渐右移。

　　下面来看一个例题。

例 4　

　　甲、乙两棋手约定进行 $10 $ 局比赛，以赢的局数多者为胜。设在每局中甲赢的概率为 $0.6$，乙赢的概率为 $0. 4$。如果各局比赛是独立进行的，试问甲胜、乙胜、不分胜负的概率各为多少？

　　以 $X $ 表示 $10 $ 局比赛中甲赢的局数，则 $X\sim b(10,0. 6)$。所以

\begin{equation} \begin{aligned}P(\text { 甲胜 })=P(X \geqslant 6)=\sum_{k=6}^{10}\binom{10}{k} 0.6^{k} 0.4^{10-k}=0.6330 \\ P(\text { 乙胜 })=P(X \leqslant 4)=\sum_{k=0}^{4}\binom{10}{k} 0.6^{k} 0.4^{10-k}=0.1663 \\ P(\text { 不分胜负 })=P(X=5)=\binom{10}{5} 0.6^{5} 0.4^{5}=0.2007~.\end{aligned} \end{equation}

可见甲胜的可能性达 $63. 3\%$，而乙胜的可能性只有 $16. 63\% $，它比不分胜负的可能性还要小。最后两个概率之和 $0. 367 0 $ 表示乙不输的概率。

5. 极限

　　当 $N\to\infty$ 时，二项分布的平均值近似于高斯分布 $N(Np, Np(1-p))$。这可以由中心极限定理证明。

未完成：以下步骤补充详细

　　对单次选择，步长为 $x_i = -1/2$ 和 $1/2$，对应概率分别为 $1-p$ 和 $p$。均值为 $p - 1/2$。$N$ 次均值为 $N(p - 1/2)$，初始坐标为 $N/2$，所以坐标均值为 $Np$。单次方差为

\begin{equation} (p-1/2+1/2)^2(1-p) + (1/2 - p + 1/2)^2 p = p(1-p)~, \end{equation}

所以 $N$ 次方差为 $Np(1-p)$。另见高尔顿板。

定理 1　泊松定理

　　设 $\lambda>0$ 为一常数，$N$ 为任意正整数且 $Np=\lambda$,$\lambda$ 为有限大小，则有

\begin{equation} \lim_{N\to +\infty} C_N^k p^k(1-p)^{N-k} = \frac{\lambda^k e^{-\lambda}}{k!}~. \end{equation}

详见泊松分布。

　　证明如下：我们将 $p=\frac{\lambda}{N}$ 代入二项分布，有

\begin{align} C_N^k p^k(1-p)^{N-k} = \frac{N!}{k! (N-k)!} (\frac{\lambda}{N})^k (1-\frac{\lambda}{N})^{N-k}~\\ =\frac{1}{k!}\frac{N!}{(N-k)! N^k} \lambda^k (1-\frac{\lambda}{N})^{N-k}~. \end{align}

对上式我们逐项进行分析，我们注意到，$N>>k$,因此 $\lim_{N\to +\infty}\frac{N!}{(N-k)! N^k} = \lim_{N\to +\infty}\frac{N(N-1)(N-2)...(N-k+1)}{N^k} = 1$。对最后一项， $$ \lim_{N\to +\infty} (1-\frac{\lambda}{N})^{N-k} = \lim_{N\to +\infty}(1-\frac{\lambda}{N})^N (1-\frac{\lambda}{N})^{-k} = e^{-\lambda}~, $$ 则泊松定理得证。泊松定理告诉我们对于一个二项分布，如果事件 $p$ 的概率非常小，而样本数又非常大时，二项分布可以用泊松分布近似。

二项分布

1. 伯努利试验

定义 1

2. 二项分布

例 1 二项分布的例子

例 2 治愈的概率

例 3

3. 二点分布

4. 二项分布的数学期望和方差

例 4

5. 极限

定理 1 泊松定理

定义 1　

例 1　二项分布的例子

例 2　治愈的概率

例 3　

例 4　

定理 1　泊松定理