二项分布

                     

贡献者: FFjet; addis; 零穹; jiangnan

预备知识 二项式定理

1. 伯努利试验

定义 1 

   若随机试验 $E$ 只有 2 个可能的结果:$A$ 与 $\overline{A}$。则称 $E$ 为伯努利试验(Bernoulli trial)。若将 $E$ 独立的重复进行 $n$ 次,则称 $n$ 重伯努利试验。

   伯努利试验中的 2 个结果 $A$ 与 $\overline{A}$ 也被称为 “成功” 与 “失败”。所以当用数字 1 和 0 来表示的时候,这个数字被称为第 $i$ 个试验的成功次数。即对 $n$ 重伯努利试验,其成功次数 $X$ 等于每个试验的成功次数之和

\begin{equation} X=\sum_i x_i~. \end{equation}
其中,$x_i$ 为第 $i$ 次试验的成功次数。

2. 二项分布

   如果记 $X $ 为 $n $ 重伯努利试验中成功(记为事件 $A$)的次数,则 $X $ 的可能取值为 $0,1,\dots,n$。记 $p $ 为每次试验中 $A $ 发生的概率,即 $P(A)=p$,则 $P(\overline{A})=1-p$。

   而我们知道,$n$ 重伯努利试验的基本结果可以记作

\begin{equation} \omega=\left(\omega_{1}, \omega_{2}, \cdots, \omega_{n}\right)~, \end{equation}
其中 $\omega_i$ 为 $A$,或者为 $\overline{A}$。这样的 $\omega$ 共有 $2^n$ 个,这 $2^n$ 个样本点 $\omega$ 组成了样本空间 $\Omega$。

   下面求事件 $X$ 的分布列,即 $\{X=k\}$ 的概率。若某个样本点

\begin{equation} \omega=\left(\omega_{1}, \omega_{2}, \cdots, \omega_{n}\right) \in\{X=k\}~, \end{equation}
意味着 $\omega_1,\omega_2,\cdots,\omega_n$ 中有 $k$ 个 $A$,$n-k$ 个 $\overline A$。由事件的独立性知:
\begin{equation} P(\omega)=p^{k}(1-p)^{n-k}~, \end{equation}
而事件 $\{X=k\}$ 中这样的 $\omega$ 共有 $\binom nk$ 个,所以 $X$ 的分布列为:
\begin{equation} P(X=k)=\binom nk p^{k}(1-p)^{n-k} \qquad (k=0,1, \cdots, n)~, \end{equation}
这个分布称为二项分布(binomial distribution),记为 $X\sim b(n, p)$。

   那么它的和是不是为 $1$ 呢?这很容易验证。根据二项式定理

\begin{equation} \sum_{k=0}^{n}\binom nk p^{k}(1-p)^{n-k}=[p+(1-p)]^{n}=1~. \end{equation}
并且从上式可以看出,二项概率 $\binom nk p^{k}(1-p)^{n-k}$ 恰好是二项式 $[p+(1-p)]^{n}$ 的展开式中的第 $k+1$ 项,这正是其名称的由来。

   显然,二项概率是一种离散分布。它很常见,举例来说:

例 1 二项分布的例子

  • 检查 $10$ 件产品,$ 10 $ 件产品中不合格品的个数 $X $ 服从二项分布 $b(10,p)$,其中 $p$ 为不合格品率。
  • 调查 $50 $ 个人,$ 50 $ 个人中患色盲的人数 $Y $ 服从二项分布 $b(50,p)$,其中 $p$ 为色盲率。
  • 射击 $5 $ 次,$ 5 $ 次中命中次数 $Z $ 服从二项分布 $b(5,p)$,其中 $p $ 为射手的命中率。

   下面来计算一些具体的例题。

例 2 治愈的概率

   某特效药的临床有效率为 $0. 95$,今有 $10 $ 人服用,问至少有 $8 $ 人治愈的概率是多少?

   直接计算,我们有

\begin{equation} \begin{aligned} P(X \geqslant 8) &=P(X=8)+P(X=9)+P(X=10) \\ &=\binom{10}{8} 0.95^{8} 0.05^{2}+\binom{10}{9} 0.95^{9} 0.05+\binom{10}{10} 0.95^{10} \\ &=0.0746+0.3151+0.5988=0.9885~, \end{aligned} \end{equation}
即 $10 $ 人中有 $8 $ 人以上被治愈的概率为 $0. 988 5$。

例 3 

   设随机变量 $X\sim b(2,p),Y\sim b(3,p)$。若 $P (X\geqslant1) = 5/9$, 试求 $P(Y\geqslant1)$。

   由 $P(X\geqslant1)=5/9$,知 $P(X=0)=4/9$,所以 $(1-p)^2=4/9$,由此得 $p=1/3$。再由 $Y\sim b(3,p)$ 可得

\begin{equation} P(Y \geqslant 1)=1-P(Y=0)=1-\left(1-\frac{1}{3}\right)^{3}=\frac{19}{27}~. \end{equation}

3. 二点分布

   $n=1$ 时的二项分布 $b (1 ,p)$ 称为二点分布,或称 0-1 分布,或称伯努利分布(Bernoulli distribution)。其分布列为

\begin{equation} P(X=x)=p^{x}(1-p)^{1-x} \qquad (x=0,1)~. \end{equation}
或者,用表格可以列为:
\begin{equation} \begin{array}{|c|c|c|}\hline x & 0 & 1 \\ \hline P & 1-p & p \\ \hline \end{array}~ \end{equation}

   二点分布 $b(1 ,p) $ 主要用来描述一次伯努利试验中成功(记为 $A$)的次数($0$ 或 $1$)。很多随机现象的样本空间 $\Omega$ 常可一分为二,记为 $A $ 与 $\overline A$,由此形成伯努利试验。$n $ 重伯努利试验是由 $n $ 个相同的、独立进行的伯努利试验组成,若将第 $i $ 个伯努利试验中 $A $ 出现的次数记为 $X_i (i= 1,2, \cdots, n)$, 则 $X_i$ 相互独立,且服从相同的二点分布 $b(1 ,p)$。此时其和 $X=X_1+X_2+\cdots+X_n$ 就是 $n $ 重伯努利试验中 $A $ 出现的总次数,它服从二项分布 $b(n,p)$。这就是二项分布 $b (n ,p) $ 与二点分布 $b(1,p)$ 之间的联系,即服从二项分布的随机变量是 $n$ 个独立同为二点分布的随机变量之和。

4. 二项分布的数学期望和方差

   设随机变量 $X\sim b(n,p)$,则

\begin{equation} \begin{aligned} E(X) &=\sum_{k=0}^{n} k\binom{n}{k} p^{k}(1-p)^{n-k}=n p \sum_{k=1}^{n}\binom{n-1}{k-1} p^{k-1}(1-p)^{(n-1)} \\ &=n p[p+(1-p)]^{n-1}=n p~.\end{aligned} \end{equation}
又因为
\begin{equation} \begin{aligned} E\left(X^{2}\right) &=\sum_{k=0}^{n} k^{2}\binom{n}{k} p^{k}(1-p)^{n-k}=\sum_{k=1}^{n}(k-1+1) k\binom{n}{k} p^{k}(1-p)^{n-k} \\ &=\sum_{k=1}^{n} k(k-1)\binom{n}{k} p^{k}(1-p)^{n-k}+\sum_{k=1}^{n} k\binom{n}{k} p^{k}(1-p)^{n-k} \\ &=\sum_{k=2}^{n} k(k-1)\binom{n}{k} p^{k}(1-p)^{n-k}+n p \\ &=n(n-1) p^{2} \sum_{k=2}^{n}\binom{n-2}{k-2} p^{k-2}(1-p)^{(n-2)-(k-2)}+n p \\ &=n(n-1) p^{2}+n p~. \end{aligned} \end{equation}

   由此得 $X $ 的方差为

\begin{equation} \operatorname{Var}(X)=E\left(X^{2}\right)-(E(X))^{2}=n(n-1) p^{2}+n p-(n p)^{2}=n p(1-p)~. \end{equation}
因为二点分布是 $n=1$ 时的二项分布 $b(1,p)$,所以二点分布的数学期望为 $p$,方差为 $p(1-p)$。

   为了看出不同的 $p $ 的值,其二项分布 $b(n ,p) $ 的变化情况,我们给出 $n=10$ 时,不同 $p $ 值的二项分布的概率值:

表1:二项分布 $b(n, p)$
k 0 1 2 3 4 5 6 7 8 9 10
b(10,0.2) 0.107 0.268 0.302 0.201 0.088 0.027 0.006 0.001
b(10,0.5) 0.001 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.010 0.001
b(10,0.8) 0.001 0.006 0.027 0.088 0.201 0.302 0.268 0.107

   我们再来看一下按照上面的数据描绘出的线条图:

图
图 1:二项分布 $b(n,p)$ 的线条图

   从上图可以看出:

   下面来看一个例题。

例 4 

   甲、乙两棋手约定进行 $10 $ 局比赛,以赢的局数多者为胜。设在每局中甲赢的概率为 $0.6$,乙赢的概率为 $0. 4$。如果各局比赛是独立进行的,试问甲胜、乙胜、不分胜负的概率各为多少?

   以 $X $ 表示 $10 $ 局比赛中甲赢的局数,则 $X\sim b(10,0. 6)$。所以

\begin{equation} \begin{aligned}P(\text { 甲胜 })=P(X \geqslant 6)=\sum_{k=6}^{10}\binom{10}{k} 0.6^{k} 0.4^{10-k}=0.6330 \\ P(\text { 乙胜 })=P(X \leqslant 4)=\sum_{k=0}^{4}\binom{10}{k} 0.6^{k} 0.4^{10-k}=0.1663 \\ P(\text { 不分胜负 })=P(X=5)=\binom{10}{5} 0.6^{5} 0.4^{5}=0.2007~.\end{aligned} \end{equation}
可见甲胜的可能性达 $63. 3\%$,而乙胜的可能性只有 $16. 63\% $,它比不分胜负的可能性还要小。最后两个概率之和 $0. 367 0 $ 表示乙不输的概率。

5. 极限

   当 $N\to\infty$ 时,二项分布的平均值近似于高斯分布 $N(Np, Np(1-p))$。这可以由中心极限定理证明。

  

未完成:以下步骤补充详细

   对单次选择,步长为 $x_i = -1/2$ 和 $1/2$,对应概率分别为 $1-p$ 和 $p$。均值为 $p - 1/2$。$N$ 次均值为 $N(p - 1/2)$,初始坐标为 $N/2$,所以坐标均值为 $Np$。单次方差为

\begin{equation} (p-1/2+1/2)^2(1-p) + (1/2 - p + 1/2)^2 p = p(1-p)~, \end{equation}
所以 $N$ 次方差为 $Np(1-p)$。另见高尔顿板

定理 1 泊松定理

   设 $\lambda>0$ 为一常数,$N$ 为任意正整数且 $Np=\lambda$,$\lambda$ 为有限大小,则有

\begin{equation} \lim_{N\to +\infty} C_N^k p^k(1-p)^{N-k} = \frac{\lambda^k e^{-\lambda}}{k!}~. \end{equation}

   证明如下:我们将 $p=\frac{\lambda}{N}$ 代入二项分布,有

\begin{align} C_N^k p^k(1-p)^{N-k} = \frac{N!}{k! (N-k)!} (\frac{\lambda}{N})^k (1-\frac{\lambda}{N})^{N-k}~\\ =\frac{1}{k!}\frac{N!}{(N-k)! N^k} \lambda^k (1-\frac{\lambda}{N})^{N-k}~. \end{align}
对上式我们逐项进行分析,我们注意到,$N>>k$,因此 $\lim_{N\to +\infty}\frac{N!}{(N-k)! N^k} = \lim_{N\to +\infty}\frac{N(N-1)(N-2)...(N-k+1)}{N^k} = 1$。对最后一项, $$ \lim_{N\to +\infty} (1-\frac{\lambda}{N})^{N-k} = \lim_{N\to +\infty}(1-\frac{\lambda}{N})^N (1-\frac{\lambda}{N})^{-k} = e^{-\lambda}~, $$ 则泊松定理得证。泊松定理告诉我们对于一个二项分布,如果事件 $p$ 的概率非常小,而样本数又非常大时,二项分布可以用泊松分布近似。

                     

© 小时科技 保留一切权利