二项分布

                     

贡献者: addis; FFjet; 零穹; jiangnan

预备知识 二项式定理

1. 伯努利试验

定义 1 

   若随机试验 $E$ 只有 2 个可能的结果:$A$ 与 $\overline{A}$。则称 $E$ 为伯努利试验(Bernoulli trial)。若将 $E$ 独立的重复进行 $n$ 次,则称 $n$ 重伯努利试验。

   伯努利试验中的 2 个结果 $A$ 与 $\overline{A}$ 也被称为 “成功” 与 “失败”。所以当用数字 1 和 0 来表示的时候,这个数字被称为第 $i$ 个试验的成功次数。即对 $n$ 重伯努利试验,其成功次数 $X$ 等于每个试验的成功次数之和

\begin{equation} X=\sum_i x_i~. \end{equation}
其中,$x_i$ 为第 $i$ 次试验的成功次数。

2. 二项分布

   如果记 $X $ 为 $n $ 重伯努利试验中成功(记为事件 $A$)的次数,则 $X $ 的可能取值为 $0,1,\dots,n$。记 $p $ 为每次试验中 $A $ 发生的概率,即 $P(A)=p$,则 $P(\overline{A})=1-p$。

   而我们知道,$n$ 重伯努利试验的基本结果可以记作

\begin{equation} \omega=\left(\omega_{1}, \omega_{2}, \cdots, \omega_{n}\right)~, \end{equation}
其中 $\omega_i$ 为 $A$,或者为 $\overline{A}$。这样的 $\omega$ 共有 $2^n$ 个,这 $2^n$ 个样本点 $\omega$ 组成了样本空间 $\Omega$。

   下面求事件 $X$ 的分布列,即 $\{X=k\}$ 的概率。若某个样本点

\begin{equation} \omega=\left(\omega_{1}, \omega_{2}, \cdots, \omega_{n}\right) \in\{X=k\}~, \end{equation}
意味着 $\omega_1,\omega_2,\cdots,\omega_n$ 中有 $k$ 个 $A$,$n-k$ 个 $\overline A$。由事件的独立性知:
\begin{equation} P(\omega)=p^{k}(1-p)^{n-k}~, \end{equation}
而事件 $\{X=k\}$ 中这样的 $\omega$ 共有 $\binom nk$ 个,所以 $X$ 的分布列为:
\begin{equation} P(X=k)=\binom nk p^{k}(1-p)^{n-k} \qquad (k=0,1, \cdots, n)~, \end{equation}
这个分布称为二项分布(binomial distribution),记为 $X\sim b(n, p)$。

   那么它的和是不是为 $1$ 呢?这很容易验证。根据二项式定理

\begin{equation} \sum_{k=0}^{n}\binom nk p^{k}(1-p)^{n-k}=[p+(1-p)]^{n}=1~. \end{equation}
并且从上式可以看出,二项概率 $\binom nk p^{k}(1-p)^{n-k}$ 恰好是二项式 $[p+(1-p)]^{n}$ 的展开式中的第 $k+1$ 项,这正是其名称的由来。

   显然,二项概率是一种离散分布。它很常见,举例来说:

例 1 二项分布的例子

  • 检查 $10$ 件产品,$ 10 $ 件产品中不合格品的个数 $X $ 服从二项分布 $b(10,p)$,其中 $p$ 为不合格品率。
  • 调查 $50 $ 个人,$ 50 $ 个人中患色盲的人数 $Y $ 服从二项分布 $b(50,p)$,其中 $p$ 为色盲率。
  • 射击 $5 $ 次,$ 5 $ 次中命中次数 $Z $ 服从二项分布 $b(5,p)$,其中 $p $ 为射手的命中率。

   下面来计算一些具体的例题。

例 2 治愈的概率

   某特效药的临床有效率为 $0. 95$,今有 $10 $ 人服用,问至少有 $8 $ 人治愈的概率是多少?

   直接计算,我们有

\begin{equation} \begin{aligned} P(X \geqslant 8) &=P(X=8)+P(X=9)+P(X=10) \\ &=\binom{10}{8} 0.95^{8} 0.05^{2}+\binom{10}{9} 0.95^{9} 0.05+\binom{10}{10} 0.95^{10} \\ &=0.0746+0.3151+0.5988=0.9885~, \end{aligned} \end{equation}
即 $10 $ 人中有 $8 $ 人以上被治愈的概率为 $0. 988 5$。

例 3 

   设随机变量 $X\sim b(2,p),Y\sim b(3,p)$。若 $P (X\geqslant1) = 5/9$, 试求 $P(Y\geqslant1)$。

   由 $P(X\geqslant1)=5/9$,知 $P(X=0)=4/9$,所以 $(1-p)^2=4/9$,由此得 $p=1/3$。再由 $Y\sim b(3,p)$ 可得

\begin{equation} P(Y \geqslant 1)=1-P(Y=0)=1-\left(1-\frac{1}{3}\right)^{3}=\frac{19}{27}~. \end{equation}

3. 二点分布

   $n=1$ 时的二项分布 $b (1 ,p)$ 称为二点分布,或称 0-1 分布,或称伯努利分布(Bernoulli distribution)。其分布列为

\begin{equation} P(X=x)=p^{x}(1-p)^{1-x} \qquad (x=0,1)~. \end{equation}
或者,用表格可以列为:
\begin{equation} \begin{array}{|c|c|c|}\hline x & 0 & 1 \\ \hline P & 1-p & p \\ \hline \end{array}~ \end{equation}

   二点分布 $b(1 ,p) $ 主要用来描述一次伯努利试验中成功(记为 $A$)的次数($0$ 或 $1$)。很多随机现象的样本空间 $\Omega$ 常可一分为二,记为 $A $ 与 $\overline A$,由此形成伯努利试验。$n $ 重伯努利试验是由 $n $ 个相同的、独立进行的伯努利试验组成,若将第 $i $ 个伯努利试验中 $A $ 出现的次数记为 $X_i (i= 1,2, \cdots, n)$, 则 $X_i$ 相互独立,且服从相同的二点分布 $b(1 ,p)$。此时其和 $X=X_1+X_2+\cdots+X_n$ 就是 $n $ 重伯努利试验中 $A $ 出现的总次数,它服从二项分布 $b(n,p)$。这就是二项分布 $b (n ,p) $ 与二点分布 $b(1,p)$ 之间的联系,即服从二项分布的随机变量是 $n$ 个独立同为二点分布的随机变量之和。

4. 二项分布的数学期望和方差

   设随机变量 $X\sim b(n,p)$,则

\begin{equation} \begin{aligned} E(X) &=\sum_{k=0}^{n} k\binom{n}{k} p^{k}(1-p)^{n-k}=n p \sum_{k=1}^{n}\binom{n-1}{k-1} p^{k-1}(1-p)^{(n-1)} \\ &=n p[p+(1-p)]^{n-1}=n p~.\end{aligned} \end{equation}
又因为
\begin{equation} \begin{aligned} E\left(X^{2}\right) &=\sum_{k=0}^{n} k^{2}\binom{n}{k} p^{k}(1-p)^{n-k}=\sum_{k=1}^{n}(k-1+1) k\binom{n}{k} p^{k}(1-p)^{n-k} \\ &=\sum_{k=1}^{n} k(k-1)\binom{n}{k} p^{k}(1-p)^{n-k}+\sum_{k=1}^{n} k\binom{n}{k} p^{k}(1-p)^{n-k} \\ &=\sum_{k=2}^{n} k(k-1)\binom{n}{k} p^{k}(1-p)^{n-k}+n p \\ &=n(n-1) p^{2} \sum_{k=2}^{n}\binom{n-2}{k-2} p^{k-2}(1-p)^{(n-2)-(k-2)}+n p \\ &=n(n-1) p^{2}+n p~. \end{aligned} \end{equation}

   由此得 $X $ 的方差为

\begin{equation} \operatorname{Var}(X)=E\left(X^{2}\right)-(E(X))^{2}=n(n-1) p^{2}+n p-(n p)^{2}=n p(1-p)~. \end{equation}
因为二点分布是 $n=1$ 时的二项分布 $b(1,p)$,所以二点分布的数学期望为 $p$,方差为 $p(1-p)$。

   为了看出不同的 $p $ 的值,其二项分布 $b(n ,p) $ 的变化情况,我们给出 $n=10$ 时,不同 $p $ 值的二项分布的概率值:

表1:二项分布 $b(n, p)$
k 0 1 2 3 4 5 6 7 8 9 10
b(10,0.2) 0.107 0.268 0.302 0.201 0.088 0.027 0.006 0.001
b(10,0.5) 0.001 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.010 0.001
b(10,0.8) 0.001 0.006 0.027 0.088 0.201 0.302 0.268 0.107

   我们再来看一下按照上面的数据描绘出的线条图:

图
图 1:二项分布 $b(n,p)$ 的线条图

   从上图可以看出:

   下面来看一个例题。

例 4 

   甲、乙两棋手约定进行 $10 $ 局比赛,以赢的局数多者为胜。设在每局中甲赢的概率为 $0.6$,乙赢的概率为 $0. 4$。如果各局比赛是独立进行的,试问甲胜、乙胜、不分胜负的概率各为多少?

   以 $X $ 表示 $10 $ 局比赛中甲赢的局数,则 $X\sim b(10,0. 6)$。所以

\begin{equation} \begin{aligned}P(\text { 甲胜 })=P(X \geqslant 6)=\sum_{k=6}^{10}\binom{10}{k} 0.6^{k} 0.4^{10-k}=0.6330 \\ P(\text { 乙胜 })=P(X \leqslant 4)=\sum_{k=0}^{4}\binom{10}{k} 0.6^{k} 0.4^{10-k}=0.1663 \\ P(\text { 不分胜负 })=P(X=5)=\binom{10}{5} 0.6^{5} 0.4^{5}=0.2007~.\end{aligned} \end{equation}
可见甲胜的可能性达 $63. 3\%$,而乙胜的可能性只有 $16. 63\% $,它比不分胜负的可能性还要小。最后两个概率之和 $0. 367 0 $ 表示乙不输的概率。

5. 极限

   当 $N\to\infty$ 时,二项分布的平均值近似于高斯分布 $N(Np, Np(1-p))$。这可以由中心极限定理证明。

  

未完成:以下步骤补充详细

   对单次选择,步长为 $x_i = -1/2$ 和 $1/2$,对应概率分别为 $1-p$ 和 $p$。均值为 $p - 1/2$。$N$ 次均值为 $N(p - 1/2)$,初始坐标为 $N/2$,所以坐标均值为 $Np$。单次方差为

\begin{equation} (p-1/2+1/2)^2(1-p) + (1/2 - p + 1/2)^2 p = p(1-p)~, \end{equation}
所以 $N$ 次方差为 $Np(1-p)$。另见高尔顿板

定理 1 泊松定理

   设 $\lambda>0$ 为一常数,$N$ 为任意正整数且 $Np=\lambda$,$\lambda$ 为有限大小,则有

\begin{equation} \lim_{N\to +\infty} C_N^k p^k(1-p)^{N-k} = \frac{\lambda^k e^{-\lambda}}{k!}~. \end{equation}
详见泊松分布

   证明如下:我们将 $p=\frac{\lambda}{N}$ 代入二项分布,有

\begin{align} C_N^k p^k(1-p)^{N-k} = \frac{N!}{k! (N-k)!} (\frac{\lambda}{N})^k (1-\frac{\lambda}{N})^{N-k}~\\ =\frac{1}{k!}\frac{N!}{(N-k)! N^k} \lambda^k (1-\frac{\lambda}{N})^{N-k}~. \end{align}
对上式我们逐项进行分析,我们注意到,$N>>k$,因此 $\lim_{N\to +\infty}\frac{N!}{(N-k)! N^k} = \lim_{N\to +\infty}\frac{N(N-1)(N-2)...(N-k+1)}{N^k} = 1$。对最后一项, $$ \lim_{N\to +\infty} (1-\frac{\lambda}{N})^{N-k} = \lim_{N\to +\infty}(1-\frac{\lambda}{N})^N (1-\frac{\lambda}{N})^{-k} = e^{-\lambda}~, $$ 则泊松定理得证。泊松定理告诉我们对于一个二项分布,如果事件 $p$ 的概率非常小,而样本数又非常大时,二项分布可以用泊松分布近似。


致读者: 小时百科一直以来坚持所有内容免费无广告,这导致我们处于严重的亏损状态。 长此以往很可能会最终导致我们不得不选择大量广告以及内容付费等。 因此,我们请求广大读者热心打赏 ,使网站得以健康发展。 如果看到这条信息的每位读者能慷慨打赏 20 元,我们一周就能脱离亏损, 并在接下来的一年里向所有读者继续免费提供优质内容。 但遗憾的是只有不到 1% 的读者愿意捐款, 他们的付出帮助了 99% 的读者免费获取知识, 我们在此表示感谢。

                     

友情链接: 超理论坛 | ©小时科技 保留一切权利