一些反直觉的概率问题(科普)

                     

贡献者: 欄、停敘

   概率学中涉及许多日常生活中常见的问题。然而,由于概率问题的计算过于复杂,人类的直觉通常并不适合处理,这使得许多概率问题的结论显得与直觉不符,甚至令人惊讶。以下将介绍六个具有代表性的概率问题,这些问题通过不同的视角展示了概率的反直觉性及其背后的逻辑。

1. 概率的非线性带来的反直觉现象

例 1 抽签中的生日悖论

   在一个由 23 人组成的房间中,至少有两个人的生日(仅考虑月日,不包括年份)相同的概率是多少?

   表面上看,23 人远小于一年的天数(365 天),似乎至少两人生日相同的可能性应该非常低。许多人会根据直觉得出这样一个结论:人数远未接近一年中的天数,因此重复的可能性很小。然而,这种看似小概率的事件,实际上在人数 23 人时就已经超过一半,约为 $50.73\%$。

   计算时,可以先求出所有人生日都不同的概率,再用 $1$ 减去这个概率,从而得到至少两人生日相同的概率。假设一年有 365 天,第一个人的生日可以是任意一天,因此有 365 种可能;第二个人的生日需要与第一个不同,则有 364 种可能;第三个人的生日需与前两人不同,则有 363 种可能……依此类推。所有人生日都不同的概率为:

\begin{equation} P(\text{不同}) = \frac{365}{365} \cdot \frac{364}{365} \cdot \frac{363}{365} \cdots \frac{343}{365}\approx49.27\%~. \end{equation}

   至少两人生日相同的概率可以通过补集计算得到:

\begin{equation} P(\text{相同})= 1 - P(\text{不同})\approx50.73\%~. \end{equation}

   这一结果之所以显得反直觉,核心在于概率的 “非线性增长”。人们往往直观地将概率理解为线性累加,但在实际问题中,事件之间的组合复杂性和交互性使得可形成配对的组合数量随着取样数迅速增加,从而显著提升了总体概率。

例 2 某种生育策略下的男女比例

   一个村子中的人,因为特别喜欢男孩,统一采用下面的生育策略:如果生的是女孩的话,就再生一个孩子,直到生出一个男孩为止。这样许多年后,这个村子的男女比例是多少?

   一些人可能会直觉认为,由于生育策略偏向男孩,这样的行为会导致村子中男孩显著多于女孩。也有一些人可能会直觉认为,由于一个男孩之前可能会出现多个女孩,而一家只会有一个男孩,这样的行为会导致村子中女孩显著多于男孩。然而,在题目的前提下,这两种直觉是错误的。在男女等可能出生的情况下,上述的生育策略得到的男女期望比例仍保持 $1:1$。

   为了更细致地讨论各种情况的影响,下面假设人们观念中的最大生育数量是 $M$,即生育数量存在一个上限 $M$。男孩出生的可能性为 $p\in[0,1]$,则有:

表1:生育可能性表
孩子数 情况的概率 女孩数 男孩数
1 $p$ 0 1
2 $p(1-p)$ 1 1
3 $p(1-p)^2$ 2 1
$\vdots$ $\vdots$ $\vdots$ $\vdots$
$M-1$ $p(1-p)^{M-2}$ $M-2$ 1
$M$ $p(1-p)^{M-1}$ $M-1$ 1
$M$ $(1-p)^M$ $M$ 0

   上表中,对于每种可能的生育情况,女孩数依次递增,但其发生概率随之指数递减。根据定义,期望就是把概率和数量相乘之后求和。女孩数的期望值可以表示为:

\begin{equation} \text{E}(\text{女}) =\sum_{n=1}^{M-1} np(1-p)^n+M(1-p)^M={1-p\over p}\left(1-(1-p)^M\right)~. \end{equation}

   理论上,无论发生何种情况,最终一定会生出一个男孩,但由于限定了最大生育数 $M$,因此存在 $M$ 个孩子是女孩的情况,因此男孩数的期望值为:

\begin{equation} \text{E}(\text{男}) =\sum_{n=1}^M p(1-p)^n= 1-(1-p)^M~. \end{equation}

   可以看出,上面两者的期望值事实上只相差一个系数,比值为:

\begin{equation} \text{男女比} = \frac{\text{E}(\text{男})}{\text{E}(\text{女})} = \frac{p}{1-p}~. \end{equation}

   可以看出,这个期望的比例并不因人们预期生育的孩子数量而变化。而在此条件下,每个家庭实际所生孩子的个数的期望值为:

\begin{equation} \text{E}(\text{男})+\text{E}(\text{女})={1\over p}\left(1-(1-p)^M\right)~. \end{equation}

   也即实际出生孩子的个数期望与男孩出生可能性和最大生育数量相关。一般生活中,假设男孩和女孩出生的概率相等($\displaystyle p = \frac{1}{2}$),代入式 5 可以的到男女比例为 $1:1$,此时,二者的期望均为:

\begin{equation} \text{E}(\text{男})=\text{E}(\text{女})=1-\frac{1}{2^M}~. \end{equation}

   这一结果之所以与直觉不符,主要在于人们倾向于将女孩数量的递增与实际发生概率的递减割裂开来思考。直觉上,假如每生一个女孩就继续生育,女孩的数量似乎会不断增加,从而使得女孩的总数量显著高于男孩。然而,问题的核心在于,每次多生一个女孩的概率是指数级递减的,如 $p(1-p)$、$p(1-p)^2$ 等。这种递减性使得每次增加的女孩数量对总期望值的贡献越来越小,最终刚好抵消了数量的累积效应。

   进一步来看,如果取消生育数量的上限,即令 $M \to \infty$,数学上的期望值仍然显示每对父母平均会生出一个男孩和一个女孩。这也符合题意中无论前面生了多少女孩,生育会在生出第一个男孩时停止,即男孩一定会出生一个,的描述。

   这种生育策略的大范围使用并不会改变大样本中的性别比例。性别比例的根本决定因素是出生性别的自然概率 $p$ 或者说某个性别个体存活下来的概率。这一现象也说明了人们对随机事件的直觉往往会高估局部行为对整体结果的影响,而低估概率分布的整体性特征和数学上的平衡性。这样的反直觉结果提醒我们,在面对复杂随机性问题时,需通过逻辑和计算验证直觉,避免因片面观察而得出错误结论。

2. 定义模糊带来的反直觉现象

例 3 性别推断

   老王家有两个孩子,其中一个孩子是男孩,那么另一个孩子也是男孩的概率是多少?

   直觉上,人们通常会认为如果一个家庭有两个孩子,并且已经知道其中一个是男孩,那么另一个孩子是男孩的概率应该是 $50\%$。这一想法的依据是:两个孩子的性别独立,因此对第二个孩子来说,性别仍然是等概率的。然而,这种直觉忽略了一个关键因素:问题中的 “其中一个是男孩” 有可能提供了额外信息,进而改变了概率。

   事实上,前面所说的直觉是指,如果是 “随机选一个孩子知道他是男孩”,那么另一个孩子是男孩的概率是 $50\%$。但如果表达的是 “已知至少有一个男孩”,则为 $\displaystyle \frac{1}{3}$。这是两种截然不同的情况。

   假设两个孩子的性别独立,而每个孩子是男孩或女孩的可能性相同,那么家庭中孩子的可能组合为:

   现在问题中明确给出了 “至少有一个是男孩” 的条件,这意味着家庭中不存在 “女孩-女孩” 的组合,因此可以排除这种情况。于是,在新的样本空间中,“两个都是男孩” 的可能性变得更小了,即只有一种是两个都是男孩,因此概率是 $\displaystyle\frac{1}{3}$。

   而直觉中的表述对应的条件仅影响选中的个体,与另一个孩子无关,因此概率是 $\displaystyle\frac{1}{2}$。

例 4 贝特朗悖论(Bertrand's Paradox)

   在圆里随机选取一条弦,它的长度大于圆内接正三角形边长的概率是多少?

   每个人会根据自己的理解给出某个数字,但事实上,实际概率的结果和弦的选择方式密切相关,这是一个非常经典的定义不清问题。下面的三种理解,可以得到三种不同的结论,而且在其他信息给出之前,并不能说明哪个方法更好:

   第一种方法保使得弦的中点看上去是均匀的,第二种方法符合大多数人的直觉,第三种方法使得弦看上去是均匀的。这个悖论由约瑟·伯特兰在 1889 于他的著作《Calcul des probabilités》中提出。他举出这个悖论就是想指出,如果分析的概率课题涉及到无限大的样本空间时,如果不能够谨慎地给出 “每个事件发生的机会皆相同” 的原则,或者说 “等可能、随机” 一类的词出现在无限的可能中时,是有可能引发理解上的偏差,进而导致错误的。

3. 条件概率带来的反直觉现象

例 5 贝叶斯医生问题

   假设有一种疾病,患病概率是 $1\%$,诊断测试的准确率为 $99\%$(即,如果检测者是阳性,那么检测出是阳性以及如果检测者是阴性,那么检测出是阴性的可能性都是 $99\%$)。现在一个随机人测试结果为阳性,他实际患病的概率是多少?

   一般人的直觉猜想可能是:“测试准确率是 $99\%$,那么阳性结果对应的患病概率也应该是 $99\%$。” 这种直觉源于人们倾向于将测试准确率等同于阳性结果的可靠性,而忽略了患病的先验概率和假阳性率的影响。这种误解在低患病率的情况下尤为常见,导致对阳性结果的实际意义产生偏差。事实上,这种情况病人的患病率只有 $50\%$。这一结果乍看之下可能令人困惑,但通过贝叶斯定理,可以清楚地揭示这一现象背后的原因。

   贝叶斯定理的核心思想是利用先验概率(疾病在测试前的可能性)和条件概率(测试准确性),结合测试结果计算后验概率(实际患病的可能性)。从题目中可以知道:

   通过贝叶斯公式计算患病的后验概率:

\begin{equation} P(\text{患病}|\text{阳性}) = \frac{P(\text{阳性}|\text{患病}) \cdot P(\text{患病})}{P(\text{阳性})}~. \end{equation}

   总阳性概率 $P(\text{阳性})$ 是两部分的和:

\begin{equation} P(\text{阳性}) = P(\text{阳性}|\text{患病}) \cdot P(\text{患病}) + P(\text{阳性}|\text{未患病}) \cdot P(\text{未患病})~. \end{equation}

   代入已知条件可以得到实际患病概率为:

\begin{equation} P(\text{患病}|\text{阳性}) = \frac{0.99 \cdot 0.01}{(0.99 \cdot 0.01) + (0.01 \cdot 0.99)}= 50\%~. \end{equation}

   这一现象广泛存在于医学、工程和风险评估领域,对实际生活中的医学诊断具有重要启发:

例 6 三门问题

   在一个游戏中,你面前有三个门,其中一扇后面有车,另外两扇后面是山羊。选手选定一个门后,主持人会打开另一个有山羊的门,并问选手是否愿意换门。请问:换门是否会增加赢得汽车的概率?或者说是否需要换门。

   很多人会认为,主持人打开一扇有山羊的门后,剩下两扇门中的汽车概率应该各为 $\displaystyle\frac{1}{2}$,因此换门与否并没有区别。这种直觉源于对主持人行为的误解:主持人的选择并非随机,而是受选手初始选择的约束。这一约束改变了概率分布,使得换门成为更优策略。

   计算一下,初始选择时,选手选中汽车的概率是 $\displaystyle\frac{1}{3}$,选中山羊的概率是 $\displaystyle\frac{2}{3}$。当主持人打开一个有山羊的门后,如果选手最初选中的是山羊,换门后必定赢得汽车。如果选手最初选中的是汽车,换门后必定输掉汽车。因此,换门的成功概率等于最初选到山羊的概率,即 $\displaystyle\frac{2}{3}$;而不换门的成功概率等于最初选到汽车的概率,即 $\displaystyle\frac{1}{3}$。显然,换门能够大幅提升赢得汽车的概率。

   选手初始选择时,事实上汽车和山羊的概率已经分别确定为 $\displaystyle\frac{1}{3}$ 和 $\displaystyle\frac{2}{3}$,主持人行为只是将这两部分概率重新分配到剩余门上,而没有改变它们的总量。或者说,主持人打开一扇门后,剩余门的概率分配并不是对等的。通过换门,选手实际是利用主持人的行为暴露了信息,将自己的获胜概率从初始的 $\displaystyle\frac{1}{3}$ 提升到了 $\displaystyle\frac{2}{3}$。

   或者也可以将问题扩大来理解,如果有 100 扇门,选择一扇门之后,第一次选择正确的可能性是 $1\%$,主持人关掉 98 扇,那么此时,当前选择正确的可能性仍然是 $1\%$,而剩下的可能性,也即 $99\%$ 则全部都集中在另一扇门上了。


致读者: 小时百科一直以来坚持所有内容免费无广告,这导致我们处于严重的亏损状态。 长此以往很可能会最终导致我们不得不选择大量广告以及内容付费等。 因此,我们请求广大读者热心打赏 ,使网站得以健康发展。 如果看到这条信息的每位读者能慷慨打赏 20 元,我们一周就能脱离亏损, 并在接下来的一年里向所有读者继续免费提供优质内容。 但遗憾的是只有不到 1% 的读者愿意捐款, 他们的付出帮助了 99% 的读者免费获取知识, 我们在此表示感谢。

                     

友情链接: 超理论坛 | ©小时科技 保留一切权利