引入
旧版的高中数学教材中并没有提到全概率公式和贝叶斯公式,只是简单的介绍了条件概率,并且不是考试的重点内容。
但随着新教材的推行,越来越多的模拟卷中出现了贝叶斯公式的相关内容,甚至旧教材的模拟卷也在大题中开始考察条件概率,因此在这里做一个总结。
条件概率
我周围的很多同学对条件概率都处于半懂不懂的阶段,比较典型的情况是分不清 $P(AB)$ 与 $P(A \mid B)$。事实上,这二者的样本空间是不同的。一个很经典的问题是:已知一对父母生了两个孩子,已知其中一个是男孩,则另一个也是男孩的概率是多少?很多人在不经过思考的情况下会脱口而出 $0.5$,但实际上答案是 $0.75$;而若把问题改为已知第一个孩子是男孩,求第二个孩子也是男孩的概率,答案就是 $0.5$。
我最近做到了一道关于条件概率的题目,内容如下:某种疾病的患病率为 $0.4 \%$,血检阳性概率为 $1\%$,患该疾病者血检阳性的概率为 $99\%$,已知某人血检呈阳性,求此人患该疾病的概率。这道题全年级做对的人数仅有个位数,但它其实是一道十分基础的条件概率题目。设患该疾病为 $A$,血检阳性为 $B$,则 $P(A) = 0.4\%$,$P(B) = 1\%$,$P(B \mid A) = 99\%$,$P(AB) = P(B \mid A) \cdot P(A) = 39.6 \%$,答案为 $P(A \mid B) = \dfrac{P(AB)}{P(B)} = 39.6 \%$。
全概率公式
设 $B_i$ 和 $B_j$ 互斥且 $B_1 + B_2 + \cdots + B_n = \Omega$,则 $P(A) = P(A \Omega) = P(AB_1) + P(AB_2) + \cdots + P(AB_n)$,这种写法并不少见,在证明若 $A$ 和 $B$ 独立,则 $\overline A$ 和 $\overline B$ 独立时用到过,不过肯定有很多人不会证。
根据条件概率公式,$P(AB_i) = P(A \mid B_i)P(B_i)$,于是上式可以写成 $P(A) = \sum \limits_{i = 1}^n P(B_i)P(A \mid B_i)$,这便是全概率公式。
总的来看,全概率公式允许我们将 $P(A)$ 分成若干种较容易的情况计算。从另一方面理解,我们可以把 $B_i$ 看做导致 $A$ 发生的一种可能途径,而 $P(A \mid B_i)$ 刻画了不同途径发生的概率。
我们考虑下面这个情况:设一个家庭有 $k$ 个小孩的概率为 $p_k$,求家庭中所有小孩都为同一性别的概率。设事件 $A$ 表示家庭中所有小孩为同一性别,$B_i$ 表示家庭中有 $i$ 个小孩,由全概率公式,$P(A) = \sum \limits_{i \ge 1} P(B_i)P(A \mid B_i) = p_i \cdot 2 \cdot (0.5)^i = \sum \limits_{i \ge 1} \dfrac{p_i}{2^{i - 1}}$。
贝叶斯公式
对全概率公式再做变形,就得到贝叶斯公式:$P(B_i \mid A) = \dfrac{P(AB_i)}{P(A)} = \dfrac{P(B_i)P(A \mid B_i)}{\sum \limits_j P(B_j)P(A \mid B_j)}$。
这个公式在我的脑海中是概率论最为著名的公式之一,在知道了 $A$ 发生之后,$B_i$ 发生的可能性出现了变化。在生活中也有类似的情况:原本概率极小的事件,在经过某件事的发生之后,概率会变得很大。就比如我打开手机玩音游,玩 Arcaea 的可能性不大,但如果我又说刚才看了谜语人剧情,那么我玩 Arcaea 的可能性就变大了许多。
下面是一道模拟卷中的题目:临床上有某种实验诊断实验者是否患有某种癌症,设 $A$ 表示试验结果为阳性,$B$ 表示试验者患有癌症,已知 $P(A \mid B) = 0.99$,$P(\overline A \mid \overline B) = 0.98$,某地人群患癌症的概率为 $0.001$,某人试验结果为阳性,求此人患癌症的概率。由贝叶斯公式,$P(B \mid A) = \dfrac{P(B)P(A \mid B)}{P(B)P(A \mid B) + P(\overline B) P(A \mid \overline B)} = \dfrac{11}{233}$。
回过头来看我们算出来的答案,这个人试验结果为阳性,按理来说应有很大的概率患癌症,但实际上他患癌症的概率只有 $4.7 \%$ 左右。从直观上理解,患癌症的概率实在太小,相比之下试验出错的概率就大得多了,因此即使试验结果为阳性,患癌症的概率也很低。这大概能体现贝叶斯公式哲理的一面吧。