S2 第一章：二项分布

前言：穿越 1654 年的法国

欢迎来到数学侦探的世界！今天，我们将穿越回 1654 年的法国，化身当时的数学家，去解决一个困扰了那个时代最聪明头脑的谜题。这个挑战不仅催生了数学的一个全新分支，也直接引出了我们本章的核心主题：二项分布（The Binomial Distribution）。

故事的主角是两位实力相当的骑士，他们正在进行一场比赛，却突然被迫中断，由此产生的问题将彻底改变数学思维的发展轨迹。

第一幕：中断的比赛 — 历史的难题

背景：点数分配问题（The Problem of Points）

想象一下：两位实力相当的骑士——安托万（Antoine）和布莱士（Blaise）——在法国王宫中正在进行掷骰子比赛。规则非常简单：

先赢得 3 局的骑士获得全部 64 枚金币
每局比赛双方获胜概率相等
各局之间相互独立

当前比分： 安托万以 2:1 领先。

突然，国王的召唤到了！两位骑士必须立刻觐见，比赛必须马上终止。这就产生了一个核心难题：

学生投票：直觉方法

在深入数学解答之前，我们先来看看几种直觉上的方法：

第二幕：天才的解答 — 数学巨人之间的通信

革命性的洞察

骑士布莱士（他恰好就是数学家布莱士·帕斯卡）写信给他的朋友皮埃尔·德·费马寻求解答。他们的通信揭示了一个革命性的洞察：

重新表述问题

要应用这个洞察，我们需要确定每位骑士还需要赢多少：

安托万还需要赢 1 局就能达到 3 局总胜场
布莱士还需要赢 2 局才能达到 3 局总胜场

由于双方实力相当（ $p = 0.5$ ），且各局独立，我们可以重新表述问题：

数学解答

穷举分析

比赛最多在 2 局内就会结束。让我们列出所有可能的序列：

树形图：

Game Tree

序列分析：

A：安托万在第 1 局获胜 → 比赛结束，安托万赢（ $P = 0.5$ ）
BA： 布莱士赢第 1 局，安托万赢第 2 局 → 安托万赢（ $P = 0.5 \times 0.5 = 0.25$ ）
BB： 布莱士两局全赢 → 布莱士赢（ $P = 0.5 \times 0.5 = 0.25$ ）

概率计算

$P(\text{安托万最终获胜}) = P(A) + P(BA) = 0.5 + (0.5 \times 0.5) = 0.75$

$P(\text{布莱士最终获胜}) = P(BB) = 0.5 \times 0.5 = 0.25$

公平分配： 64 枚金币应按 $0.75 : 0.25 = 3:1$ 的比例分配

安托万获得： $64 \times 0.75 = 48$ 枚
布莱士获得： $64 \times 0.25 = 16$ 枚

深入探索：发现二项模式

引导式思考题

二项分布：正式框架

历史背景

雅各布·伯努利（Jacob Bernoulli）将这种”固定次数、独立试验、恒定成功概率”的模型推广，创造出了我们现在所说的二项分布。卡尔·弗里德里希·高斯后来发现，这个概率序列恰好对应二项展开式 $(p + q)^n$ 中的各项（其中 $q = 1-p$ ），因此得名。

定义：二项分布

随机变量 $X$ 服从二项分布，记作 $X \sim B(n,p)$ ，如果它满足 BINS 条件：

Binary（二项结果）：每次试验恰好有两种可能结果（成功/失败）
Independence（独立性）：各试验相互独立
Number fixed（次数固定）：试验次数 $n$ 是预先确定的
Same probability（概率相同）：每次试验的成功概率 $p$ 保持不变

其中：

$n$ = 试验次数
$p$ = 每次试验的成功概率
$X$ = $n$ 次试验中的成功次数

定理：二项概率质量函数

对于 $X \sim B(n,p)$ ，恰好 $r$ 次成功的概率为：

$P(X = r) = \binom{n}{r}p^r(1-p)^{n-r}$

其中 $r = 0, 1, 2, \ldots, n$ ，且 $\binom{n}{r} = \frac{n!}{r!(n-r)!}$ 。

定理：期望与方差

对于 $X \sim B(n,p)$ ：

期望值： $E(X) = np$
方差： $\text{Var}(X) = np(1-p)$

二项公式的诞生

模式识别： 在我们的开篇问题中，安托万获胜等价于他在接下来的 2 局可能比赛中至少赢 1 局。

如果我们设 $X$ = 安托万在接下来的 2 局中赢的局数，则 $X \sim B(2, 0.5)$ 。

使用二项概率公式：

\begin{aligned} P(X \geq 1) &= P(X=1) + P(X=2) \\ P(X=1) &= \binom{2}{1}(0.5)^1(0.5)^1 = 2 \times 0.25 = 0.5 \\ P(X=2) &= \binom{2}{2}(0.5)^2(0.5)^0 = 1 \times 0.25 = 0.25 \\ P(X \geq 1) &= 0.5 + 0.25 = 0.75 \quad \checkmark \end{aligned}

这与我们穷举计算的结果完全一致，自然地引出了二项分布！

引导练习：建立理解

二项累积分布表（节选）

表中数值为 $P(X \leq x)$ ，其中 $X$ 服从参数为 $n$ 和 $p$ 的二项分布。

p =	0.05	0.10	0.15	0.20	0.25	0.30	0.35	0.40	0.45	0.50
n=8, x=0	0.6634	0.4305	0.2725	0.1678	0.1001	0.0576	0.0319	0.0168	0.0084	0.0039
x=1	0.9428	0.8131	0.6572	0.5033	0.3671	0.2553	0.1691	0.1064	0.0632	0.0352
x=2	0.9942	0.9619	0.8948	0.7969	0.6785	0.5518	0.4278	0.3154	0.2201	0.1445
x=3	0.9996	0.9950	0.9786	0.9437	0.8862	0.8059	0.7064	0.5941	0.4770	0.3633
x=4	1.0000	0.9996	0.9971	0.9896	0.9727	0.9420	0.8939	0.8263	0.7396	0.6367
x=5	1.0000	1.0000	0.9998	0.9988	0.9958	0.9887	0.9747	0.9502	0.9115	0.8555
x=6	1.0000	1.0000	1.0000	0.9999	0.9996	0.9987	0.9964	0.9915	0.9819	0.9648
x=7	1.0000	1.0000	1.0000	1.0000	1.0000	0.9999	0.9998	0.9993	0.9983	0.9961

二项累积分布表给出 $P(X \leq x)$ 的值，其中 $X \sim B(n,p)$ 。我们来练习如何有效使用它。

情境： 一名质检员测试 8 个元件，每个元件有 0.15 的概率为次品。设 $X$ 为发现的次品数。

$P(X \leq 2)$ 是多少？（直接从表中读取）
求 $P(X > 2)$ 。提示： 使用 $P(X > 2) = 1 - P(X \leq 2)$
求 $P(X \geq 3)$ 。它与 $P(X > 2)$ 有什么关系？
求 $P(X = 2)$ 。提示： $P(X = 2) = P(X \leq 2) - P(X \leq 1)$
求 $P(1 \leq X \leq 3)$ 。策略： $P(1 \leq X \leq 3) = P(X \leq 3) - P(X \leq 0)$
求 $P(2 < X < 5)$ 。注意不等号！

解答： (留给学生作答)

关键公式：

$P(X = r) = P(X \leq r) - P(X \leq r-1)$
$P(X > r) = 1 - P(X \leq r)$
$P(X \geq r) = 1 - P(X \leq r-1)$
$P(a \leq X \leq b) = P(X \leq b) - P(X \leq a-1)$

应用

例题：CATL 电池生产

背景： 宁德时代（CATL）为电动汽车生产锂离子电池。根据历史数据，其生产流程的成功率为 95%，即每个电池独立地有 95% 的概率达到质量标准。

情境： 一批 50 个电池刚刚生产完成。

A 部分：基本概率问题

恰好有 48 个合格电池的概率是多少？
这批电池中次品的期望数量是多少？
次品数量的标准差是多少？

B 部分：质量控制决策

公司的政策是：如果一批产品中含有 4 个或更多次品元件，则拒绝该批次。这批被拒绝的概率是多少？
如果该批次被接受，其中最多含有 1 个次品的概率是多少？

C 部分：成本分析

每个次品元件的保修更换成本为 $20。这批的期望保修成本是多少？
如果公司希望有 90% 的把握保证这批的保修成本不超过 $100，当前的质量水平是否足够？

历年真题

例题（June 05 Q1）：

据估计， $4\%$ 的人有绿眼睛。在一个大小为 $n$ 的随机样本中，绿眼睛人数的期望值为 $5$ 。

计算 $n$ 的值。

第二个随机样本中绿眼睛人数的期望值为 3。

求第二个样本中绿眼睛人数的标准差。

例题（WST02/01/Jan17/1）：

随机变量 $X$ 服从二项分布 $B(20, 0.45)$ 。

求 $P(X= 8)$ 。
求 $X$ 落在其均值一个标准差范围内的概率。

例题：基孔肯雅热检测

广东碧桂园学校 AL 高中决定对全校 1000 名学生进行基孔肯雅热检测。检测时，基孔肯雅热的患病率为 0.5%（即 0.005）。

检测特性：

灵敏度： 95% — 如果学生患有基孔肯雅热，检测有 95% 的概率正确识别
特异性： 98% — 如果学生没有患病，检测有 98% 的概率正确判定为阴性

设 $X$ 为实际患病学生人数。 $X$ 服从什么分布？计算期望患病人数。

已知实际患病人数为 6：

在患病学生中，设 $Y$ 为检测呈阳性的人数（真阳性）。 $Y$ 服从什么分布？计算 $P(Y \geq 5)$ 。
在未患病学生中，设 $Z$ 为检测呈阳性的人数（假阳性）。 $Z$ 服从什么分布？计算期望假阳性人数。
悖论： 如果随机选一名学生检测结果为阳性，其实际患病的概率是多少？利用之前的结果解释为什么会出现这种看似令人惊讶的结果。
学校决定对所有阳性病例进行第二次独立检测（相同灵敏度和特异性）。如果一名学生两次检测均为阳性，其实际患病的概率是多少？

挑战任务：概率生成函数

正如帕斯卡和费马使用穷举法，伯努利为我们提供了强大的公式，现在我们追求最优雅、最统一的表达：概率生成函数（PGF）。这个非凡的工具可以从一个函数中”生成”所有概率、期望和方差，正如高斯发现二项展开时所做的那样。

PGF $G_X(t) = E(t^X) = \sum_{k=0}^{\infty} t^k P(X = k)$ 包含了我们分布的全部信息。你的任务：发现如何提取期望和方差！

A 部分：求期望

任务 1： 对 $G_X(t)$ 关于 $t$ 求导。你得到了什么？
任务 2： 在 $t = 1$ 处求值。
任务 3： 观察你得到的求和式。 $\sum_{k=0}^{\infty} k P(X = k)$ 代表什么统计量？
结论： 完成公式： $E(X) = G'_X( ? )$

B 部分：求方差

回忆 $\text{Var}(X) = E(X^2) - [E(X)]^2$ 。我们需要找到 $E(X^2)$ 。

任务 4： 求二阶导数 $G''_X(t)$ 并在 $t = 1$ 处求值。
任务 5： 你应该得到 $G''_X(1) = \sum_{k=0}^{\infty} k(k-1) P(X = k)$ 。展开 $k(k-1)$ 并将这个求和式用 $E(X^2)$ 和 $E(X)$ 表示。
任务 6： 利用你的结果，用 $G'_X(1)$ 和 $G''_X(1)$ 表示 $E(X^2)$ 。
最终任务： 使用 $\text{Var}(X) = E(X^2) - [E(X)]^2$ 推导方差公式。

关键性质： 如果 $X$ 和 $Y$ 是独立的随机变量，则：

$G_{X+Y}(t) = G_X(t) \cdot G_Y(t)$

应用： 设 $X \sim B(n_1, p)$ 和 $Y \sim B(n_2, p)$ 独立。求 $Z = X + Y$ 的分布。

写出 $G_X(t)$ 和 $G_Y(t)$
计算 $G_Z(t) = G_X(t) \cdot G_Y(t)$
从 $G_Z(t)$ 的形式， $Z$ 服从什么分布？

你的解答： (留给学生作答)

现实应用： 这个结果意味着，如果我们有多个具有相同成功概率的独立二项过程，它们的和也是二项分布。这对于建模以下场景至关重要：

合并不同团队的成功率
聚合多个实验的结果
将最初的骑士问题扩展到锦标赛