跳转到内容

S2 第一章:二项分布

欢迎来到数学侦探的世界!今天,我们将穿越回 1654 年的法国,化身当时的数学家,去解决一个困扰了那个时代最聪明头脑的谜题。这个挑战不仅催生了数学的一个全新分支,也直接引出了我们本章的核心主题:二项分布(The Binomial Distribution)

故事的主角是两位实力相当的骑士,他们正在进行一场比赛,却突然被迫中断,由此产生的问题将彻底改变数学思维的发展轨迹。

第一幕:中断的比赛 — 历史的难题

Section titled “第一幕:中断的比赛 — 历史的难题”

背景:点数分配问题(The Problem of Points)

Section titled “背景:点数分配问题(The Problem of Points)”

想象一下:两位实力相当的骑士——安托万(Antoine)布莱士(Blaise)——在法国王宫中正在进行掷骰子比赛。规则非常简单:

  • 先赢得 3 局的骑士获得全部 64 枚金币
  • 每局比赛双方获胜概率相等
  • 各局之间相互独立

当前比分: 安托万以 2:1 领先。

突然,国王的召唤到了!两位骑士必须立刻觐见,比赛必须马上终止。这就产生了一个核心难题:

在深入数学解答之前,我们先来看看几种直觉上的方法:

第二幕:天才的解答 — 数学巨人之间的通信

Section titled “第二幕:天才的解答 — 数学巨人之间的通信”

骑士布莱士(他恰好就是数学家布莱士·帕斯卡)写信给他的朋友皮埃尔·德·费马寻求解答。他们的通信揭示了一个革命性的洞察:

要应用这个洞察,我们需要确定每位骑士还需要赢多少:

  • 安托万还需要赢 1 局就能达到 3 局总胜场
  • 布莱士还需要赢 2 局才能达到 3 局总胜场

由于双方实力相当(p=0.5p = 0.5),且各局独立,我们可以重新表述问题:

比赛最多在 2 局内就会结束。让我们列出所有可能的序列:

树形图:

Game Tree

序列分析:

  • A: 安托万在第 1 局获胜 → 比赛结束,安托万赢(P=0.5P = 0.5
  • BA: 布莱士赢第 1 局,安托万赢第 2 局 → 安托万赢(P=0.5×0.5=0.25P = 0.5 \times 0.5 = 0.25
  • BB: 布莱士两局全赢 → 布莱士赢(P=0.5×0.5=0.25P = 0.5 \times 0.5 = 0.25

P(安托万最终获胜)=P(A)+P(BA)=0.5+(0.5×0.5)=0.75P(\text{安托万最终获胜}) = P(A) + P(BA) = 0.5 + (0.5 \times 0.5) = 0.75

P(布莱士最终获胜)=P(BB)=0.5×0.5=0.25P(\text{布莱士最终获胜}) = P(BB) = 0.5 \times 0.5 = 0.25

公平分配: 64 枚金币应按 0.75:0.25=3:10.75 : 0.25 = 3:1 的比例分配

  • 安托万获得:64×0.75=4864 \times 0.75 = 48
  • 布莱士获得:64×0.25=1664 \times 0.25 = 16

雅各布·伯努利(Jacob Bernoulli)将这种”固定次数、独立试验、恒定成功概率”的模型推广,创造出了我们现在所说的二项分布。卡尔·弗里德里希·高斯后来发现,这个概率序列恰好对应二项展开式 (p+q)n(p + q)^n 中的各项(其中 q=1pq = 1-p),因此得名。

定义:二项分布

随机变量 XX 服从二项分布,记作 XB(n,p)X \sim B(n,p),如果它满足 BINS 条件:

  1. Binary(二项结果):每次试验恰好有两种可能结果(成功/失败)
  2. Independence(独立性):各试验相互独立
  3. Number fixed(次数固定):试验次数 nn 是预先确定的
  4. Same probability(概率相同):每次试验的成功概率 pp 保持不变

其中:

  • nn = 试验次数
  • pp = 每次试验的成功概率
  • XX = nn 次试验中的成功次数

定理:二项概率质量函数

对于 XB(n,p)X \sim B(n,p),恰好 rr 次成功的概率为:

P(X=r)=(nr)pr(1p)nrP(X = r) = \binom{n}{r}p^r(1-p)^{n-r}

其中 r=0,1,2,,nr = 0, 1, 2, \ldots, n,且 (nr)=n!r!(nr)!\binom{n}{r} = \frac{n!}{r!(n-r)!}

定理:期望与方差

对于 XB(n,p)X \sim B(n,p)

  • 期望值:E(X)=npE(X) = np
  • 方差:Var(X)=np(1p)\text{Var}(X) = np(1-p)

模式识别: 在我们的开篇问题中,安托万获胜等价于他在接下来的 2 局可能比赛中至少赢 1 局

如果我们设 XX = 安托万在接下来的 2 局中赢的局数,则 XB(2,0.5)X \sim B(2, 0.5)

使用二项概率公式:

P(X1)=P(X=1)+P(X=2)P(X=1)=(21)(0.5)1(0.5)1=2×0.25=0.5P(X=2)=(22)(0.5)2(0.5)0=1×0.25=0.25P(X1)=0.5+0.25=0.75\begin{aligned} P(X \geq 1) &= P(X=1) + P(X=2) \\ P(X=1) &= \binom{2}{1}(0.5)^1(0.5)^1 = 2 \times 0.25 = 0.5 \\ P(X=2) &= \binom{2}{2}(0.5)^2(0.5)^0 = 1 \times 0.25 = 0.25 \\ P(X \geq 1) &= 0.5 + 0.25 = 0.75 \quad \checkmark \end{aligned}

这与我们穷举计算的结果完全一致,自然地引出了二项分布!

表中数值为 P(Xx)P(X \leq x),其中 XX 服从参数为 nnpp 的二项分布。

p =0.050.100.150.200.250.300.350.400.450.50
n=8, x=00.66340.43050.27250.16780.10010.05760.03190.01680.00840.0039
x=10.94280.81310.65720.50330.36710.25530.16910.10640.06320.0352
x=20.99420.96190.89480.79690.67850.55180.42780.31540.22010.1445
x=30.99960.99500.97860.94370.88620.80590.70640.59410.47700.3633
x=41.00000.99960.99710.98960.97270.94200.89390.82630.73960.6367
x=51.00001.00000.99980.99880.99580.98870.97470.95020.91150.8555
x=61.00001.00001.00000.99990.99960.99870.99640.99150.98190.9648
x=71.00001.00001.00001.00001.00000.99990.99980.99930.99830.9961

例题:CATL 电池生产

背景: 宁德时代(CATL)为电动汽车生产锂离子电池。根据历史数据,其生产流程的成功率为 95%,即每个电池独立地有 95% 的概率达到质量标准。

情境: 一批 50 个电池刚刚生产完成。

A 部分:基本概率问题

  1. 恰好有 48 个合格电池的概率是多少?
  2. 这批电池中次品的期望数量是多少?
  3. 次品数量的标准差是多少?

B 部分:质量控制决策

  1. 公司的政策是:如果一批产品中含有 4 个或更多次品元件,则拒绝该批次。这批被拒绝的概率是多少?
  2. 如果该批次被接受,其中最多含有 1 个次品的概率是多少?

C 部分:成本分析

  1. 每个次品元件的保修更换成本为 $20。这批的期望保修成本是多少?
  2. 如果公司希望有 90% 的把握保证这批的保修成本不超过 $100,当前的质量水平是否足够?

例题(June 05 Q1):

据估计,4%4\% 的人有绿眼睛。在一个大小为 nn 的随机样本中,绿眼睛人数的期望值为 55

  1. 计算 nn 的值。

第二个随机样本中绿眼睛人数的期望值为 3。

  1. 求第二个样本中绿眼睛人数的标准差。

例题(WST02/01/Jan17/1):

随机变量 XX 服从二项分布 B(20,0.45)B(20, 0.45)

  1. P(X=8)P(X= 8)
  2. XX 落在其均值一个标准差范围内的概率。

例题:基孔肯雅热检测

广东碧桂园学校 AL 高中决定对全校 1000 名学生进行基孔肯雅热检测。检测时,基孔肯雅热的患病率为 0.5%(即 0.005)。

检测特性:

  • 灵敏度: 95% — 如果学生患有基孔肯雅热,检测有 95% 的概率正确识别
  • 特异性: 98% — 如果学生没有患病,检测有 98% 的概率正确判定为阴性
  1. XX 为实际患病学生人数。XX 服从什么分布?计算期望患病人数。

已知实际患病人数为 6:

  1. 在患病学生中,设 YY 为检测呈阳性的人数(真阳性)。YY 服从什么分布?计算 P(Y5)P(Y \geq 5)
  2. 在未患病学生中,设 ZZ 为检测呈阳性的人数(假阳性)。ZZ 服从什么分布?计算期望假阳性人数。
  3. 悖论: 如果随机选一名学生检测结果为阳性,其实际患病的概率是多少?利用之前的结果解释为什么会出现这种看似令人惊讶的结果。
  4. 学校决定对所有阳性病例进行第二次独立检测(相同灵敏度和特异性)。如果一名学生两次检测均为阳性,其实际患病的概率是多少?

正如帕斯卡和费马使用穷举法,伯努利为我们提供了强大的公式,现在我们追求最优雅、最统一的表达:概率生成函数(PGF)。这个非凡的工具可以从一个函数中”生成”所有概率、期望和方差,正如高斯发现二项展开时所做的那样。