欢迎来到数学侦探的世界!今天,我们将穿越回 1654 年的法国,化身当时的数学家,去解决一个困扰了那个时代最聪明头脑的谜题。这个挑战不仅催生了数学的一个全新分支,也直接引出了我们本章的核心主题:二项分布(The Binomial Distribution)。
故事的主角是两位实力相当的骑士,他们正在进行一场比赛,却突然被迫中断,由此产生的问题将彻底改变数学思维的发展轨迹。
想象一下:两位实力相当的骑士——安托万(Antoine)和布莱士(Blaise)——在法国王宫中正在进行掷骰子比赛。规则非常简单:
- 先赢得 3 局的骑士获得全部 64 枚金币
- 每局比赛双方获胜概率相等
- 各局之间相互独立
当前比分: 安托万以 2:1 领先。
突然,国王的召唤到了!两位骑士必须立刻觐见,比赛必须马上终止。这就产生了一个核心难题:
在深入数学解答之前,我们先来看看几种直觉上的方法:
骑士布莱士(他恰好就是数学家布莱士·帕斯卡)写信给他的朋友皮埃尔·德·费马寻求解答。他们的通信揭示了一个革命性的洞察:
要应用这个洞察,我们需要确定每位骑士还需要赢多少:
- 安托万还需要赢 1 局就能达到 3 局总胜场
- 布莱士还需要赢 2 局才能达到 3 局总胜场
由于双方实力相当(p=0.5),且各局独立,我们可以重新表述问题:
比赛最多在 2 局内就会结束。让我们列出所有可能的序列:
树形图:

序列分析:
- A: 安托万在第 1 局获胜 → 比赛结束,安托万赢(P=0.5)
- BA: 布莱士赢第 1 局,安托万赢第 2 局 → 安托万赢(P=0.5×0.5=0.25)
- BB: 布莱士两局全赢 → 布莱士赢(P=0.5×0.5=0.25)
P(安托万最终获胜)=P(A)+P(BA)=0.5+(0.5×0.5)=0.75
P(布莱士最终获胜)=P(BB)=0.5×0.5=0.25
公平分配: 64 枚金币应按 0.75:0.25=3:1 的比例分配
- 安托万获得:64×0.75=48 枚
- 布莱士获得:64×0.25=16 枚
雅各布·伯努利(Jacob Bernoulli)将这种”固定次数、独立试验、恒定成功概率”的模型推广,创造出了我们现在所说的二项分布。卡尔·弗里德里希·高斯后来发现,这个概率序列恰好对应二项展开式 (p+q)n 中的各项(其中 q=1−p),因此得名。
定义:二项分布
随机变量 X 服从二项分布,记作 X∼B(n,p),如果它满足 BINS 条件:
- Binary(二项结果):每次试验恰好有两种可能结果(成功/失败)
- Independence(独立性):各试验相互独立
- Number fixed(次数固定):试验次数 n 是预先确定的
- Same probability(概率相同):每次试验的成功概率 p 保持不变
其中:
- n = 试验次数
- p = 每次试验的成功概率
- X = n 次试验中的成功次数
定理:二项概率质量函数
对于 X∼B(n,p),恰好 r 次成功的概率为:
P(X=r)=(rn)pr(1−p)n−r
其中 r=0,1,2,…,n,且 (rn)=r!(n−r)!n!。
定理:期望与方差
对于 X∼B(n,p):
- 期望值:E(X)=np
- 方差:Var(X)=np(1−p)
模式识别: 在我们的开篇问题中,安托万获胜等价于他在接下来的 2 局可能比赛中至少赢 1 局。
如果我们设 X = 安托万在接下来的 2 局中赢的局数,则 X∼B(2,0.5)。
使用二项概率公式:
P(X≥1)P(X=1)P(X=2)P(X≥1)=P(X=1)+P(X=2)=(12)(0.5)1(0.5)1=2×0.25=0.5=(22)(0.5)2(0.5)0=1×0.25=0.25=0.5+0.25=0.75✓
这与我们穷举计算的结果完全一致,自然地引出了二项分布!
表中数值为 P(X≤x),其中 X 服从参数为 n 和 p 的二项分布。
| p = | 0.05 | 0.10 | 0.15 | 0.20 | 0.25 | 0.30 | 0.35 | 0.40 | 0.45 | 0.50 |
|---|
| n=8, x=0 | 0.6634 | 0.4305 | 0.2725 | 0.1678 | 0.1001 | 0.0576 | 0.0319 | 0.0168 | 0.0084 | 0.0039 |
| x=1 | 0.9428 | 0.8131 | 0.6572 | 0.5033 | 0.3671 | 0.2553 | 0.1691 | 0.1064 | 0.0632 | 0.0352 |
| x=2 | 0.9942 | 0.9619 | 0.8948 | 0.7969 | 0.6785 | 0.5518 | 0.4278 | 0.3154 | 0.2201 | 0.1445 |
| x=3 | 0.9996 | 0.9950 | 0.9786 | 0.9437 | 0.8862 | 0.8059 | 0.7064 | 0.5941 | 0.4770 | 0.3633 |
| x=4 | 1.0000 | 0.9996 | 0.9971 | 0.9896 | 0.9727 | 0.9420 | 0.8939 | 0.8263 | 0.7396 | 0.6367 |
| x=5 | 1.0000 | 1.0000 | 0.9998 | 0.9988 | 0.9958 | 0.9887 | 0.9747 | 0.9502 | 0.9115 | 0.8555 |
| x=6 | 1.0000 | 1.0000 | 1.0000 | 0.9999 | 0.9996 | 0.9987 | 0.9964 | 0.9915 | 0.9819 | 0.9648 |
| x=7 | 1.0000 | 1.0000 | 1.0000 | 1.0000 | 1.0000 | 0.9999 | 0.9998 | 0.9993 | 0.9983 | 0.9961 |
例题:CATL 电池生产
背景: 宁德时代(CATL)为电动汽车生产锂离子电池。根据历史数据,其生产流程的成功率为 95%,即每个电池独立地有 95% 的概率达到质量标准。
情境: 一批 50 个电池刚刚生产完成。
A 部分:基本概率问题
- 恰好有 48 个合格电池的概率是多少?
- 这批电池中次品的期望数量是多少?
- 次品数量的标准差是多少?
B 部分:质量控制决策
- 公司的政策是:如果一批产品中含有 4 个或更多次品元件,则拒绝该批次。这批被拒绝的概率是多少?
- 如果该批次被接受,其中最多含有 1 个次品的概率是多少?
C 部分:成本分析
- 每个次品元件的保修更换成本为 $20。这批的期望保修成本是多少?
- 如果公司希望有 90% 的把握保证这批的保修成本不超过 $100,当前的质量水平是否足够?
例题(June 05 Q1):
据估计,4% 的人有绿眼睛。在一个大小为 n 的随机样本中,绿眼睛人数的期望值为 5。
- 计算 n 的值。
第二个随机样本中绿眼睛人数的期望值为 3。
- 求第二个样本中绿眼睛人数的标准差。
例题(WST02/01/Jan17/1):
随机变量 X 服从二项分布 B(20,0.45)。
- 求 P(X=8)。
- 求 X 落在其均值一个标准差范围内的概率。
例题:基孔肯雅热检测
广东碧桂园学校 AL 高中决定对全校 1000 名学生进行基孔肯雅热检测。检测时,基孔肯雅热的患病率为 0.5%(即 0.005)。
检测特性:
- 灵敏度: 95% — 如果学生患有基孔肯雅热,检测有 95% 的概率正确识别
- 特异性: 98% — 如果学生没有患病,检测有 98% 的概率正确判定为阴性
- 设 X 为实际患病学生人数。X 服从什么分布?计算期望患病人数。
已知实际患病人数为 6:
- 在患病学生中,设 Y 为检测呈阳性的人数(真阳性)。Y 服从什么分布?计算 P(Y≥5)。
- 在未患病学生中,设 Z 为检测呈阳性的人数(假阳性)。Z 服从什么分布?计算期望假阳性人数。
- 悖论: 如果随机选一名学生检测结果为阳性,其实际患病的概率是多少?利用之前的结果解释为什么会出现这种看似令人惊讶的结果。
- 学校决定对所有阳性病例进行第二次独立检测(相同灵敏度和特异性)。如果一名学生两次检测均为阳性,其实际患病的概率是多少?
正如帕斯卡和费马使用穷举法,伯努利为我们提供了强大的公式,现在我们追求最优雅、最统一的表达:概率生成函数(PGF)。这个非凡的工具可以从一个函数中”生成”所有概率、期望和方差,正如高斯发现二项展开时所做的那样。