跳转到内容

S2 第三章:近似方法与中心极限定理

欢迎各位数学解题爱好者!今天我们将踏上一段奇妙的旅程,探索数学精确性与实际计算之间的桥梁。我们将发现,历史上一些最伟大的数学家如何通过优雅的近似艺术,克服了看似无法逾越的计算难题。

我们的故事始于计算机诞生之前的时代——那时即使是简单的概率计算,也可能需要花费数小时甚至数天的繁琐运算。驱动数学创新的核心问题简单而深刻:我们如何化不可能为可能?

1. 计算危机:当精确变得不切实际

Section titled “1. 计算危机:当精确变得不切实际”

想象你是一位 19 世纪的保险精算师,需要计算风险概率来设定合理的保费。你需要从 B(1000,0.01)B(1000, 0.01)Po(25)\text{Po}(25) 这样的分布中计算概率。

在学习泊松分布时,我们已经知道:

定理(二项分布的泊松极限):nn \to \inftyp0p \to 0,同时保持 np=λnp = \lambda(常数)时:

B(n,p)Po(λ)B(n,p) \to \text{Po}(\lambda)

例 1(质量控制应用):

某工厂每天生产 1000 个零件,次品率为 0.005。恰好出现 5 个次品的概率是多少?

精确计算: P(X=5)P(X = 5),其中 XB(1000,0.005)X \sim B(1000, 0.005)

P(X=5)=(10005)×(0.005)5×(0.995)995P(X = 5) = \binom{1000}{5} \times (0.005)^5 \times (0.995)^{995}

这个计算非常繁琐!

泊松近似: 由于 n=1000n = 1000 较大、p=0.005p = 0.005 较小,且 np=510np = 5 \leq 10,我们可以使用:

XPo(5)(近似)X \sim \text{Po}(5) \text{(近似)} P(X=5)=e5×555!=e5×31251200.1755P(X = 5) = \frac{e^{-5} \times 5^5}{5!} = \frac{e^{-5} \times 3125}{120} \approx 0.1755

计算简单多了!

例 2(练习题):

在某个地区,95%95\% 的人口有乳糖不耐受。一项医学研究从该人群中随机选取了 8080 人。设 XX 表示没有乳糖不耐受的人数。

  1. 写出 P(X2)P(X \leq 2) 的精确表达式
  2. 解释为什么泊松近似适用于本题
  3. 使用泊松近似,估算 P(X2)P(X \leq 2)

解答:

定理(棣莫弗-拉普拉斯定理):XB(n,p)X \sim B(n,p),其中 nn 较大且 pp 不过于接近 0 或 1,则:

XapproxN(μ,σ2)X \stackrel{\text{approx}}{\sim} N(\mu, \sigma^2)

其中 μ=np\mu = npσ2=np(1p)\sigma^2 = np(1-p)

经验法则:np>5np > 5n(1p)>5n(1-p) > 5 时使用。

视觉演示:正态近似的拟合效果

Section titled “视觉演示:正态近似的拟合效果”

二项分布 B(50, 0.3) 与正态分布的叠加

想象一张 B(50, 0.3) 的柱状图,上面叠加了一条红色的正态曲线 N(15, 10.5)——两者吻合得非常好。

均值 = 15,方差 = 10.5

正如二项分布在参数增大时趋向正态分布,泊松分布在参数较大时也是如此。

定理(泊松分布的正态近似):XPo(λ)X \sim \text{Po}(\lambda),其中 λ\lambda 较大(通常 λ>10\lambda > 10),则:

XapproxN(λ,λ)X \stackrel{\text{approx}}{\sim} N(\lambda, \lambda)

注意这个优美的性质:对泊松分布而言,均值等于方差!

泊松分布 Po(12) 与正态分布的叠加

想象一张 Po(12) 的柱状图,上面叠加了一条红色的正态曲线 N(12, 12)——同样拟合得非常好。

均值 = 方差 = 12

4. 连续性修正:离散与连续之间的桥梁

Section titled “4. 连续性修正:离散与连续之间的桥梁”

当我们用连续分布近似离散分布时,会面临一个概念性的问题:

定理(连续性修正): 当用连续分布近似离散分布时,使用以下转换:

离散形式连续近似
P(X=a)P(X = a)P(a0.5<Y<a+0.5)P(a - 0.5 < Y < a + 0.5)
P(Xa)P(X \leq a)P(Y<a+0.5)P(Y < a + 0.5)
P(X<a)P(X < a)P(Y<a0.5)P(Y < a - 0.5)
P(Xa)P(X \geq a)P(Y>a0.5)P(Y > a - 0.5)
P(X>a)P(X > a)P(Y>a+0.5)P(Y > a + 0.5)

例 3(连续性修正的实际应用):

二项随机变量 XB(100,0.3)X \sim B(100, 0.3)YN(30,21)Y \sim N(30, 21) 近似。求 P(X=25)P(X = 25)

不使用连续性修正: P(Y=25)=0P(Y = 25) = 0(毫无意义!)

使用连续性修正:

P(X=25)P(24.5<Y<25.5)P(X = 25) \approx P(24.5 < Y < 25.5)

这样就得到了一个有意义的近似结果,考虑到了原始分布的离散性。

例 4:

对以下每种情形,确定最合适的近似方法:

  1. XB(50,0.02)X \sim B(50, 0.02),求 P(X=2)P(X = 2)
  2. XB(200,0.4)X \sim B(200, 0.4),求 P(180X190)P(180 \leq X \leq 190)
  3. XPo(15)X \sim \text{Po}(15),求 P(X>20)P(X > 20)

解答:

例 5:

一家糖果公司生产巧克力棒,在一次特别促销活动中,20%20\% 的巧克力棒里放了金券。一家便利店收到了 6060 根巧克力棒。

    1. 写出一个合适的分布来描述含金券的巧克力棒数量。
    2. 说明该模型成立的一个假设条件。
  1. 求恰好 1515 根巧克力棒含有金券的概率。
  2. 使用带连续性修正的正态近似,估算少于 1010 根巧克力棒含有金券的概率。
  3. 店主希望有 90%90\% 的把握至少有 88 位顾客能找到金券。这批货物是否足够?请展示计算过程。

解答:

练习 1(WST02/01/Jan15/7):

一份选择题试卷有 nn 道题,其中 n>30n > 30

每道题有 55 个选项,其中只有 11 个正确。答对 3030 道或以上即为通过。

通过随机猜测每道题的答案来获得通过的概率不应超过 0.02280.0228

使用正态近似求出最多可以有多少道题。


练习 2(WST02/01/Jan16/3):

左撇子占某人群的 10%10\%。从该人群中随机抽取了 6060 人的样本。离散随机变量 YY 表示样本中左撇子的人数。

    1. 写出 P(Y1)P(Y \leq 1) 的精确表达式。
    2. 计算该表达式的值,结果保留 3 位有效数字。
  1. 使用泊松近似,估算 P(Y1)P(Y \leq 1)
  2. 使用正态近似,估算 P(Y1)P(Y \leq 1)
  3. 给出一个理由,说明为什么泊松近似是 P(Y1)P(Y \leq 1) 的更合适估计。

练习 3(WST02/01/Jan17/3):

  1. 说明在什么条件下正态分布可以用来近似泊松分布。

某机场航站楼每周报告的急救事件数量服从均值为 3.5 的泊松分布。

  1. 求随机选取的一周内报告的急救事件的众数。请说明理由。

随机变量 XX 表示该机场航站楼在未来 2 周内报告的急救事件数量。

  1. P(X>5)P(X > 5)
  2. 已知在某 2 周期间恰好有 6 起急救事件报告,求第一周恰好报告了 4 起的概率。
  3. 使用合适的近似方法,求在未来 40 周内至少有 120 起急救事件报告的概率。

练习 4(WST02/01/June17/2):

Crispy-crisps 生产袋装薯片。在一次促销活动中,25%25\% 的包装袋中放入了奖品。每个包装袋中最多放入 11 个奖品。一箱包含 66 袋薯片。

    1. 写出一个合适的分布来描述一箱中奖品的数量。
    2. 写出该模型成立的一个假设条件。
  1. 求在随机选取的 22 箱中,恰好只有 11 箱含有恰好 11 个奖品的概率。
  2. 求随机选取的一箱至少含有 22 个奖品的概率。

Neha 买了 8080 箱薯片。

  1. 使用正态近似,求不超过 3030 箱含有至少 22 个奖品的概率。

我们所有的近似方法都指向一个更深层的真理——这是整个数学中最重要的定理之一:

定理(中心极限定理):X1,X2,,XnX_1, X_2, \ldots, X_n 是独立同分布的随机变量,具有有限的均值 μ\mu 和方差 σ2\sigma^2

nn \to \infty 时,和 Sn=X1+X2++XnS_n = X_1 + X_2 + \cdots + X_n 趋近于正态分布:

SnapproxN(nμ,nσ2)S_n \stackrel{\text{approx}}{\sim} N(n\mu, n\sigma^2)

等价地,标准化后的和:

Zn=SnnμσnapproxN(0,1)Z_n = \frac{S_n - n\mu}{\sigma\sqrt{n}} \stackrel{\text{approx}}{\sim} N(0,1)

通过骰子发现中心极限定理:一段视觉之旅

Section titled “通过骰子发现中心极限定理:一段视觉之旅”

让我们用掷骰子这个简单的例子来见证中心极限定理的魔力。

例 6(掷骰子与正态性的发现):

考虑掷一颗公平的六面骰子。结果 XX 具有:

  • 均匀分布:P(X=k)=16P(X = k) = \frac{1}{6},其中 k=1,2,3,4,5,6k = 1, 2, 3, 4, 5, 6
  • 均值:E(X)=3.5E(X) = 3.5,方差:Var(X)=35122.92\text{Var}(X) = \frac{35}{12} \approx 2.92

练习:计算 n = 2 时的分布

现在让我们掷两颗独立的骰子,求它们的和 S2=X1+X2S_2 = X_1 + X_2

  1. 完成下表,找出所有可能的结果及其和:
X1\X2X_1 \backslash X_2123456
1
2
3
4
5
6
  1. 统计每个和出现的频率,完成概率分布表:
S2S_223456789101112
频率
P(S2=k)P(S_2 = k)
  1. 利用和的性质计算 E(S2)E(S_2)Var(S2)\text{Var}(S_2)

E(S2)=E(X1)+E(X2)=E(S_2) = E(X_1) + E(X_2) = ______

Var(S2)=Var(X1)+Var(X2)=\text{Var}(S_2) = \text{Var}(X_1) + \text{Var}(X_2) = ______

关键观察: 即使只有两颗骰子,我们也能看到分布从均匀(平坦)转变为三角形(有峰值)。这正是通往正态分布之旅的起点!

中心极限定理的视觉之旅:

想象三张并排的直方图:

  • n = 1:完全均匀——平坦的矩形,均值 = 3.5
  • n = 2:三角形出现——峰值开始形成,均值 = 7.0
  • n 很大:优美的钟形曲线——恰好是正态分布,均值 = 3.5n

将中心极限定理与前面的工作联系起来

Section titled “将中心极限定理与前面的工作联系起来”

现在我们可以理解为什么我们的近似方法如此有效:

例 7(为什么二项分布变成正态分布):

回忆一下,如果 XBinomial(n,p)X \sim \text{Binomial}(n,p),那么 XX 可以写成:

X=Y1+Y2++YnX = Y_1 + Y_2 + \cdots + Y_n

其中每个 YiBernoulli(p)Y_i \sim \text{Bernoulli}(p) 且相互独立。

由中心极限定理,当 nn 很大时:

X=i=1nYiapproxN(np,np(1p))X = \sum_{i=1}^{n} Y_i \stackrel{\text{approx}}{\sim} N(n \cdot p, n \cdot p(1-p))

这正是我们之前使用的棣莫弗-拉普拉斯定理!

例 8(为什么泊松分布变成正态分布):

类似地,如果 XPoisson(λ)X \sim \text{Poisson}(\lambda),我们可以将 XX 表示为许多小的独立泊松变量的和。

对于较大的 λ\lambda,我们可以将 XX 写成 nn 个独立的 Poisson(λ/n)\text{Poisson}(\lambda/n) 变量的和。由中心极限定理:

XapproxN(λ,λ)X \stackrel{\text{approx}}{\sim} N(\lambda, \lambda)

这就解释了我们对泊松分布的正态近似!

中心极限定理的力量:实际应用

Section titled “中心极限定理的力量:实际应用”

例 9(中心极限定理的实际应用:质量控制):

一家工厂生产的产品,其最终重量受到以下因素的影响:

  • 原材料的变化
  • 机器校准的漂移
  • 温度的波动
  • 操作员的差异
  • 测量误差
  • ……以及其他许多微小因素

即使每个单独因素的分布完全不同,总效应(所有因素的和)在中心极限定理的作用下将近似服从正态分布。

这就是为什么质量控制图总是假设正态分布!

数学之美: 中心极限定理揭示了随机性中蕴藏的基本和谐——无论单个组成部分多么混乱,它们的集体行为总是趋向同一个普适模式:正态分布是自然界中随机性的”吸引子”。