S2 第三章：近似方法与中心极限定理

前言：追求计算的简洁

欢迎各位数学解题爱好者！今天我们将踏上一段奇妙的旅程，探索数学精确性与实际计算之间的桥梁。我们将发现，历史上一些最伟大的数学家如何通过优雅的近似艺术，克服了看似无法逾越的计算难题。

我们的故事始于计算机诞生之前的时代——那时即使是简单的概率计算，也可能需要花费数小时甚至数天的繁琐运算。驱动数学创新的核心问题简单而深刻：我们如何化不可能为可能？

1. 计算危机：当精确变得不切实际

背景：19 世纪的困境

想象你是一位 19 世纪的保险精算师，需要计算风险概率来设定合理的保费。你需要从 $B(1000, 0.01)$ 或 $\text{Po}(25)$ 这样的分布中计算概率。

二项分布的噩梦： 求 $P(X = 50)$ ，其中 $X \sim B(1000, 0.01)$ ：

P(X = 50) = \binom{1000}{50} \times (0.01)^{50} \times (0.99)^{950}

这需要：

计算 $\binom{1000}{50} = \frac{1000!}{50! \times 950!}$ — 一个 158 位的数字！
计算 $(0.01)^{50} = 10^{-100}$ — 小到难以想象
计算 $(0.99)^{950}$ — 又一个复杂的运算

泊松分布的挑战： 求 $P(X \leq 30)$ ，其中 $X \sim \text{Po}(25)$ ：

P(X \leq 30) = \sum_{k=0}^{30} \frac{e^{-25} \times 25^k}{k!}

这需要计算 31 项，每一项都涉及阶乘和 25 的幂次！

2. 泊松近似：轻量级解决方案

回顾理论基础

在学习泊松分布时，我们已经知道：

定理（二项分布的泊松极限）： 当 $n \to \infty$ 且 $p \to 0$ ，同时保持 $np = \lambda$ （常数）时：

B(n,p) \to \text{Po}(\lambda)

实际应用指南

例 1（质量控制应用）：

某工厂每天生产 1000 个零件，次品率为 0.005。恰好出现 5 个次品的概率是多少？

精确计算： $P(X = 5)$ ，其中 $X \sim B(1000, 0.005)$

P(X = 5) = \binom{1000}{5} \times (0.005)^5 \times (0.995)^{995}

这个计算非常繁琐！

泊松近似： 由于 $n = 1000$ 较大、 $p = 0.005$ 较小，且 $np = 5 \leq 10$ ，我们可以使用：

X \sim \text{Po}(5) \text{（近似）}

P(X = 5) = \frac{e^{-5} \times 5^5}{5!} = \frac{e^{-5} \times 3125}{120} \approx 0.1755

计算简单多了！

例 2（练习题）：

在某个地区， $95\%$ 的人口有乳糖不耐受。一项医学研究从该人群中随机选取了 $80$ 人。设 $X$ 表示没有乳糖不耐受的人数。

写出 $P(X \leq 2)$ 的精确表达式
解释为什么泊松近似适用于本题
使用泊松近似，估算 $P(X \leq 2)$

解答：

3. 正态近似：突破分布的壁垒

发现普适收敛

二项分布的正态近似

定理（棣莫弗-拉普拉斯定理）： 若 $X \sim B(n,p)$ ，其中 $n$ 较大且 $p$ 不过于接近 0 或 1，则：

X \stackrel{\text{approx}}{\sim} N(\mu, \sigma^2)

其中 $\mu = np$ ， $\sigma^2 = np(1-p)$ 。

经验法则： 当 $np > 5$ 且 $n(1-p) > 5$ 时使用。

视觉演示：正态近似的拟合效果

二项分布 B(50, 0.3) 与正态分布的叠加

想象一张 B(50, 0.3) 的柱状图，上面叠加了一条红色的正态曲线 N(15, 10.5)——两者吻合得非常好。

均值 = 15，方差 = 10.5

泊松分布的正态近似

正如二项分布在参数增大时趋向正态分布，泊松分布在参数较大时也是如此。

定理（泊松分布的正态近似）： 若 $X \sim \text{Po}(\lambda)$ ，其中 $\lambda$ 较大（通常 $\lambda > 10$ ），则：

X \stackrel{\text{approx}}{\sim} N(\lambda, \lambda)

注意这个优美的性质：对泊松分布而言，均值等于方差！

泊松分布 Po(12) 与正态分布的叠加

想象一张 Po(12) 的柱状图，上面叠加了一条红色的正态曲线 N(12, 12)——同样拟合得非常好。

均值 = 方差 = 12

4. 连续性修正：离散与连续之间的桥梁

根本挑战

当我们用连续分布近似离散分布时，会面临一个概念性的问题：

连续性修正规则

定理（连续性修正）： 当用连续分布近似离散分布时，使用以下转换：

离散形式	连续近似
$P(X = a)$	$P(a - 0.5 < Y < a + 0.5)$
$P(X \leq a)$	$P(Y < a + 0.5)$
$P(X < a)$	$P(Y < a - 0.5)$
$P(X \geq a)$	$P(Y > a - 0.5)$
$P(X > a)$	$P(Y > a + 0.5)$

例 3（连续性修正的实际应用）：

二项随机变量 $X \sim B(100, 0.3)$ 用 $Y \sim N(30, 21)$ 近似。求 $P(X = 25)$ 。

不使用连续性修正： $P(Y = 25) = 0$ （毫无意义！）

使用连续性修正：

P(X = 25) \approx P(24.5 < Y < 25.5)

这样就得到了一个有意义的近似结果，考虑到了原始分布的离散性。

5. 引导练习

例 4：

对以下每种情形，确定最合适的近似方法：

$X \sim B(50, 0.02)$ ，求 $P(X = 2)$
$X \sim B(200, 0.4)$ ，求 $P(180 \leq X \leq 190)$
$X \sim \text{Po}(15)$ ，求 $P(X > 20)$

解答：

例 5：

一家糖果公司生产巧克力棒，在一次特别促销活动中， $20\%$ 的巧克力棒里放了金券。一家便利店收到了 $60$ 根巧克力棒。

1. 写出一个合适的分布来描述含金券的巧克力棒数量。
2. 说明该模型成立的一个假设条件。
求恰好 $15$ 根巧克力棒含有金券的概率。
使用带连续性修正的正态近似，估算少于 $10$ 根巧克力棒含有金券的概率。
店主希望有 $90\%$ 的把握至少有 $8$ 位顾客能找到金券。这批货物是否足够？请展示计算过程。

解答：

课后练习

练习 1（WST02/01/Jan15/7）：

一份选择题试卷有 $n$ 道题，其中 $n > 30$ 。

每道题有 $5$ 个选项，其中只有 $1$ 个正确。答对 $30$ 道或以上即为通过。

通过随机猜测每道题的答案来获得通过的概率不应超过 $0.0228$ 。

使用正态近似求出最多可以有多少道题。

练习 2（WST02/01/Jan16/3）：

左撇子占某人群的 $10\%$ 。从该人群中随机抽取了 $60$ 人的样本。离散随机变量 $Y$ 表示样本中左撇子的人数。

1. 写出 $P(Y \leq 1)$ 的精确表达式。
2. 计算该表达式的值，结果保留 3 位有效数字。
使用泊松近似，估算 $P(Y \leq 1)$ 。
使用正态近似，估算 $P(Y \leq 1)$ 。
给出一个理由，说明为什么泊松近似是 $P(Y \leq 1)$ 的更合适估计。

练习 3（WST02/01/Jan17/3）：

说明在什么条件下正态分布可以用来近似泊松分布。

某机场航站楼每周报告的急救事件数量服从均值为 3.5 的泊松分布。

求随机选取的一周内报告的急救事件的众数。请说明理由。

随机变量 $X$ 表示该机场航站楼在未来 2 周内报告的急救事件数量。

求 $P(X > 5)$ 。
已知在某 2 周期间恰好有 6 起急救事件报告，求第一周恰好报告了 4 起的概率。
使用合适的近似方法，求在未来 40 周内至少有 120 起急救事件报告的概率。

练习 4（WST02/01/June17/2）：

Crispy-crisps 生产袋装薯片。在一次促销活动中， $25\%$ 的包装袋中放入了奖品。每个包装袋中最多放入 $1$ 个奖品。一箱包含 $6$ 袋薯片。

1. 写出一个合适的分布来描述一箱中奖品的数量。
2. 写出该模型成立的一个假设条件。
求在随机选取的 $2$ 箱中，恰好只有 $1$ 箱含有恰好 $1$ 个奖品的概率。
求随机选取的一箱至少含有 $2$ 个奖品的概率。

Neha 买了 $80$ 箱薯片。

使用正态近似，求不超过 $30$ 箱含有至少 $2$ 个奖品的概率。

6. 中心极限定理：终极基础

大一统理论

我们所有的近似方法都指向一个更深层的真理——这是整个数学中最重要的定理之一：

定理（中心极限定理）： 设 $X_1, X_2, \ldots, X_n$ 是独立同分布的随机变量，具有有限的均值 $\mu$ 和方差 $\sigma^2$ 。

当 $n \to \infty$ 时，和 $S_n = X_1 + X_2 + \cdots + X_n$ 趋近于正态分布：

S_n \stackrel{\text{approx}}{\sim} N(n\mu, n\sigma^2)

等价地，标准化后的和：

Z_n = \frac{S_n - n\mu}{\sigma\sqrt{n}} \stackrel{\text{approx}}{\sim} N(0,1)

通过骰子发现中心极限定理：一段视觉之旅

让我们用掷骰子这个简单的例子来见证中心极限定理的魔力。

例 6（掷骰子与正态性的发现）：

考虑掷一颗公平的六面骰子。结果 $X$ 具有：

均匀分布： $P(X = k) = \frac{1}{6}$ ，其中 $k = 1, 2, 3, 4, 5, 6$
均值： $E(X) = 3.5$ ，方差： $\text{Var}(X) = \frac{35}{12} \approx 2.92$

练习：计算 n = 2 时的分布

现在让我们掷两颗独立的骰子，求它们的和 $S_2 = X_1 + X_2$ ：

完成下表，找出所有可能的结果及其和：

$X_1 \backslash X_2$	1	2	3	4	5	6
1
2
3
4
5
6

统计每个和出现的频率，完成概率分布表：

和 $S_2$	2	3	4	5	6	7	8	9	10	11	12
频率
$P(S_2 = k)$

利用和的性质计算 $E(S_2)$ 和 $\text{Var}(S_2)$ ：

$E(S_2) = E(X_1) + E(X_2) =$ ______

$\text{Var}(S_2) = \text{Var}(X_1) + \text{Var}(X_2) =$ ______

关键观察： 即使只有两颗骰子，我们也能看到分布从均匀（平坦）转变为三角形（有峰值）。这正是通往正态分布之旅的起点！

中心极限定理的视觉之旅：

想象三张并排的直方图：

n = 1：完全均匀——平坦的矩形，均值 = 3.5
n = 2：三角形出现——峰值开始形成，均值 = 7.0
n 很大：优美的钟形曲线——恰好是正态分布，均值 = 3.5n

将中心极限定理与前面的工作联系起来

现在我们可以理解为什么我们的近似方法如此有效：

例 7（为什么二项分布变成正态分布）：

回忆一下，如果 $X \sim \text{Binomial}(n,p)$ ，那么 $X$ 可以写成：

X = Y_1 + Y_2 + \cdots + Y_n

其中每个 $Y_i \sim \text{Bernoulli}(p)$ 且相互独立。

由中心极限定理，当 $n$ 很大时：

X = \sum_{i=1}^{n} Y_i \stackrel{\text{approx}}{\sim} N(n \cdot p, n \cdot p(1-p))

这正是我们之前使用的棣莫弗-拉普拉斯定理！

例 8（为什么泊松分布变成正态分布）：

类似地，如果 $X \sim \text{Poisson}(\lambda)$ ，我们可以将 $X$ 表示为许多小的独立泊松变量的和。

对于较大的 $\lambda$ ，我们可以将 $X$ 写成 $n$ 个独立的 $\text{Poisson}(\lambda/n)$ 变量的和。由中心极限定理：

X \stackrel{\text{approx}}{\sim} N(\lambda, \lambda)

这就解释了我们对泊松分布的正态近似！

中心极限定理的力量：实际应用

例 9（中心极限定理的实际应用：质量控制）：

一家工厂生产的产品，其最终重量受到以下因素的影响：

原材料的变化
机器校准的漂移
温度的波动
操作员的差异
测量误差
……以及其他许多微小因素

即使每个单独因素的分布完全不同，总效应（所有因素的和）在中心极限定理的作用下将近似服从正态分布。

这就是为什么质量控制图总是假设正态分布！

展望未来：数学基础

数学之美： 中心极限定理揭示了随机性中蕴藏的基本和谐——无论单个组成部分多么混乱，它们的集体行为总是趋向同一个普适模式：正态分布是自然界中随机性的”吸引子”。