S2 第二章：泊松分布

前言：从战场统计到现代建模

各位数学探索者，欢迎！今天我们将踏上一段穿越时光的奇妙旅程，探索稀有事件的研究——从普鲁士军队中致命的马踢事故到宇宙现象——如何催生了现代统计学中最强大的工具之一：泊松分布。

我们的故事从一位法国数学家开始，他的名字已成为稀有事件的代名词，他的研究至今仍在交通流量、放射性衰变等各个领域揭示着规律。

1. 连续时间中的事件建模之旅

场景设定：包子铺的难题

想象你是碧桂园广东实验学校一家早餐店的老板。经过数周的仔细观察，你发现每天早上一小时（7:00–8:00）平均卖出10个包子。

第一反应：“这听起来像二项分布！”

你的第一反应可能是：“用二项分布！“但随即你会停下来问自己：

到底什么才是我的”试验”？

让我们考虑把一小时划分为更小的时间区间：

时间区间划分

规律：

随着区间越分越小， $n$ 不断增大
每个小区间内卖出包子的概率 $p$ 不断减小
但它们的乘积 $np$ 始终保持为10（我们的平均销售速率）

数学洞察： 我们正在见证离散二项试验向连续过程的转变！

这对你的生意意味着什么

这不仅仅是数学上的好奇——它对你的包子店有切实的意义：

顾客到达是不可预测的： 你无法精确预测每位顾客何时到来
销售是连续发生的： 顾客可能在这一小时内的任何时刻到来
速率是稳定的： 虽然单次销售是随机的，但平均速率（每小时10个）是稳定的

这正是泊松分布大显身手的场景！

历史背景：从战场到包子铺

你的包子铺问题并非独一无二——数学家们几百年来一直在攻克类似的”稀有事件”难题。让我们简要回顾这个强大分布的发现历程：

亚伯拉罕·棣莫弗 (1711)： 最早发现了这一数学规律，但当时基本未被注意。

西梅翁·德尼·泊松 (1837)： 在法律统计研究中重新发现并推广了这一分布，用其对冤案进行建模。

拉迪斯劳斯·博特基维茨 (1898)： 将其应用于普鲁士骑兵被马踢致死的建模——稀有、不可预测、以稳定平均速率发生的事件，正如你的包子销售一样！

2. 数学框架——定义与条件

泊松分布的形式化定义

定义（泊松分布）： 离散随机变量 $X$ 服从参数为 $\lambda > 0$ 的泊松分布，记作 $X \sim \text{Po}(\lambda)$ ，其概率质量函数为：

P(X = x) = \frac{e^{-\lambda}\lambda^x}{x!} \quad \text{其中 } x = 0, 1, 2, 3, \ldots

其中：

$\lambda$ 表示事件发生的平均速率
$e \approx 2.71828$ 是欧拉常数
$x!$ 是 $x$ 的阶乘

条件：泊松分布何时适用

泊松分布并非万能——它需要三个基本条件，这些条件直接决定了模型的准确性：

2. 单一性： 在任何无穷小的时间或空间区间内，最多只能发生一个事件。两辆车在同一微秒到达的概率可以忽略不计。

3. 恒定速率： 事件发生的平均速率 $\lambda$ 在时间上保持恒定。（如果我们在条件一致的时段建模）速率不会在上午和下午之间变化。

求解包子铺问题

现在让我们回到开头的挑战，用泊松分布来解决它！

利用 $\lambda = 10$ 的泊松分布表，我们得到累积概率：

$k$	$P(X \leq k)$	解释
10	0.583	仅58.3%的服务水平
11	0.697	仅69.7%的服务水平
12	0.792	仅79.2%的服务水平
13	0.864	86.4%的服务水平

经营决策： 每天准备 13个包子。

商业影响：

86.4%的日子：所有顾客满意（超过80%目标）
13.6%的日子：部分顾客失望（但可以接受）
每日预期浪费：平均 $13 - 10 = 3$ 个包子

基本性质

定理（泊松分布的期望与方差）： 对于 $X \sim \text{Po}(\lambda)$ ：

期望： $E(X) = \lambda$
方差： $\text{Var}(X) = \lambda$
标准差： $\sigma = \sqrt{\lambda}$

可加性：一个强大的工具

定理（独立泊松变量的可加性）： 若 $X \sim \text{Po}(\lambda)$ 且 $Y \sim \text{Po}(\mu)$ 相互独立，则：

Z = X + Y \sim \text{Po}(\lambda + \mu)

示例（实际可加性）：

场景： 某网站每小时平均从搜索引擎获得15位访客（ $X \sim \text{Po}(15)$ ），从社交媒体获得8位访客（ $Y \sim \text{Po}(8)$ ）。

总流量： 每小时总访客数服从 $Z = X + Y \sim \text{Po}(23)$ 。

解释： 合并独立的泊松过程会得到另一个泊松过程，其速率为各速率之和。

备注： 上述性质的证明将在挑战练习中给出，届时我们将推导泊松分布的概率生成函数并证明泊松分布的各种性质。

3. 引导练习：掌握泊松计算

泊松累积分布表

表中值为 $P(X \leq x)$ ，其中 $X$ 服从参数为 $\lambda$ 的泊松分布。

		0.5	1.0	1.5	2.0	2.5	3.0	3.5	4.0	4.5	5.0
$x =$	0	0.6065	0.3679	0.2231	0.1353	0.0821	0.0498	0.0302	0.0183	0.0111	0.0067
	1	0.9098	0.7358	0.5578	0.4060	0.2873	0.1991	0.1359	0.0916	0.0611	0.0404
	2	0.9856	0.9197	0.8088	0.6767	0.5438	0.4232	0.3208	0.2381	0.1736	0.1247
	3	0.9982	0.9810	0.9344	0.8571	0.7576	0.6472	0.5366	0.4335	0.3423	0.2650
	4	0.9998	0.9963	0.9814	0.9473	0.8912	0.8153	0.7254	0.6288	0.5321	0.4405
	5	1.0000	0.9994	0.9955	0.9834	0.9580	0.9161	0.8576	0.7851	0.7029	0.6160
	6	1.0000	0.9999	0.9991	0.9955	0.9858	0.9665	0.9347	0.8893	0.8311	0.7622
	7	1.0000	1.0000	0.9998	0.9989	0.9958	0.9881	0.9733	0.9489	0.9134	0.8666
	8	1.0000	1.0000	1.0000	0.9998	0.9989	0.9962	0.9901	0.9786	0.9597	0.9319
	9	1.0000	1.0000	1.0000	1.0000	0.9997	0.9989	0.9967	0.9919	0.9829	0.9682
	10	1.0000	1.0000	1.0000	1.0000	0.9999	0.9997	0.9990	0.9972	0.9933	0.9863

4. 实际应用

示例（网络安全）：

背景： 某网络安全团队监控网络入侵尝试。历史数据显示入侵尝试平均速率为每天2.5次，且这些尝试似乎是独立且随机的。

建模决策： 设 $X$ = 每天的入侵尝试次数。建模 $X \sim \text{Po}(2.5)$ 。

某天没有入侵尝试的概率是多少？
一天内超过5次尝试的概率是多少？
一周内入侵尝试的期望次数是多少？
安全团队每天最多能有效处理5次尝试。计算在一周7天内每天都有效处理入侵尝试的概率。
如果他们希望95%的情况下做好充分准备，每天的处理能力应该是多少？

示例（制造业质量控制）：

背景： 某纺织厂生产大卷面料。质量控制数据显示缺陷以每平方米0.3个的平均速率随机出现。

问题系列：

在5平方米的区域中，恰好发现2个缺陷的概率是多少？
10平方米的区域没有缺陷的概率是多少？
如果每个缺陷的修复成本为15元，20平方米区域的预期修复成本是多少？
检查两个独立的3平方米面料区域。总缺陷数的分布是什么？

课后练习

示例（2007年6月 Q3）： 某工程公司生产电子元件。在制造过程结束时，每个元件都会被检查是否故障。故障元件的检测速率为每小时1.5个。

建议一个合适的模型来描述每小时检测到的故障元件数。（1分）
在本题背景下，描述你在(a)部分中为使该模型适用所做的两个假设。（2分）
求在1小时内检测到2个故障元件的概率。（2分）
求在3小时内至少检测到1个故障元件的概率。（3分）

示例（2010年1月 Q3）： 一台机器人被编程在生产线上制造汽车。机器人随机发生故障，平均每20小时一次。

求机器人连续工作5小时不发生故障的概率。（3分）

求在8小时内： 2. 机器人至少故障一次的概率。（3分） 3. 恰好发生2次故障的概率。（2分）

在某个8小时时段内，机器人故障了两次。 4. 写出机器人在接下来的8小时时段内故障的概率。给出你的理由。（2分）

示例（2009年1月 Q1）： 一位植物学家正在研究某田地中雏菊的分布。田地被划分为若干个等面积的方格。假设每个方格的平均雏菊数为3。雏菊在田地中随机分布。

求在一个随机选取的方格中：

超过2朵雏菊的概率。（3分）
恰好5朵或6朵雏菊的概率。（2分）

植物学家决定在田地内随机选取80个方格，数每个方格中的雏菊数 $x$ 。结果汇总如下：

\sum x = 295 \qquad \sum x^2 = 1386

计算这80个方格中每方格雏菊数的均值和方差。答案保留两位小数。（3分）
解释(c)部分的答案如何支持选择泊松分布作为模型。（1分）
利用(c)部分的均值，估计在随机选取的方格中恰好有4朵雏菊的概率。（2分）

示例（2008年1月 Q3）：

陈述在统计工作中泊松分布作为合适模型使用的两个条件。（2分）

在10分钟间隔内通过某观测点的汽车数量被建模为均值为1的泊松分布。

求在一个随机选取的60分钟时段内：
- (i) 恰好4辆车通过观测点的概率，
- (ii) 至少5辆车通过观测点的概率。（5分）

在60分钟间隔内通过观测点的其他车辆（非汽车）数量被建模为均值为12的泊松分布。

求在10分钟时段内恰好1辆任意类型车辆通过观测点的概率。（4分）

（选讲）二项分布与泊松分布的联系

重大揭示

泊松分布自然地作为二项分布在特定条件下的极限情形而出现。

设定： 设 $X_n \sim B(n, \frac{\lambda}{n})$ ，其中 $\lambda$ 为常数。证明当 $n \to \infty$ 时：

\lim_{n \to \infty} P(X_n = x) = \frac{e^{-\lambda}\lambda^x}{x!}

第一步： 写出二项概率：

P(X_n = x) = \binom{n}{x}\left(\frac{\lambda}{n}\right)^x\left(1-\frac{\lambda}{n}\right)^{n-x}

第二步： 改写为：

P(X_n = x) = \frac{\lambda^x}{x!} \cdot \frac{n(n-1)(n-2)\cdots(n-x+1)}{n^x} \cdot \left(1-\frac{\lambda}{n}\right)^n \cdot \left(1-\frac{\lambda}{n}\right)^{-x}

第三步： 求各分量的极限：

$\frac{n(n-1)(n-2)\cdots(n-x+1)}{n^x} \to$ ? 当 $n \to \infty$
$\left(1-\frac{\lambda}{n}\right)^{-x} \to$ ? 当 $n \to \infty$
$\left(1-\frac{\lambda}{n}\right)^n \to$ ? 当 $n \to \infty$ （提示：利用 $\lim_{n \to \infty}(1+\frac{a}{n})^n = e^a$ ）

挑战拓展：泊松分布的概率生成函数

第一部分：推导泊松 PGF——两种方法

挑战1： 对于 $X \sim \text{Po}(\lambda)$ ，从定义直接推导 $G_X(t)$ 。

已知： $P(X = k) = \frac{e^{-\lambda}\lambda^k}{k!}$

第一步： 写出 PGF 定义：

G_X(t) = \sum_{k=0}^{\infty} t^k P(X = k) = \sum_{k=0}^{\infty} t^k \cdot \frac{e^{-\lambda}\lambda^k}{k!}

第二步： 提取 $e^{-\lambda}$ ：

G_X(t) = e^{-\lambda} \sum_{k=0}^{\infty} \frac{(t\lambda)^k}{k!}

第三步： 识别该级数！ $\sum_{k=0}^{\infty} \frac{x^k}{k!}$ 是什么著名展开式？

第四步： 完成推导，证明 $G_X(t) = e^{\lambda(t-1)}$

挑战2： 将泊松 PGF 作为二项 PGF 的极限来推导。

回顾设定： $X_n \sim B(n, \frac{\lambda}{n})$ 当 $n \to \infty$ 时收敛到 $\text{Po}(\lambda)$

第一步： 写出 $p = \frac{\lambda}{n}$ 时的二项 PGF：

G_{X_n}(t) = \left(1 - \frac{\lambda}{n} + \frac{\lambda}{n}t\right)^n