跳转到内容

S2 第二章:泊松分布

各位数学探索者,欢迎!今天我们将踏上一段穿越时光的奇妙旅程,探索稀有事件的研究——从普鲁士军队中致命的马踢事故到宇宙现象——如何催生了现代统计学中最强大的工具之一:泊松分布

我们的故事从一位法国数学家开始,他的名字已成为稀有事件的代名词,他的研究至今仍在交通流量、放射性衰变等各个领域揭示着规律。

想象你是碧桂园广东实验学校一家早餐店的老板。经过数周的仔细观察,你发现每天早上一小时(7:00–8:00)平均卖出10个包子

第一反应:“这听起来像二项分布!”

Section titled “第一反应:“这听起来像二项分布!””

你的第一反应可能是:“用二项分布!“但随即你会停下来问自己:

到底什么才是我的”试验”?

让我们考虑把一小时划分为更小的时间区间:

时间区间划分

规律:

  • 随着区间越分越小,nn 不断增大
  • 每个小区间内卖出包子的概率 pp 不断减小
  • 但它们的乘积 npnp 始终保持为10(我们的平均销售速率)

数学洞察: 我们正在见证离散二项试验向连续过程的转变!

这不仅仅是数学上的好奇——它对你的包子店有切实的意义:

  • 顾客到达是不可预测的: 你无法精确预测每位顾客何时到来
  • 销售是连续发生的: 顾客可能在这一小时内的任何时刻到来
  • 速率是稳定的: 虽然单次销售是随机的,但平均速率(每小时10个)是稳定的

这正是泊松分布大显身手的场景!

你的包子铺问题并非独一无二——数学家们几百年来一直在攻克类似的”稀有事件”难题。让我们简要回顾这个强大分布的发现历程:

亚伯拉罕·棣莫弗 (1711): 最早发现了这一数学规律,但当时基本未被注意。

西梅翁·德尼·泊松 (1837): 在法律统计研究中重新发现并推广了这一分布,用其对冤案进行建模。

拉迪斯劳斯·博特基维茨 (1898): 将其应用于普鲁士骑兵被马踢致死的建模——稀有、不可预测、以稳定平均速率发生的事件,正如你的包子销售一样!

定义(泊松分布): 离散随机变量 XX 服从参数为 λ>0\lambda > 0 的泊松分布,记作 XPo(λ)X \sim \text{Po}(\lambda),其概率质量函数为:

P(X=x)=eλλxx!其中 x=0,1,2,3,P(X = x) = \frac{e^{-\lambda}\lambda^x}{x!} \quad \text{其中 } x = 0, 1, 2, 3, \ldots

其中:

  • λ\lambda 表示事件发生的平均速率
  • e2.71828e \approx 2.71828 是欧拉常数
  • x!x!xx 的阶乘

泊松分布并非万能——它需要三个基本条件,这些条件直接决定了模型的准确性:

2. 单一性: 在任何无穷小的时间或空间区间内,最多只能发生一个事件。两辆车在同一微秒到达的概率可以忽略不计。

3. 恒定速率: 事件发生的平均速率 λ\lambda 在时间上保持恒定。(如果我们在条件一致的时段建模)速率不会在上午和下午之间变化。

现在让我们回到开头的挑战,用泊松分布来解决它!

定理(泊松分布的期望与方差): 对于 XPo(λ)X \sim \text{Po}(\lambda)

  • 期望:E(X)=λE(X) = \lambda
  • 方差:Var(X)=λ\text{Var}(X) = \lambda
  • 标准差:σ=λ\sigma = \sqrt{\lambda}

定理(独立泊松变量的可加性):XPo(λ)X \sim \text{Po}(\lambda)YPo(μ)Y \sim \text{Po}(\mu) 相互独立,则:

Z=X+YPo(λ+μ)Z = X + Y \sim \text{Po}(\lambda + \mu)

示例(实际可加性):

场景: 某网站每小时平均从搜索引擎获得15位访客(XPo(15)X \sim \text{Po}(15)),从社交媒体获得8位访客(YPo(8)Y \sim \text{Po}(8))。

总流量: 每小时总访客数服从 Z=X+YPo(23)Z = X + Y \sim \text{Po}(23)

解释: 合并独立的泊松过程会得到另一个泊松过程,其速率为各速率之和。

备注: 上述性质的证明将在挑战练习中给出,届时我们将推导泊松分布的概率生成函数并证明泊松分布的各种性质。

表中值为 P(Xx)P(X \leq x),其中 XX 服从参数为 λ\lambda 的泊松分布。

0.51.01.52.02.53.03.54.04.55.0
x=x =00.60650.36790.22310.13530.08210.04980.03020.01830.01110.0067
10.90980.73580.55780.40600.28730.19910.13590.09160.06110.0404
20.98560.91970.80880.67670.54380.42320.32080.23810.17360.1247
30.99820.98100.93440.85710.75760.64720.53660.43350.34230.2650
40.99980.99630.98140.94730.89120.81530.72540.62880.53210.4405
51.00000.99940.99550.98340.95800.91610.85760.78510.70290.6160
61.00000.99990.99910.99550.98580.96650.93470.88930.83110.7622
71.00001.00000.99980.99890.99580.98810.97330.94890.91340.8666
81.00001.00001.00000.99980.99890.99620.99010.97860.95970.9319
91.00001.00001.00001.00000.99970.99890.99670.99190.98290.9682
101.00001.00001.00001.00000.99990.99970.99900.99720.99330.9863

示例(网络安全):

背景: 某网络安全团队监控网络入侵尝试。历史数据显示入侵尝试平均速率为每天2.5次,且这些尝试似乎是独立且随机的。

建模决策:XX = 每天的入侵尝试次数。建模 XPo(2.5)X \sim \text{Po}(2.5)

  1. 某天没有入侵尝试的概率是多少?
  2. 一天内超过5次尝试的概率是多少?
  3. 一周内入侵尝试的期望次数是多少?
  4. 安全团队每天最多能有效处理5次尝试。计算在一周7天内每天都有效处理入侵尝试的概率。
  5. 如果他们希望95%的情况下做好充分准备,每天的处理能力应该是多少?

示例(制造业质量控制):

背景: 某纺织厂生产大卷面料。质量控制数据显示缺陷以每平方米0.3个的平均速率随机出现。

问题系列:

  1. 在5平方米的区域中,恰好发现2个缺陷的概率是多少?
  2. 10平方米的区域没有缺陷的概率是多少?
  3. 如果每个缺陷的修复成本为15元,20平方米区域的预期修复成本是多少?
  4. 检查两个独立的3平方米面料区域。总缺陷数的分布是什么?

示例(2007年6月 Q3): 某工程公司生产电子元件。在制造过程结束时,每个元件都会被检查是否故障。故障元件的检测速率为每小时1.5个。

  1. 建议一个合适的模型来描述每小时检测到的故障元件数。(1分)
  2. 在本题背景下,描述你在(a)部分中为使该模型适用所做的两个假设。(2分)
  3. 求在1小时内检测到2个故障元件的概率。(2分)
  4. 求在3小时内至少检测到1个故障元件的概率。(3分)

示例(2010年1月 Q3): 一台机器人被编程在生产线上制造汽车。机器人随机发生故障,平均每20小时一次。

  1. 求机器人连续工作5小时不发生故障的概率。(3分)

求在8小时内: 2. 机器人至少故障一次的概率。(3分) 3. 恰好发生2次故障的概率。(2分)

在某个8小时时段内,机器人故障了两次。 4. 写出机器人在接下来的8小时时段内故障的概率。给出你的理由。(2分)

示例(2009年1月 Q1): 一位植物学家正在研究某田地中雏菊的分布。田地被划分为若干个等面积的方格。假设每个方格的平均雏菊数为3。雏菊在田地中随机分布。

求在一个随机选取的方格中:

  1. 超过2朵雏菊的概率。(3分)
  2. 恰好5朵或6朵雏菊的概率。(2分)

植物学家决定在田地内随机选取80个方格,数每个方格中的雏菊数 xx。结果汇总如下:

x=295x2=1386\sum x = 295 \qquad \sum x^2 = 1386
  1. 计算这80个方格中每方格雏菊数的均值和方差。答案保留两位小数。(3分)
  2. 解释(c)部分的答案如何支持选择泊松分布作为模型。(1分)
  3. 利用(c)部分的均值,估计在随机选取的方格中恰好有4朵雏菊的概率。(2分)

示例(2008年1月 Q3):

  1. 陈述在统计工作中泊松分布作为合适模型使用的两个条件。(2分)

在10分钟间隔内通过某观测点的汽车数量被建模为均值为1的泊松分布。

  1. 求在一个随机选取的60分钟时段内:
    • (i) 恰好4辆车通过观测点的概率,
    • (ii) 至少5辆车通过观测点的概率。(5分)

在60分钟间隔内通过观测点的其他车辆(非汽车)数量被建模为均值为12的泊松分布。

  1. 求在10分钟时段内恰好1辆任意类型车辆通过观测点的概率。(4分)

(选讲)二项分布与泊松分布的联系

Section titled “(选讲)二项分布与泊松分布的联系”

泊松分布自然地作为二项分布在特定条件下的极限情形而出现。

挑战拓展:泊松分布的概率生成函数

Section titled “挑战拓展:泊松分布的概率生成函数”

第一部分:推导泊松 PGF——两种方法

Section titled “第一部分:推导泊松 PGF——两种方法”

第二部分:用 PGF 的魔力提取性质

Section titled “第二部分:用 PGF 的魔力提取性质”