S2 第二章:泊松分布
前言:从战场统计到现代建模
Section titled “前言:从战场统计到现代建模”各位数学探索者,欢迎!今天我们将踏上一段穿越时光的奇妙旅程,探索稀有事件的研究——从普鲁士军队中致命的马踢事故到宇宙现象——如何催生了现代统计学中最强大的工具之一:泊松分布。
我们的故事从一位法国数学家开始,他的名字已成为稀有事件的代名词,他的研究至今仍在交通流量、放射性衰变等各个领域揭示着规律。
1. 连续时间中的事件建模之旅
Section titled “1. 连续时间中的事件建模之旅”场景设定:包子铺的难题
Section titled “场景设定:包子铺的难题”想象你是碧桂园广东实验学校一家早餐店的老板。经过数周的仔细观察,你发现每天早上一小时(7:00–8:00)平均卖出10个包子。
第一反应:“这听起来像二项分布!”
Section titled “第一反应:“这听起来像二项分布!””你的第一反应可能是:“用二项分布!“但随即你会停下来问自己:
到底什么才是我的”试验”?
让我们考虑把一小时划分为更小的时间区间:
规律:
- 随着区间越分越小, 不断增大
- 每个小区间内卖出包子的概率 不断减小
- 但它们的乘积 始终保持为10(我们的平均销售速率)
数学洞察: 我们正在见证离散二项试验向连续过程的转变!
这对你的生意意味着什么
Section titled “这对你的生意意味着什么”这不仅仅是数学上的好奇——它对你的包子店有切实的意义:
- 顾客到达是不可预测的: 你无法精确预测每位顾客何时到来
- 销售是连续发生的: 顾客可能在这一小时内的任何时刻到来
- 速率是稳定的: 虽然单次销售是随机的,但平均速率(每小时10个)是稳定的
这正是泊松分布大显身手的场景!
历史背景:从战场到包子铺
Section titled “历史背景:从战场到包子铺”你的包子铺问题并非独一无二——数学家们几百年来一直在攻克类似的”稀有事件”难题。让我们简要回顾这个强大分布的发现历程:
亚伯拉罕·棣莫弗 (1711): 最早发现了这一数学规律,但当时基本未被注意。
西梅翁·德尼·泊松 (1837): 在法律统计研究中重新发现并推广了这一分布,用其对冤案进行建模。
拉迪斯劳斯·博特基维茨 (1898): 将其应用于普鲁士骑兵被马踢致死的建模——稀有、不可预测、以稳定平均速率发生的事件,正如你的包子销售一样!
2. 数学框架——定义与条件
Section titled “2. 数学框架——定义与条件”泊松分布的形式化定义
Section titled “泊松分布的形式化定义”定义(泊松分布): 离散随机变量 服从参数为 的泊松分布,记作 ,其概率质量函数为:
其中:
- 表示事件发生的平均速率
- 是欧拉常数
- 是 的阶乘
条件:泊松分布何时适用
Section titled “条件:泊松分布何时适用”泊松分布并非万能——它需要三个基本条件,这些条件直接决定了模型的准确性:
核心洞察: 泊松过程中的独立性导致了一个迷人的性质——无记忆性。
含义: 如果过去30分钟一个包子都没卖出,这不会增加接下来30分钟卖出包子的概率。过程”忘记”了它的历史。
数学表述: 对于泊松过程,下一时间区间内事件发生的概率与我们已经等待了多久无关。
商业启示: 即使好一阵子没有顾客,也不要期待突然涌来——每个时刻在统计上都是独立的!
2. 单一性: 在任何无穷小的时间或空间区间内,最多只能发生一个事件。两辆车在同一微秒到达的概率可以忽略不计。
3. 恒定速率: 事件发生的平均速率 在时间上保持恒定。(如果我们在条件一致的时段建模)速率不会在上午和下午之间变化。
判断以下场景是否服从泊松分布:
- 某放射源一分钟内发射的放射性粒子数
- 公平骰子掷出六点所需的投掷次数
- 广东省一年内的彩票头奖中奖人数
- 某呼叫中心在特定一小时内接到的电话数
- 某个人在特定一小时内打给呼叫中心的电话数
求解包子铺问题
Section titled “求解包子铺问题”现在让我们回到开头的挑战,用泊松分布来解决它!
回顾问题: 你每小时平均卖出10个包子。应该准备多少个才能保证80%的情况下顾客不会空手而归?
数学转化: 设 = 每小时卖出的包子数。建模 。
我们需要找到最小的 使得 。
解题策略: 我们需要泊松分布 Po(10) 的第80百分位数。
利用 的泊松分布表,我们得到累积概率:
| 解释 | ||
|---|---|---|
| 10 | 0.583 | 仅58.3%的服务水平 |
| 11 | 0.697 | 仅69.7%的服务水平 |
| 12 | 0.792 | 仅79.2%的服务水平 |
| 13 | 0.864 | 86.4%的服务水平 |
经营决策: 每天准备 13个包子。
商业影响:
- 86.4%的日子:所有顾客满意(超过80%目标)
- 13.6%的日子:部分顾客失望(但可以接受)
- 每日预期浪费:平均 个包子
定理(泊松分布的期望与方差): 对于 :
- 期望:
- 方差:
- 标准差:
核心洞察: 在泊松分布中,均值等于方差!
实际应用: 如果你有一个数据集,其样本均值近似等于样本方差,这暗示数据可能服从泊松分布。
示例: 如果每小时平均收到12封邮件,则 ,方差也是12。
可加性:一个强大的工具
Section titled “可加性:一个强大的工具”定理(独立泊松变量的可加性): 若 且 相互独立,则:
示例(实际可加性):
场景: 某网站每小时平均从搜索引擎获得15位访客(),从社交媒体获得8位访客()。
总流量: 每小时总访客数服从 。
解释: 合并独立的泊松过程会得到另一个泊松过程,其速率为各速率之和。
备注: 上述性质的证明将在挑战练习中给出,届时我们将推导泊松分布的概率生成函数并证明泊松分布的各种性质。
3. 引导练习:掌握泊松计算
Section titled “3. 引导练习:掌握泊松计算”泊松累积分布表
Section titled “泊松累积分布表”表中值为 ,其中 服从参数为 的泊松分布。
| 0.5 | 1.0 | 1.5 | 2.0 | 2.5 | 3.0 | 3.5 | 4.0 | 4.5 | 5.0 | ||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 0.6065 | 0.3679 | 0.2231 | 0.1353 | 0.0821 | 0.0498 | 0.0302 | 0.0183 | 0.0111 | 0.0067 | |
| 1 | 0.9098 | 0.7358 | 0.5578 | 0.4060 | 0.2873 | 0.1991 | 0.1359 | 0.0916 | 0.0611 | 0.0404 | |
| 2 | 0.9856 | 0.9197 | 0.8088 | 0.6767 | 0.5438 | 0.4232 | 0.3208 | 0.2381 | 0.1736 | 0.1247 | |
| 3 | 0.9982 | 0.9810 | 0.9344 | 0.8571 | 0.7576 | 0.6472 | 0.5366 | 0.4335 | 0.3423 | 0.2650 | |
| 4 | 0.9998 | 0.9963 | 0.9814 | 0.9473 | 0.8912 | 0.8153 | 0.7254 | 0.6288 | 0.5321 | 0.4405 | |
| 5 | 1.0000 | 0.9994 | 0.9955 | 0.9834 | 0.9580 | 0.9161 | 0.8576 | 0.7851 | 0.7029 | 0.6160 | |
| 6 | 1.0000 | 0.9999 | 0.9991 | 0.9955 | 0.9858 | 0.9665 | 0.9347 | 0.8893 | 0.8311 | 0.7622 | |
| 7 | 1.0000 | 1.0000 | 0.9998 | 0.9989 | 0.9958 | 0.9881 | 0.9733 | 0.9489 | 0.9134 | 0.8666 | |
| 8 | 1.0000 | 1.0000 | 1.0000 | 0.9998 | 0.9989 | 0.9962 | 0.9901 | 0.9786 | 0.9597 | 0.9319 | |
| 9 | 1.0000 | 1.0000 | 1.0000 | 1.0000 | 0.9997 | 0.9989 | 0.9967 | 0.9919 | 0.9829 | 0.9682 | |
| 10 | 1.0000 | 1.0000 | 1.0000 | 1.0000 | 0.9999 | 0.9997 | 0.9990 | 0.9972 | 0.9933 | 0.9863 |
某呼叫中心平均每小时接到3个电话。设 为一小时内的电话数。
已知:
利用泊松分布表求:
- 接到恰好等于期望次数电话的概率
关键公式:
- = 的表值 的表值
4. 实际应用
Section titled “4. 实际应用”示例(网络安全):
背景: 某网络安全团队监控网络入侵尝试。历史数据显示入侵尝试平均速率为每天2.5次,且这些尝试似乎是独立且随机的。
建模决策: 设 = 每天的入侵尝试次数。建模 。
- 某天没有入侵尝试的概率是多少?
- 一天内超过5次尝试的概率是多少?
- 一周内入侵尝试的期望次数是多少?
- 安全团队每天最多能有效处理5次尝试。计算在一周7天内每天都有效处理入侵尝试的概率。
- 如果他们希望95%的情况下做好充分准备,每天的处理能力应该是多少?
示例(制造业质量控制):
背景: 某纺织厂生产大卷面料。质量控制数据显示缺陷以每平方米0.3个的平均速率随机出现。
问题系列:
- 在5平方米的区域中,恰好发现2个缺陷的概率是多少?
- 10平方米的区域没有缺陷的概率是多少?
- 如果每个缺陷的修复成本为15元,20平方米区域的预期修复成本是多少?
- 检查两个独立的3平方米面料区域。总缺陷数的分布是什么?
示例(2007年6月 Q3): 某工程公司生产电子元件。在制造过程结束时,每个元件都会被检查是否故障。故障元件的检测速率为每小时1.5个。
- 建议一个合适的模型来描述每小时检测到的故障元件数。(1分)
- 在本题背景下,描述你在(a)部分中为使该模型适用所做的两个假设。(2分)
- 求在1小时内检测到2个故障元件的概率。(2分)
- 求在3小时内至少检测到1个故障元件的概率。(3分)
示例(2010年1月 Q3): 一台机器人被编程在生产线上制造汽车。机器人随机发生故障,平均每20小时一次。
- 求机器人连续工作5小时不发生故障的概率。(3分)
求在8小时内: 2. 机器人至少故障一次的概率。(3分) 3. 恰好发生2次故障的概率。(2分)
在某个8小时时段内,机器人故障了两次。 4. 写出机器人在接下来的8小时时段内故障的概率。给出你的理由。(2分)
示例(2009年1月 Q1): 一位植物学家正在研究某田地中雏菊的分布。田地被划分为若干个等面积的方格。假设每个方格的平均雏菊数为3。雏菊在田地中随机分布。
求在一个随机选取的方格中:
- 超过2朵雏菊的概率。(3分)
- 恰好5朵或6朵雏菊的概率。(2分)
植物学家决定在田地内随机选取80个方格,数每个方格中的雏菊数 。结果汇总如下:
- 计算这80个方格中每方格雏菊数的均值和方差。答案保留两位小数。(3分)
- 解释(c)部分的答案如何支持选择泊松分布作为模型。(1分)
- 利用(c)部分的均值,估计在随机选取的方格中恰好有4朵雏菊的概率。(2分)
示例(2008年1月 Q3):
- 陈述在统计工作中泊松分布作为合适模型使用的两个条件。(2分)
在10分钟间隔内通过某观测点的汽车数量被建模为均值为1的泊松分布。
- 求在一个随机选取的60分钟时段内:
- (i) 恰好4辆车通过观测点的概率,
- (ii) 至少5辆车通过观测点的概率。(5分)
在60分钟间隔内通过观测点的其他车辆(非汽车)数量被建模为均值为12的泊松分布。
- 求在10分钟时段内恰好1辆任意类型车辆通过观测点的概率。(4分)
(选讲)二项分布与泊松分布的联系
Section titled “(选讲)二项分布与泊松分布的联系”泊松分布自然地作为二项分布在特定条件下的极限情形而出现。
设定: 考虑二项分布 ,其中:
- 变得非常大()
- 变得非常小()
- 乘积 保持恒定
结论: 在这些条件下,
设定: 设 ,其中 为常数。证明当 时:
第一步: 写出二项概率:
第二步: 改写为:
第三步: 求各分量的极限:
- ? 当
- ? 当
- ? 当 (提示:利用 )
在实际中,当 很大且 很小时,我们可以用 来近似 。
问题: 质量检验员检查200件产品,每件有2%的概率存在缺陷。
- 用二项分布精确计算恰好发现3件缺陷品的概率
- 用泊松分布近似该概率
- 比较你的结果并评论其准确性
挑战拓展:泊松分布的概率生成函数
Section titled “挑战拓展:泊松分布的概率生成函数”定义: 离散随机变量 的概率生成函数为:
来自二项分布章节: 你已学到对于 :
以及神奇的矩公式:
第一部分:推导泊松 PGF——两种方法
Section titled “第一部分:推导泊松 PGF——两种方法”挑战1: 对于 ,从定义直接推导 。
已知:
第一步: 写出 PGF 定义:
第二步: 提取 :
第三步: 识别该级数! 是什么著名展开式?
第四步: 完成推导,证明
挑战2: 将泊松 PGF 作为二项 PGF 的极限来推导。
回顾设定: 当 时收敛到
第一步: 写出 时的二项 PGF:
第二步: 改写为:
第三步: 利用基本极限 :
优美的结论: 两种方法都得到 !
第二部分:用 PGF 的魔力提取性质
Section titled “第二部分:用 PGF 的魔力提取性质”已知: ,其中
- 计算 求
- 利用方差公式: 验证 。
来自二项分布章节的回顾: 若 和 相互独立,则:
应用: 设 且 相互独立。
通过计算 ,证明泊松分布的可加性:
我们完成了什么:
- 推导了泊松 PGF,使用了两种不同的方法
- 计算了期望和方差,使用了微分
- 证明了可加性,使用了 PGF 乘法
更广阔的图景: PGF 为理解离散分布提供了一个统一的框架。