想象你是一名桌游爱好者。你发现了一个名为”The Honest Dice”的众筹项目。创始人声称通过精密工程和特殊材料,他们创造了历史上最公平的骰子。他们声称掷出每一面的概率严格为 1/6,不像标准的批量生产骰子不可避免地存在制造缺陷。
但问题是:
- 每个物理物体都有缺陷。
- 在一局游戏中,这些微小的偏差会在数百次投掷中累积。
- 你如何科学地验证这个”诚实骰子”是否真的比廉价塑料骰子更公平?
- 更重要的是,创始人如何向潜在支持者提供令人信服的统计证据?
这个问题不仅仅关乎骰子。在数字世界中,验证随机性更加关键:
- 在线赌博: 监管机构如何验证数字老虎机是公平的?
- 抽奖活动: 我们如何知道促销抽奖没有被操纵?
- 密码学: 安全性依赖于随机数生成器。如果存在某种模式,黑客可能会利用它。
本章介绍卡方检验(Chi-Square (χ2) Tests),这是一个强大的统计框架,通过比较我们观察到的(数据)与我们期望的(理论)来回答这些问题。
根本问题: 观察数据与理论预测之间的差异有多大?这种差异仅仅是由于随机偶然,还是表明存在系统性偏差?
逻辑: 如果骰子确实公平,每一面出现的观测频率应该与期望频率”足够接近”。如果差异”太大”,我们怀疑骰子不公平。
我们首先定义原假设(H0),它代表我们要检验的现状或理论分布。
- H0:数据服从指定的分布(例如骰子是公平的)。
- H1:数据不服从指定的分布。
注意: 我们永远不会”证明”H0 为真。我们只检查是否有强有力的证据来拒绝它。
如果 H0 为真,我们应该看到什么?我们计算每个类别 i 的期望频率(Expected Frequency)(Ei)。
Ei=n×pi
其中:
- n 是总样本量(总试验次数)。
- pi 是 H0 下类别 i 的理论概率。
我们需要一个单一的数字来汇总观测值(Oi)与期望值(Ei)之间的总差异。我们使用卡方统计量:
χ2=∑Ei(Oi−Ei)2
卡方分布的形状取决于自由度(degrees of freedom)(df)。
df=k−1−m
其中:
- k = 类别数(分组数)。
- 1 = 由于固定样本量带来的约束(知道 k−1 个频率就确定了最后一个)。
- m = 从样本数据中估计的用于计算期望频率的总体参数个数。
让我们检验”诚实骰子”。我们投掷 600 次。
观测数据:
| 面 | 1 | 2 | 3 | 4 | 5 | 6 |
|---|
| 观测值 (Oi) | 98 | 102 | 95 | 105 | 96 | 104 |
任务:
在 5% 显著性水平下,检验均匀分布是否是这些数据的合适模型。清楚地陈述你的假设并展示计算过程。
一名篮球运动员每场比赛罚球 3 次。我们记录了他在 100 场比赛中的成功次数(X)。我们想检验 X∼B(3,p)。
观测数据:
| X(成功次数) | 0 | 1 | 2 | 3 | 总计 |
|---|
| 观测频率 (Oi) | 45 | 40 | 13 | 2 | 100 |
任务:
(a) 证明投篮成功的估计概率为 0.24。
(b) 在 5% 显著性水平下,检验二项分布是否是这些数据的合适模型。清楚地陈述你的假设并展示计算过程。
检验连续数据是否服从正态分布稍微复杂一些,因为:
- 正态分布是连续的,但卡方检验需要离散类别。
- 我们通常不知道真实的 μ 和 σ,因此必须从数据中估计。
解决方案:分箱(Binning)
我们将连续区间划分为若干区间(箱子),并计算每个区间中有多少观测值。这将连续数据转换为频率表。
一位老师怀疑考试成绩服从正态分布。她收集了 100 个成绩并将它们分组:
| 分数区间 | <50 | 50—60 | 60—70 | 70—80 | ≥80 |
|---|
| 观测值 (Oi) | 8 | 22 | 35 | 25 | 10 |
从原始数据(分箱前)中,她计算出:
- 样本均值:xˉ=64.5
- 样本标准差:s=12.0
任务:
(a) 假设分数服从 N(64.5,122) 分布,证明”50—60“区间的期望频率约为 24.01。
(b) 已知五个区间的期望频率约为 E={11.35,24.01,32.30,22.48,9.83},在 5% 显著性水平下,检验正态分布是否是这些数据的合适模型。清楚地陈述你的假设并展示计算过程。
1912 年 4 月 15 日,泰坦尼克号在撞击冰山后沉没。在 2,224 名乘客和船员中,超过 1,500 人遇难。事后,一个令人不安的问题浮现:
生存是否与乘客舱位有关?
“女士和儿童优先”的规则本应平等地适用,但有传言称头等舱乘客更容易获得救生艇。我们如何从统计上检验生存是否独立于社会阶层,还是存在显著的关联?
| 幸存 | 遇难 | 总计 |
|---|
| 头等舱 | 203 | 122 | 325 |
| 二等舱 | 118 | 167 | 285 |
| 三等舱 | 178 | 528 | 706 |
| 总计 | 499 | 817 | 1316 |
乍一看,头等舱的生存率(203/325=62%)似乎远高于三等舱(178/706=25%)。但这种差异是否可能是随机偶然造成的?这正是**卡方独立性检验(Chi-Square Test for Independence)**能够回答的问题。
我们常常想知道两个分类变量是否相关。
- 性别是否与投票偏好有关?
- 新药治疗是否与康复率有关?
- 泰坦尼克号的生存是否与乘客舱位有关?
两个事件 A 和 B 是独立的,如果知道 A 发生不会提供关于 B 的任何信息。数学上:
P(A∩B)=P(A)×P(B)
假设:
- H0:两个变量是独立的(不存在关联)。
- H1:两个变量不独立(存在关联)。
期望频率:
如果 H0 为真,落入单元格 (i,j) 的概率仅取决于行和列的合计。
Eij=总计行合计i×列合计j
自由度:
对于一个 r 行 c 列的表格:
df=(r−1)(c−1)
一家咖啡馆想知道饮品偏好是否取决于时段。他们调查了 200 名顾客。
| 上午 | 下午 | 晚上 | 总计 |
|---|
| 拿铁 | 70 | 25 | 5 | 100 |
| 浓缩 | 50 | 47 | 3 | 100 |
| 总计 | 120 | 72 | 8 | 200 |
任务:
- 陈述假设 H0 和 H1。
- 计算期望频率表。检查五的法则! 如有必要,合并列以确保所有期望频率 ≥5。
- 计算 χ2 统计量。
- 确定自由度(基于新表格)并在 α=0.05 时查找临界值。
- 得出结论:咖啡偏好是否与时段独立。
本节引导你理解为什么我们的检验统计量 χ2=∑Ei(Oi−Ei)2 服从卡方分布。这是一个有挑战性但很有价值的探索!
定义:卡方分布
如果 Z1,Z2,…,Zk 是独立的标准正态随机变量(Zi∼N(0,1)),则它们的平方和:
Q=Z12+Z22+⋯+Zk2
服从自由度为 k 的卡方分布,记作 Q∼χk2。
关键洞察: 卡方分布从根本上是关于标准正态变量的平方和。
我们的目标是证明当 H0 为真时,χ2=∑i=1kEi(Oi−Ei)2 近似服从 χk−12。
E 部分:为什么估计参数会消耗更多自由度
(i) 当我们从数据中估计 m 个参数时,我们施加了 m 个额外的约束(估计的参数必须以某种最优方式”拟合”数据)。
(ii) 每个约束从 (k−1) 维空间中减少一个自由度。
(iii) 最终结果:df=k−1−m。
(iv) 示例: 对 5 个分组检验正态性:
- k=5 个类别
- m=2(估计 μ 和 σ)
- df=5−1−2=2
用你自己的话解释为什么从 xˉ 估计 μ 和从 s 估计 σ 各自”消耗”了一个自由度。
:::
总结:全局视角
- 每个 EiOi−Ei 对于大的 n 近似服从 N(0,1)。
- 平方后得到 Ei(Oi−Ei)2≈χ12。
- 对 k 个类别求和将得到 χk2,但是……
- 约束 ∑Oi=n 引入了一个依赖关系,将 df 减少 1。
- 估计 m 个参数进一步将 df 减少 m。
- 最终结果:H0 下 χ2∼χk−1−m2。
这就是为什么我们可以使用卡方表查找临界值!
练习:WST03/01/May14/6
给 125 名随机选取的求职者每人分配 8 项任务。记录每位求职者失败的任务数。结果如下。
| 求职者失败的任务数 | 0 | 1 | 2 | 3 | 4 | 5 | 6 或更多 |
|---|
| 频率 | 2 | 21 | 45 | 42 | 12 | 3 | 0 |
(a) 证明从该样本中随机选取一项任务失败的概率为 0.3。
一位雇主认为二项分布可能很好地模拟求职者在 8 项任务中失败的任务数。他使用了估计概率为 0.3 的二项分布。计算得到的期望频率如下。
| 求职者失败的任务数 | 0 | 1 | 2 | 3 | 4 | 5 | 6 或更多 |
|---|
| 期望频率 | 7.21 | 24.71 | 37.06 | r | 17.02 | 5.83 | s |
(b) 求 r 和 s 的值,答案保留 2 位小数。
(c) 在 5% 显著性水平下,检验二项分布是否是这些数据的合适模型。清楚地陈述你的假设并展示计算过程。
(d) 该雇主认为所有求职者每项任务失败的概率相同。利用 (c) 部分的结果评论这一观点。
1. 假设
- H0:均匀分布是这些数据的合适模型(P(1)=P(2)=⋯=P(6)=1/6)。
- H1:均匀分布不是这些数据的合适模型。
2. 期望频率
总计 n=600。H0 下,Ei=600×61=100(所有面)。
3. 计算 χ2
χ2=100(98−100)2+100(102−100)2+100(95−100)2+100(105−100)2+100(96−100)2+100(104−100)2=0.04+0.04+0.25+0.25+0.16+0.16=0.90
4. 自由度与临界值
k=6,m=0(概率由公平骰子的定义给出)。df=6−1−0=5。
临界值(α=0.05,df=5)为 11.070。
5. 结论
0.90<11.070。未能拒绝 H0。没有充分证据表明骰子不公平;均匀分布是合适的模型。
1. 假设
- H0:二项分布是这些数据的合适模型。
- H1:二项分布不是这些数据的合适模型。
2. 估计 p
总投篮数 = 300。总成功数 = 0(45)+1(40)+2(13)+3(2)=72。p^=72/300=0.24。
3. 期望频率(合并前)
使用 B(3,0.24):
| X | 0 | 1 | 2 | 3 |
|---|
| Ei | 43.90 | 41.59 | 13.13 | 1.38 |
4. 五的法则与合并
E3<5,因此必须将 X=2 和 X=3 合并。
| X(新类别) | 0 | 1 | ≥2 |
|---|
| Oi | 45 | 40 | 15 |
| Ei | 43.90 | 41.59 | 14.51 |
5. 计算 χ2
χ2=43.9(45−43.9)2+41.59(40−41.59)2+14.51(15−14.51)2≈0.028+0.061+0.017=0.106
6. 自由度
k=3(合并后!),m=1(估计了 p)。df=3−1−1=1。
7. 结论
临界值(α=0.05,df=1)为 3.841。0.106<3.841。未能拒绝 H0。二项分布是合适的模型。
1. 假设
- H0:正态分布是这些数据的合适模型。
- H1:正态分布不是这些数据的合适模型。
2. 区间 50-60 的概率
P(50≤X<60)=P(1250−64.5≤Z<1260−64.5)=P(−1.208≤Z<−0.375)=0.2401
3. 期望频率
E2=100×0.2401=24.01
4. 计算 χ2
χ2=11.35(8−11.35)2+24.01(22−24.01)2+32.30(35−32.30)2+22.48(25−22.48)2+9.83(10−9.83)2=0.989+0.168+0.226+0.282+0.003=1.668
5. 自由度
k=5 个分组。m=2(估计了 μ 和 σ)。df=5−1−2=2。临界值(α=0.05)为 5.991。
6. 结论
1.668<5.991。未能拒绝 H0。正态分布是合适的模型。
1. 假设
H0:咖啡偏好与时段独立。H1:两者不独立。
2. 期望频率(合并前)
Eij=总计行合计×列合计
| (期望值) | 上午 | 下午 | 晚上 |
|---|
| 拿铁 | 60 | 36 | 4 |
| 浓缩 | 60 | 36 | 4 |
3. 五的法则与合并
由于 E拿铁, 晚上<5 且 E浓缩, 晚上<5,必须将”下午”和”晚上”两列合并。
4. 计算 χ2
χ2=60(70−60)2+40(30−40)2+60(50−60)2+40(50−40)2=60100+40100+60100+40100=1.667+2.5+1.667+2.5=8.334
5. 自由度
df=(r−1)(c−1)=(2−1)(2−1)=1(使用合并后的表格!)。临界值(α=0.05,df=1)为 3.841。
6. 结论
8.334>3.841。拒绝 H0。有显著证据表明咖啡偏好与时段之间存在关联。