跳转到内容

S3 第六章:拟合优度与列联表

想象你是一名桌游爱好者。你发现了一个名为”The Honest Dice”的众筹项目。创始人声称通过精密工程和特殊材料,他们创造了历史上最公平的骰子。他们声称掷出每一面的概率严格为 1/61/6,不像标准的批量生产骰子不可避免地存在制造缺陷。

但问题是:

  • 每个物理物体都有缺陷。
  • 在一局游戏中,这些微小的偏差会在数百次投掷中累积。
  • 你如何科学地验证这个”诚实骰子”是否真的比廉价塑料骰子更公平?
  • 更重要的是,创始人如何向潜在支持者提供令人信服的统计证据?

这个问题不仅仅关乎骰子。在数字世界中,验证随机性更加关键:

  • 在线赌博: 监管机构如何验证数字老虎机是公平的?
  • 抽奖活动: 我们如何知道促销抽奖没有被操纵?
  • 密码学: 安全性依赖于随机数生成器。如果存在某种模式,黑客可能会利用它。

本章介绍卡方检验(Chi-Square (χ2\chi^2) Tests),这是一个强大的统计框架,通过比较我们观察到的(数据)与我们期望的(理论)来回答这些问题。

拟合优度检验(Goodness of Fit):骰子公平吗?

Section titled “拟合优度检验(Goodness of Fit):骰子公平吗?”

根本问题: 观察数据与理论预测之间的差异有多大?这种差异仅仅是由于随机偶然,还是表明存在系统性偏差?

逻辑: 如果骰子确实公平,每一面出现的观测频率应该与期望频率”足够接近”。如果差异”太大”,我们怀疑骰子不公平。

我们首先定义原假设(H0H_0),它代表我们要检验的现状或理论分布。

  • H0H_0:数据服从指定的分布(例如骰子是公平的)。
  • H1H_1:数据不服从指定的分布。

注意: 我们永远不会”证明”H0H_0 为真。我们只检查是否有强有力的证据来拒绝它。

如果 H0H_0 为真,我们应该看到什么?我们计算每个类别 ii期望频率(Expected Frequency)EiE_i)。

Ei=n×piE_i = n \times p_i

其中:

  • nn 是总样本量(总试验次数)。
  • pip_iH0H_0 下类别 ii 的理论概率。

我们需要一个单一的数字来汇总观测值(OiO_i)与期望值(EiE_i)之间的总差异。我们使用卡方统计量:

χ2=(OiEi)2Ei\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}

卡方分布的形状取决于自由度(degrees of freedom)dfdf)。

df=k1m\boxed{df = k - 1 - m}

其中:

  • kk = 类别数(分组数)。
  • 11 = 由于固定样本量带来的约束(知道 k1k-1 个频率就确定了最后一个)。
  • mm = 从样本数据中估计的用于计算期望频率的总体参数个数。

让我们检验”诚实骰子”。我们投掷 600 次。

观测数据:

123456
观测值 (OiO_i)981029510596104

任务: 在 5% 显著性水平下,检验均匀分布是否是这些数据的合适模型。清楚地陈述你的假设并展示计算过程。

一名篮球运动员每场比赛罚球 3 次。我们记录了他在 100 场比赛中的成功次数(XX)。我们想检验 XB(3,p)X \sim B(3, p)

观测数据:

XX(成功次数)0123总计
观测频率 (OiO_i)4540132100

任务:

(a) 证明投篮成功的估计概率为 0.240.24。 (b) 在 5% 显著性水平下,检验二项分布是否是这些数据的合适模型。清楚地陈述你的假设并展示计算过程。

检验连续数据是否服从正态分布稍微复杂一些,因为:

  • 正态分布是连续的,但卡方检验需要离散类别
  • 我们通常不知道真实的 μ\muσ\sigma,因此必须从数据中估计。

解决方案:分箱(Binning)

我们将连续区间划分为若干区间(箱子),并计算每个区间中有多少观测值。这将连续数据转换为频率表。

详细例题:检验考试成绩的正态性

Section titled “详细例题:检验考试成绩的正态性”

一位老师怀疑考试成绩服从正态分布。她收集了 100 个成绩并将它们分组:

分数区间<50<5050506060606070707070808080\ge 80
观测值 (OiO_i)822352510

从原始数据(分箱前)中,她计算出:

  • 样本均值:xˉ=64.5\bar{x} = 64.5
  • 样本标准差:s=12.0s = 12.0

任务:

(a) 假设分数服从 N(64.5,122)N(64.5, 12^2) 分布,证明”50506060“区间的期望频率约为 24.0124.01。 (b) 已知五个区间的期望频率约为 E={11.35,24.01,32.30,22.48,9.83}E = \{11.35, 24.01, 32.30, 22.48, 9.83\},在 5% 显著性水平下,检验正态分布是否是这些数据的合适模型。清楚地陈述你的假设并展示计算过程。

列联表(Contingency Tables):独立性检验

Section titled “列联表(Contingency Tables):独立性检验”

1912 年 4 月 15 日,泰坦尼克号在撞击冰山后沉没。在 2,224 名乘客和船员中,超过 1,500 人遇难。事后,一个令人不安的问题浮现:

生存是否与乘客舱位有关?

“女士和儿童优先”的规则本应平等地适用,但有传言称头等舱乘客更容易获得救生艇。我们如何从统计上检验生存是否独立于社会阶层,还是存在显著的关联?

幸存遇难总计
头等舱203122325
二等舱118167285
三等舱178528706
总计4998171316

乍一看,头等舱的生存率(203/325=62%203/325 = 62\%)似乎远高于三等舱(178/706=25%178/706 = 25\%)。但这种差异是否可能是随机偶然造成的?这正是**卡方独立性检验(Chi-Square Test for Independence)**能够回答的问题。

我们常常想知道两个分类变量是否相关。

  • 性别是否与投票偏好有关?
  • 新药治疗是否与康复率有关?
  • 泰坦尼克号的生存是否与乘客舱位有关?

两个事件 AABB独立的,如果知道 AA 发生不会提供关于 BB 的任何信息。数学上: P(AB)=P(A)×P(B)P(A \cap B) = P(A) \times P(B)

假设:

  • H0H_0:两个变量是独立的(不存在关联)。
  • H1H_1:两个变量不独立(存在关联)。

期望频率: 如果 H0H_0 为真,落入单元格 (i,j)(i, j) 的概率仅取决于行和列的合计。 Eij=行合计i×列合计j总计E_{ij} = \frac{\text{行合计}_i \times \text{列合计}_j}{\text{总计}}

自由度: 对于一个 rrcc 列的表格: df=(r1)(c1)\boxed{df = (r-1)(c-1)}

一家咖啡馆想知道饮品偏好是否取决于时段。他们调查了 200 名顾客。

上午下午晚上总计
拿铁70255100
浓缩50473100
总计120728200

任务:

  1. 陈述假设 H0H_0H1H_1
  2. 计算期望频率表。检查五的法则! 如有必要,合并列以确保所有期望频率 5\ge 5
  3. 计算 χ2\chi^2 统计量。
  4. 确定自由度(基于表格)并在 α=0.05\alpha = 0.05 时查找临界值。
  5. 得出结论:咖啡偏好是否与时段独立。

挑战:为什么卡方统计量服从卡方分布?

Section titled “挑战:为什么卡方统计量服从卡方分布?”

本节引导你理解为什么我们的检验统计量 χ2=(OiEi)2Ei\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} 服从卡方分布。这是一个有挑战性但很有价值的探索!

定义:卡方分布 如果 Z1,Z2,,ZkZ_1, Z_2, \ldots, Z_k独立的标准正态随机变量(ZiN(0,1)Z_i \sim N(0,1)),则它们的平方和: Q=Z12+Z22++Zk2Q = Z_1^2 + Z_2^2 + \cdots + Z_k^2 服从自由度为 kk 的卡方分布,记作 Qχk2Q \sim \chi^2_k

关键洞察: 卡方分布从根本上是关于标准正态变量的平方和

我们的目标是证明当 H0H_0 为真时,χ2=i=1k(OiEi)2Ei\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} 近似服从 χk12\chi^2_{k-1}

E 部分:为什么估计参数会消耗更多自由度

(i) 当我们从数据中估计 mm 个参数时,我们施加了 mm 个额外的约束(估计的参数必须以某种最优方式”拟合”数据)。 (ii) 每个约束从 (k1)(k-1) 维空间中减少一个自由度。 (iii) 最终结果:df=k1mdf = k - 1 - m。 (iv) 示例: 对 5 个分组检验正态性:

  • k=5k = 5 个类别
  • m=2m = 2(估计 μ\muσ\sigma
  • df=512=2df = 5 - 1 - 2 = 2

用你自己的话解释为什么从 xˉ\bar{x} 估计 μ\mu 和从 ss 估计 σ\sigma 各自”消耗”了一个自由度。 :::

1. 假设

  • H0H_0:均匀分布是这些数据的合适模型(P(1)=P(2)==P(6)=1/6P(1)=P(2)=\dots=P(6)=1/6)。
  • H1H_1:均匀分布不是这些数据的合适模型。

2. 期望频率 总计 n=600n = 600H0H_0 下,Ei=600×16=100E_i = 600 \times \frac{1}{6} = 100(所有面)。

3. 计算 χ2\chi^2

χ2=(98100)2100+(102100)2100+(95100)2100+(105100)2100+(96100)2100+(104100)2100=0.04+0.04+0.25+0.25+0.16+0.16=0.90\begin{aligned} \chi^2 &= \frac{(98-100)^2}{100} + \frac{(102-100)^2}{100} + \frac{(95-100)^2}{100} + \frac{(105-100)^2}{100} + \frac{(96-100)^2}{100} + \frac{(104-100)^2}{100} \\ &= 0.04 + 0.04 + 0.25 + 0.25 + 0.16 + 0.16 = \mathbf{0.90} \end{aligned}

4. 自由度与临界值 k=6k = 6m=0m = 0(概率由公平骰子的定义给出)。df=610=5df = 6 - 1 - 0 = 5。 临界值(α=0.05,df=5\alpha=0.05, df=5)为 11.070

5. 结论 0.90<11.0700.90 < 11.070。未能拒绝 H0H_0。没有充分证据表明骰子不公平;均匀分布是合适的模型。

1. 假设

  • H0H_0:二项分布是这些数据的合适模型。
  • H1H_1:二项分布不是这些数据的合适模型。

2. 估计 pp 总投篮数 = 300。总成功数 = 0(45)+1(40)+2(13)+3(2)=720(45)+1(40)+2(13)+3(2) = 72p^=72/300=0.24\hat{p} = 72/300 = 0.24

3. 期望频率(合并前) 使用 B(3,0.24)B(3, 0.24)

XX0123
EiE_i43.9041.5913.131.38

4. 五的法则与合并 E3<5E_3 < 5,因此必须将 X=2X=2X=3X=3 合并。

XX(新类别)012\ge 2
OiO_i454015
EiE_i43.9041.5914.51

5. 计算 χ2\chi^2 χ2=(4543.9)243.9+(4041.59)241.59+(1514.51)214.510.028+0.061+0.017=0.106\chi^2 = \frac{(45-43.9)^2}{43.9} + \frac{(40-41.59)^2}{41.59} + \frac{(15-14.51)^2}{14.51} \approx 0.028 + 0.061 + 0.017 = \mathbf{0.106}

6. 自由度 k=3k = 3(合并后!),m=1m = 1(估计了 pp)。df=311=1df = 3 - 1 - 1 = \mathbf{1}

7. 结论 临界值(α=0.05,df=1\alpha=0.05, df=1)为 3.841。0.106<3.8410.106 < 3.841。未能拒绝 H0H_0。二项分布是合适的模型。

1. 假设

  • H0H_0:正态分布是这些数据的合适模型。
  • H1H_1:正态分布不是这些数据的合适模型。

2. 区间 50-60 的概率 P(50X<60)=P(5064.512Z<6064.512)=P(1.208Z<0.375)=0.2401P(50 \le X < 60) = P\left(\frac{50-64.5}{12} \le Z < \frac{60-64.5}{12}\right) = P(-1.208 \le Z < -0.375) = 0.2401

3. 期望频率 E2=100×0.2401=24.01E_2 = 100 \times 0.2401 = 24.01

4. 计算 χ2\chi^2

χ2=(811.35)211.35+(2224.01)224.01+(3532.30)232.30+(2522.48)222.48+(109.83)29.83=0.989+0.168+0.226+0.282+0.003=1.668\begin{aligned} \chi^2 &= \frac{(8-11.35)^2}{11.35} + \frac{(22-24.01)^2}{24.01} + \frac{(35-32.30)^2}{32.30} + \frac{(25-22.48)^2}{22.48} + \frac{(10-9.83)^2}{9.83} \\ &= 0.989 + 0.168 + 0.226 + 0.282 + 0.003 = \mathbf{1.668} \end{aligned}

5. 自由度 k=5k = 5 个分组。m=2m = 2(估计了 μ\muσ\sigma)。df=512=2df = 5 - 1 - 2 = \mathbf{2}。临界值(α=0.05\alpha=0.05)为 5.991。

6. 结论 1.668<5.9911.668 < 5.991。未能拒绝 H0H_0。正态分布是合适的模型。

1. 假设 H0H_0:咖啡偏好与时段独立。H1H_1:两者不独立。

2. 期望频率(合并前) Eij=行合计×列合计总计E_{ij} = \frac{\text{行合计} \times \text{列合计}}{\text{总计}}

(期望值)上午下午晚上
拿铁60364
浓缩60364

3. 五的法则与合并 由于 E拿铁, 晚上<5E_{\text{拿铁, 晚上}} < 5E浓缩, 晚上<5E_{\text{浓缩, 晚上}} < 5,必须将”下午”和”晚上”两列合并。

(观测值)上午下午/晚上
拿铁7030
浓缩5050
(期望值)上午下午/晚上
拿铁6040
浓缩6040

4. 计算 χ2\chi^2

χ2=(7060)260+(3040)240+(5060)260+(5040)240=10060+10040+10060+10040=1.667+2.5+1.667+2.5=8.334\begin{aligned} \chi^2 &= \frac{(70-60)^2}{60} + \frac{(30-40)^2}{40} + \frac{(50-60)^2}{60} + \frac{(50-40)^2}{40} \\ &= \frac{100}{60} + \frac{100}{40} + \frac{100}{60} + \frac{100}{40} \\ &= 1.667 + 2.5 + 1.667 + 2.5 = \mathbf{8.334} \end{aligned}

5. 自由度 df=(r1)(c1)=(21)(21)=1df = (r-1)(c-1) = (2-1)(2-1) = 1(使用合并后的表格!)。临界值(α=0.05,df=1\alpha=0.05, df=1)为 3.841

6. 结论 8.334>3.8418.334 > 3.841。拒绝 H0H_0。有显著证据表明咖啡偏好与时段之间存在关联。