S3 第六章：拟合优度与列联表

引言：随机性的挑战

”诚实骰子”项目

想象你是一名桌游爱好者。你发现了一个名为”The Honest Dice”的众筹项目。创始人声称通过精密工程和特殊材料，他们创造了历史上最公平的骰子。他们声称掷出每一面的概率严格为 $1/6$ ，不像标准的批量生产骰子不可避免地存在制造缺陷。

但问题是：

每个物理物体都有缺陷。
在一局游戏中，这些微小的偏差会在数百次投掷中累积。
你如何科学地验证这个”诚实骰子”是否真的比廉价塑料骰子更公平？
更重要的是，创始人如何向潜在支持者提供令人信服的统计证据？

超越桌游：数字随机性

这个问题不仅仅关乎骰子。在数字世界中，验证随机性更加关键：

在线赌博： 监管机构如何验证数字老虎机是公平的？
抽奖活动： 我们如何知道促销抽奖没有被操纵？
密码学： 安全性依赖于随机数生成器。如果存在某种模式，黑客可能会利用它。

本章介绍卡方检验（Chi-Square ( $\chi^2$ ) Tests），这是一个强大的统计框架，通过比较我们观察到的（数据）与我们期望的（理论）来回答这些问题。

拟合优度检验（Goodness of Fit）：骰子公平吗？

核心思想

根本问题： 观察数据与理论预测之间的差异有多大？这种差异仅仅是由于随机偶然，还是表明存在系统性偏差？

逻辑： 如果骰子确实公平，每一面出现的观测频率应该与期望频率”足够接近”。如果差异”太大”，我们怀疑骰子不公平。

理论与方法

设定假设

我们首先定义原假设（ $H_0$ ），它代表我们要检验的现状或理论分布。

$H_0$ ：数据服从指定的分布（例如骰子是公平的）。
$H_1$ ：数据不服从指定的分布。

注意： 我们永远不会”证明” $H_0$ 为真。我们只检查是否有强有力的证据来拒绝它。

计算期望频率

如果 $H_0$ 为真，我们应该看到什么？我们计算每个类别 $i$ 的期望频率（Expected Frequency）（ $E_i$ ）。

$E_i = n \times p_i$

其中：

$n$ 是总样本量（总试验次数）。
$p_i$ 是 $H_0$ 下类别 $i$ 的理论概率。

卡方统计量

我们需要一个单一的数字来汇总观测值（ $O_i$ ）与期望值（ $E_i$ ）之间的总差异。我们使用卡方统计量：

$\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$

自由度

卡方分布的形状取决于自由度（degrees of freedom）（ $df$ ）。

$\boxed{df = k - 1 - m}$

其中：

$k$ = 类别数（分组数）。
$1$ = 由于固定样本量带来的约束（知道 $k-1$ 个频率就确定了最后一个）。
$m$ = 从样本数据中估计的用于计算期望频率的总体参数个数。

例题 1：均匀分布（诚实骰子）

让我们检验”诚实骰子”。我们投掷 600 次。

观测数据：

面	1	2	3	4	5	6
观测值 ( $O_i$ )	98	102	95	105	96	104

任务： 在 5% 显著性水平下，检验均匀分布是否是这些数据的合适模型。清楚地陈述你的假设并展示计算过程。

例题 2：二项分布

一名篮球运动员每场比赛罚球 3 次。我们记录了他在 100 场比赛中的成功次数（ $X$ ）。我们想检验 $X \sim B(3, p)$ 。

观测数据：

$X$ （成功次数）	0	1	2	3	总计
观测频率 ( $O_i$ )	45	40	13	2	100

任务：

(a) 证明投篮成功的估计概率为 $0.24$ 。 (b) 在 5% 显著性水平下，检验二项分布是否是这些数据的合适模型。清楚地陈述你的假设并展示计算过程。

例题 3：正态分布

检验连续数据是否服从正态分布稍微复杂一些，因为：

正态分布是连续的，但卡方检验需要离散类别。
我们通常不知道真实的 $\mu$ 和 $\sigma$ ，因此必须从数据中估计。

解决方案：分箱（Binning）

我们将连续区间划分为若干区间（箱子），并计算每个区间中有多少观测值。这将连续数据转换为频率表。

详细例题：检验考试成绩的正态性

一位老师怀疑考试成绩服从正态分布。她收集了 100 个成绩并将它们分组：

分数区间	$<50$	$50$ — $60$	$60$ — $70$	$70$ — $80$	$\ge 80$
观测值 ( $O_i$ )	8	22	35	25	10

从原始数据（分箱前）中，她计算出：

样本均值： $\bar{x} = 64.5$
样本标准差： $s = 12.0$

任务：

(a) 假设分数服从 $N(64.5, 12^2)$ 分布，证明” $50$ — $60$ “区间的期望频率约为 $24.01$ 。 (b) 已知五个区间的期望频率约为 $E = \{11.35, 24.01, 32.30, 22.48, 9.83\}$ ，在 5% 显著性水平下，检验正态分布是否是这些数据的合适模型。清楚地陈述你的假设并展示计算过程。

一位心理学家测量了 80 名受试者的反应时间（毫秒）。她将数据分组：

时间 (ms)	$<200$	$200$ — $250$	$250$ — $300$	$300$ — $350$	$350$ — $400$	$\ge 400$
观测值	5	12	28	20	10	5

从原始数据得到： $\bar{x} = 295$ ms， $s = 55$ ms。

(a) 陈述原假设和备择假设。 (b) 计算 $H_0$ 下每个区间的期望频率。（提示：对每个边界值进行标准化。） (c) 检查所有期望频率是否满足五的法则。如果不满足，应合并哪些类别？ (d) 计算 $\chi^2$ 统计量。 (e) 确定自由度。解释你的推理。 (f) 在 5% 显著性水平下，你的结论是什么？

列联表（Contingency Tables）：独立性检验

引言：泰坦尼克号之谜

1912 年 4 月 15 日，泰坦尼克号在撞击冰山后沉没。在 2,224 名乘客和船员中，超过 1,500 人遇难。事后，一个令人不安的问题浮现：

生存是否与乘客舱位有关？

“女士和儿童优先”的规则本应平等地适用，但有传言称头等舱乘客更容易获得救生艇。我们如何从统计上检验生存是否独立于社会阶层，还是存在显著的关联？

	幸存	遇难	总计
头等舱	203	122	325
二等舱	118	167	285
三等舱	178	528	706
总计	499	817	1316

乍一看，头等舱的生存率（ $203/325 = 62\%$ ）似乎远高于三等舱（ $178/706 = 25\%$ ）。但这种差异是否可能是随机偶然造成的？这正是**卡方独立性检验（Chi-Square Test for Independence）**能够回答的问题。

两个变量是否相关？

我们常常想知道两个分类变量是否相关。

性别是否与投票偏好有关？
新药治疗是否与康复率有关？
泰坦尼克号的生存是否与乘客舱位有关？

理论：独立性的定义

两个事件 $A$ 和 $B$ 是独立的，如果知道 $A$ 发生不会提供关于 $B$ 的任何信息。数学上： $P(A \cap B) = P(A) \times P(B)$

检验程序

假设：

$H_0$ ：两个变量是独立的（不存在关联）。
$H_1$ ：两个变量不独立（存在关联）。

期望频率： 如果 $H_0$ 为真，落入单元格 $(i, j)$ 的概率仅取决于行和列的合计。 $E_{ij} = \frac{\text{行合计}_i \times \text{列合计}_j}{\text{总计}}$

自由度： 对于一个 $r$ 行 $c$ 列的表格： $\boxed{df = (r-1)(c-1)}$

例题：咖啡偏好 vs 时段

一家咖啡馆想知道饮品偏好是否取决于时段。他们调查了 200 名顾客。

	上午	下午	晚上	总计
拿铁	70	25	5	100
浓缩	50	47	3	100
总计	120	72	8	200

任务：

陈述假设 $H_0$ 和 $H_1$ 。
计算期望频率表。检查五的法则！ 如有必要，合并列以确保所有期望频率 $\ge 5$ 。
计算 $\chi^2$ 统计量。
确定自由度（基于新表格）并在 $\alpha = 0.05$ 时查找临界值。
得出结论：咖啡偏好是否与时段独立。

随机抽取 200 人，询问他们喜欢哪种热饮：茶、咖啡或热巧克力。结果如下。

		喜欢的饮品类型
		茶	咖啡	热巧克力	总计
性别	男性	57	26	11	94
性别	女性	42	47	17	106
	总计	99	73	28	200

(a) 在 5% 显著性水平下，检验喜欢的饮品类型与性别之间是否存在关联。清楚地陈述你的假设并展示计算过程。期望频率应保留 2 位小数。 (b) 说明使用 0.5% 显著性水平会对你的结论产生什么影响。给出你的理由。

挑战：为什么卡方统计量服从卡方分布？

本节引导你理解为什么我们的检验统计量 $\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$ 服从卡方分布。这是一个有挑战性但很有价值的探索！

什么是卡方分布？

定义：卡方分布 如果 $Z_1, Z_2, \ldots, Z_k$ 是独立的标准正态随机变量（ $Z_i \sim N(0,1)$ ），则它们的平方和： $Q = Z_1^2 + Z_2^2 + \cdots + Z_k^2$ 服从自由度为 $k$ 的卡方分布，记作 $Q \sim \chi^2_k$ 。

关键洞察： 卡方分布从根本上是关于标准正态变量的平方和。

与我们的统计量的联系

我们的目标是证明当 $H_0$ 为真时， $\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$ 近似服从 $\chi^2_{k-1}$ 。

通过以下步骤理解为什么我们的统计量服从卡方分布。

设定： 我们投掷一枚骰子 $n$ 次。设 $O_i$ 为第 $i$ 面的观测计数， $E_i = n \cdot p_i$ 为 $H_0$ 下的期望计数。

A 部分： $O_i$ 的分布

(i) 每次投掷是一个独立试验。 $O_i$ 服从什么分布？（提示：这是在 $n$ 次试验中以概率 $p_i$ 计数成功次数。） (ii) 用 $n$ 和 $p_i$ 表示 $E[O_i]$ 和 $\text{Var}(O_i)$ 。 (iii) 对于大的 $n$ ，根据中心极限定理（Central Limit Theorem）， $O_i$ 近似服从正态分布。写出 $O_i$ 的近似分布。

B 部分：标准化残差

(i) 定义”残差” $R_i = O_i - E_i$ 。 $E[R_i]$ 是多少？ (ii) $\text{Var}(R_i)$ 是多少？（提示： $E_i = np_i$ 是常数。） (iii) 为了标准化 $R_i$ ，我们除以其标准差。证明： $Z_i = \frac{O_i - E_i}{\sqrt{E_i(1-p_i)}} \approx N(0, 1)$ 对于大的 $n$ 成立。

C 部分：约束与失去一个自由度

定义标准化残差： $Z_i = \frac{O_i - E_i}{\sqrt{E_i}} \approx N(0, 1)$

但有一个问题： $Z_i$ 之间不是独立的！它们满足一个约束。

(i) 证明 $\sum_{i=1}^{k} (O_i - E_i) = 0$ 。（提示： $\sum O_i$ 和 $\sum E_i$ 分别是什么？） (ii) 两边同除以适当的项，证明： $\sum_{i=1}^{k} \sqrt{p_i} \cdot Z_i = 0$ 其中我们使用了 $E_i = np_i$ 。这是对 $Z_i$ 值的一个线性约束！ (iii) 这个约束意味着知道任意 $k-1$ 个 $Z_i$ 值就确定了最后一个。因此，我们实际上只有 $k-1$ 个”自由”变量。

D 部分：分解为独立分量（进阶）

这里我们显式地展示统计量如何分解为 $k-1$ 个独立的标准正态变量的平方和。

核心思想： 我们可以通过正交变换将 $k$ 个相关的变量 $Z_1, \ldots, Z_k$ 变换为 $k-1$ 个独立的变量 $W_1, \ldots, W_{k-1}$ 。

简单情形： $k=2$ （两个类别）

考虑抛硬币实验： $O_1$ = 正面， $O_2$ = 反面， $O_1 + O_2 = n$ 。

(i) 写出 $Z_1 = \frac{O_1 - np_1}{\sqrt{np_1}}$ 和 $Z_2 = \frac{O_2 - np_2}{\sqrt{np_2}}$ 。 (ii) 利用约束 $O_1 + O_2 = n$ ，证明 $Z_2 = -\frac{\sqrt{p_1}}{\sqrt{p_2}} Z_1$ 。

（提示： $O_2 = n - O_1$ ，所以 $O_2 - np_2 = -(O_1 - np_1)$ 。）

(iii) 仅用 $Z_1$ 表示 $\chi^2 = Z_1^2 + Z_2^2$ ： $\chi^2 = Z_1^2 + \frac{p_1}{p_2}Z_1^2 = Z_1^2\left(1 + \frac{p_1}{p_2}\right) = Z_1^2 \cdot \frac{p_1 + p_2}{p_2} = \frac{Z_1^2}{p_2}$

但等等！我们需要验证这等于 $\chi^2_1$ 分布。定义： $W = \frac{O_1 - np_1}{\sqrt{np_1 p_2}}$ 证明 $W \sim N(0,1)$ （近似），并且 $\chi^2 = W^2 \sim \chi^2_1$ 。

一般情形： $k$ 个类别

对于 $k$ 个类别，我们可以构造 $k-1$ 个独立的标准正态变量 $W_1, \ldots, W_{k-1}$ ，使得： $\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} = W_1^2 + W_2^2 + \cdots + W_{k-1}^2 \sim \chi^2_{k-1}$

构造使用了**赫尔默特变换（Helmert’s transformation）**或类似的正交分解。虽然细节超出了我们的范围，但关键洞察是：

E 部分：为什么估计参数会消耗更多自由度

(i) 当我们从数据中估计 $m$ 个参数时，我们施加了 $m$ 个额外的约束（估计的参数必须以某种最优方式”拟合”数据）。 (ii) 每个约束从 $(k-1)$ 维空间中减少一个自由度。 (iii) 最终结果： $df = k - 1 - m$ 。 (iv) 示例： 对 5 个分组检验正态性：

$k = 5$ 个类别
$m = 2$ （估计 $\mu$ 和 $\sigma$ ）
$df = 5 - 1 - 2 = 2$

用你自己的话解释为什么从 $\bar{x}$ 估计 $\mu$ 和从 $s$ 估计 $\sigma$ 各自”消耗”了一个自由度。 :::

作业练习

给 125 名随机选取的求职者每人分配 8 项任务。记录每位求职者失败的任务数。结果如下。

求职者失败的任务数	0	1	2	3	4	5	6 或更多
频率	2	21	45	42	12	3	0

(a) 证明从该样本中随机选取一项任务失败的概率为 $0.3$ 。

一位雇主认为二项分布可能很好地模拟求职者在 8 项任务中失败的任务数。他使用了估计概率为 $0.3$ 的二项分布。计算得到的期望频率如下。

求职者失败的任务数	0	1	2	3	4	5	6 或更多
期望频率	7.21	24.71	37.06	$r$	17.02	5.83	$s$

(b) 求 $r$ 和 $s$ 的值，答案保留 2 位小数。 (c) 在 5% 显著性水平下，检验二项分布是否是这些数据的合适模型。清楚地陈述你的假设并展示计算过程。 (d) 该雇主认为所有求职者每项任务失败的概率相同。利用 (c) 部分的结果评论这一观点。

对一些男性和女性进行调查，要求他们在”不快乐”、“比较快乐”和”非常快乐”三个选项下评价自己的幸福感。结果如下表所示。

		幸福感
		不快乐	比较快乐	非常快乐	总计
性别	女性	9	43	34	86
性别	男性	13	25	16	54
	总计	22	68	50	140

陈述你的假设，在 5% 显著性水平下检验幸福感与性别之间是否存在关联的证据。清楚地展示你的计算过程。

附录：动手例题的解答

例题 1 解答：诚实骰子

1. 假设

$H_0$ ：均匀分布是这些数据的合适模型（ $P(1)=P(2)=\dots=P(6)=1/6$ ）。
$H_1$ ：均匀分布不是这些数据的合适模型。

2. 期望频率 总计 $n = 600$ 。 $H_0$ 下， $E_i = 600 \times \frac{1}{6} = 100$ （所有面）。

3. 计算 $\chi^2$

\begin{aligned} \chi^2 &= \frac{(98-100)^2}{100} + \frac{(102-100)^2}{100} + \frac{(95-100)^2}{100} + \frac{(105-100)^2}{100} + \frac{(96-100)^2}{100} + \frac{(104-100)^2}{100} \\ &= 0.04 + 0.04 + 0.25 + 0.25 + 0.16 + 0.16 = \mathbf{0.90} \end{aligned}

4. 自由度与临界值 $k = 6$ ， $m = 0$ （概率由公平骰子的定义给出）。 $df = 6 - 1 - 0 = 5$ 。临界值（ $\alpha=0.05, df=5$ ）为 11.070。

5. 结论 $0.90 < 11.070$ 。未能拒绝 $H_0$ 。没有充分证据表明骰子不公平；均匀分布是合适的模型。

例题 2 解答：二项分布

1. 假设

$H_0$ ：二项分布是这些数据的合适模型。
$H_1$ ：二项分布不是这些数据的合适模型。

2. 估计 $p$ 总投篮数 = 300。总成功数 = $0(45)+1(40)+2(13)+3(2) = 72$ 。 $\hat{p} = 72/300 = 0.24$ 。

3. 期望频率（合并前） 使用 $B(3, 0.24)$ ：

$X$	0	1	2	3
$E_i$	43.90	41.59	13.13	1.38

4. 五的法则与合并 $E_3 < 5$ ，因此必须将 $X=2$ 和 $X=3$ 合并。

$X$ （新类别）	0	1	$\ge 2$
$O_i$	45	40	15
$E_i$	43.90	41.59	14.51

5. 计算 $\chi^2$ $\chi^2 = \frac{(45-43.9)^2}{43.9} + \frac{(40-41.59)^2}{41.59} + \frac{(15-14.51)^2}{14.51} \approx 0.028 + 0.061 + 0.017 = \mathbf{0.106}$

6. 自由度 $k = 3$ （合并后！）， $m = 1$ （估计了 $p$ ）。 $df = 3 - 1 - 1 = \mathbf{1}$ 。

7. 结论 临界值（ $\alpha=0.05, df=1$ ）为 3.841。 $0.106 < 3.841$ 。未能拒绝 $H_0$ 。二项分布是合适的模型。

例题 3 解答：正态分布

1. 假设

$H_0$ ：正态分布是这些数据的合适模型。
$H_1$ ：正态分布不是这些数据的合适模型。

2. 区间 50-60 的概率 $P(50 \le X < 60) = P\left(\frac{50-64.5}{12} \le Z < \frac{60-64.5}{12}\right) = P(-1.208 \le Z < -0.375) = 0.2401$

3. 期望频率 $E_2 = 100 \times 0.2401 = 24.01$

4. 计算 $\chi^2$

\begin{aligned} \chi^2 &= \frac{(8-11.35)^2}{11.35} + \frac{(22-24.01)^2}{24.01} + \frac{(35-32.30)^2}{32.30} + \frac{(25-22.48)^2}{22.48} + \frac{(10-9.83)^2}{9.83} \\ &= 0.989 + 0.168 + 0.226 + 0.282 + 0.003 = \mathbf{1.668} \end{aligned}

5. 自由度 $k = 5$ 个分组。 $m = 2$ （估计了 $\mu$ 和 $\sigma$ ）。 $df = 5 - 1 - 2 = \mathbf{2}$ 。临界值（ $\alpha=0.05$ ）为 5.991。

6. 结论 $1.668 < 5.991$ 。未能拒绝 $H_0$ 。正态分布是合适的模型。

列联表解答

1. 假设 $H_0$ ：咖啡偏好与时段独立。 $H_1$ ：两者不独立。

2. 期望频率（合并前） $E_{ij} = \frac{\text{行合计} \times \text{列合计}}{\text{总计}}$

（期望值）	上午	下午	晚上
拿铁	60	36	4
浓缩	60	36	4

3. 五的法则与合并 由于 $E_{\text{拿铁, 晚上}} < 5$ 且 $E_{\text{浓缩, 晚上}} < 5$ ，必须将”下午”和”晚上”两列合并。

（观测值）	上午	下午/晚上
拿铁	70	30
浓缩	50	50

（期望值）	上午	下午/晚上
拿铁	60	40
浓缩	60	40

4. 计算 $\chi^2$

\begin{aligned} \chi^2 &= \frac{(70-60)^2}{60} + \frac{(30-40)^2}{40} + \frac{(50-60)^2}{60} + \frac{(50-40)^2}{40} \\ &= \frac{100}{60} + \frac{100}{40} + \frac{100}{60} + \frac{100}{40} \\ &= 1.667 + 2.5 + 1.667 + 2.5 = \mathbf{8.334} \end{aligned}

5. 自由度 $df = (r-1)(c-1) = (2-1)(2-1) = 1$ （使用合并后的表格！）。临界值（ $\alpha=0.05, df=1$ ）为 3.841。

6. 结论 $8.334 > 3.841$ 。拒绝 $H_0$ 。有显著证据表明咖啡偏好与时段之间存在关联。