S2 第七章：假设检验

从怀疑到科学证明：统计决策的艺术

还记得上一章的手机游戏调查吗？我们在 200 次抽卡中观察到 0 张 SSR 卡牌，而公司声称掉率为 1%。我们计算出这种情况随机发生的概率为 13.5%。但我们要如何判断：13.5% 是否”足够小”，可以得出公司在撒谎的结论？

本章介绍假设检验——将统计证据转化为对现实世界理性、可辩护结论的系统框架。

1. 科学证明的架构

1.1 回到手机游戏之谜

让我们用假设检验框架来形式化我们的调查：

例 1.1：SSR 调查——形式化设置

情境： 你在 200 次抽卡中观察到 0 张 SSR 卡牌。游戏公司声称 $p = 0.01$ （1% 掉率）。

两种对立主张：

公司声明： “掉率就是宣传的 1%”
你的怀疑： “实际掉率低于 1%”

统计问题： 证据支持哪种主张？

挑战： 我们无法直接证明任何一方是对的。相反，我们问：“如果公司的声明是真的，我们观察到的证据有多大的可能性？”

这引出了假设检验的基本概念。

1.2 两种假设：无罪推定原则

定义 1.1：原假设（ $H_0$ ）

原假设是关于总体参数的陈述，代表”现状”或”无效果”的立场。在被证明错误之前，我们假定它是正确的。

定义 1.2：备择假设（ $H_1$ ）

备择假设是与原假设矛盾的陈述。它代表我们试图证明的内容或”研究主张”。

例 1.2：SSR 调查的假设

原假设： $H_0: p = 0.01$ （“游戏公司在 1% 掉率上是诚实的”）

备择假设： $H_1: p < 0.01$ （“实际掉率低于声明”）

逻辑： 我们假定公司是无辜的（ $H_0$ ），除非我们有足够强的证据证明他们在撒谎（ $H_1$ ）。

1.3 备择假设的三种类型

备择假设有三种形式，每种导致不同的检验方法：

例 1.3：备择假设的类型

假设我们正在检验关于总体比例 $p$ 的声明：

1. 左尾检验（单尾）：

$H_0: p = p_0$ vs. $H_1: p < p_0$

2. 右尾检验（单尾）：

$H_0: p = p_0$ vs. $H_1: p > p_0$

3. 双尾检验：

$H_0: p = p_0$ vs. $H_1: p \neq p_0$

例 1.4：课堂练习——识别假设

对于每个情境，识别 $H_0$ 和 $H_1$ ，并分类检验类型：

情境 A： 一家制药公司声称他们的新止痛药对 85% 的患者有效。你怀疑其效果可能更低。

$H_0$ : ___ \quad $H_1$ : ___ \quad 检验类型: ___

情境 B： 一家制造商声称他们的电池平均寿命恰好为 100 小时。你想检验这个说法是否准确。

$H_0$ : ___ \quad $H_1$ : ___ \quad 检验类型: ___

情境 C： 一位校长认为一个新项目将使考试通过率从目前的 72% 提高。

$H_0$ : ___ \quad $H_1$ : ___ \quad 检验类型: ___

2. 决策机制

2.1 检验统计量：将数据转化为证据

定义 2.1：检验统计量

检验统计量是来自样本的观测值，我们用它来评估数据是否与原假设一致。

例 2.1：SSR 调查的检验统计量

我们的设置：

$H_0: p = 0.01$ （公司声明）
$H_1: p < 0.01$ （我们的怀疑）
样本： $n = 200$ 次抽卡
检验统计量： $X = 0$ 张 SSR 卡牌

在 $H_0$ 下： 如果公司是诚实的，则 $X \sim \text{Poisson}(\lambda = 200 \times 0.01 = 2)$

关键问题： 观察到 $X = 0$ 或更极端情况（支持 $H_1$ ）的可能性有多大？

2.2 p 值：量化证据强度

p 值是假设检验中的核心概念。

定义 2.2：p 值

p 值是在假定 $H_0$ 为真的情况下，观察到检验统计量值（或在 $H_1$ 方向上更极端的值）的概率。

例 2.2：不同检验类型的 p 值计算

给定： 检验统计量 $X = x_{\text{observed}}$ ， $H_0$ 下的期望值为 $\mu_0$

左尾检验（ $H_1: \theta < \theta_0$ ）：

当观测值低于期望值时使用
p 值 = $P(X \leq x_{\text{observed}})$ （在 $H_0$ 下）

右尾检验（ $H_1: \theta > \theta_0$ ）：

当观测值高于期望值时使用
p 值 = $P(X \geq x_{\text{observed}})$ （在 $H_0$ 下）

双尾检验（ $H_1: \theta \neq \theta_0$ ）：

当检验任何与期望值的差异时使用
若 $x_{\text{observed}} < \mu_0$ ：p 值 = $2 \times P(X \leq x_{\text{observed}})$
若 $x_{\text{observed}} > \mu_0$ ：p 值 = $2 \times P(X \geq x_{\text{observed}})$

例 2.3：为什么是”更极端”？——p 值背后的逻辑

学生常问的问题： “为什么不直接计算 $P(X = x_{\text{observed}})$ ？为什么要包含更极端的值？”

关键洞察： 我们在问”这份证据应该让我们有多惊讶？”

情境： 一个硬币制造商声称他们的硬币是公平的（ $p = 0.5$ ）。你抛了 10 次，观察到 8 次正面。你应该怀疑吗？

设置：

$H_0: p = 0.5$ （硬币是公平的）
$H_1: p > 0.5$ （硬币偏向正面）
检验统计量： $X = 8$ 次正面（10 次抛掷）
在 $H_0$ 下： $X \sim \text{Binomial}(10, 0.5)$

方法 1——错误做法（仅精确概率）：

$P(X = 8) = \binom{10}{8} \times 0.5^{10} = 45 \times \frac{1}{1024} \approx 0.044$

方法 2——正确做法（包含更极端值）：

由于 $X = 8 > 5$ （期望值），我们计算：

$\text{p 值} = P(X \geq 8) = P(X = 8) + P(X = 9) + P(X = 10)$

$= 0.044 + 0.010 + 0.001 = 0.055$

为什么方法 2 是正确的：

逻辑： 如果原假设为真，任何”至少与我们观测到的一样极端”的结果都是同样令人惊讶的反对 $H_0$ 的证据。

如果我们观察到 8 次正面，我们会怀疑
如果我们观察到 9 次正面，我们会更加怀疑
如果我们观察到 10 次正面，我们会极其怀疑

由于我们在问”得到这么强或更强的反对 $H_0$ 的证据的可能性有多大？“，我们必须包含所有这些更极端的情况。

例 2.4：SSR 调查——p 值计算

我们的检验： $H_0: p = 0.01$ vs. $H_1: p < 0.01$ （左尾检验）

检验统计量： $X = 0$ 张 SSR 卡牌（200 次抽卡）

在 $H_0$ 下： $X \sim \text{Poisson}(2)$

p 值计算：

由于观察到 $X = 0$ 且支持 $H_1: p < 0.01$ ，我们计算：

$\text{p 值} = P(X \leq 0) = P(X = 0) = e^{-2} \cdot \frac{2^0}{0!} = e^{-2} \approx 0.135$

解释： 如果公司说的是实话，观察到 0 张或更少 SSR 卡牌的概率为 13.5%。

2.3 显著性水平：划线定界

定义 2.3：显著性水平（ $\alpha$ ）

显著性水平是我们认为证据”足够强”以拒绝原假设的阈值概率。常见值为 $\alpha = 0.05$ 、 $0.01$ 或 $0.10$ 。

例 2.5：SSR 调查——最终决策

我们的结果：

p 值 = 0.135
使用 $\alpha = 0.05$ （5% 显著性水平）

决策： 由于 $0.135 > 0.05$ ，我们未能拒绝 $H_0$ 。

结论： 在 5% 显著性水平下，我们没有足够的证据证明游戏公司在 SSR 掉率上撒谎。

商业解读： 观察到的证据（0 张 SSR 卡牌）并不异常到足以对公司提出欺诈指控。

3. 高级应用：多种情境

3.1 右尾检验：当事情”好得不像真的”

例 3.1：可疑的幸运玩家

情境： 一名玩家声称在同一游戏中 200 次抽卡获得了 8 张 SSR 卡牌。其他玩家怀疑他们可能在使用作弊手段。

设置检验：

$H_0: p = 0.01$ （玩家没有作弊）
$H_1: p > 0.01$ （玩家有不公平优势）
检验统计量： $X = 8$ 张 SSR 卡牌
在 $H_0$ 下： $X \sim \text{Poisson}(2)$

计算 p 值：

由于观察到 $X = 8 > 2$ （期望值），这是右尾检验：

$\text{p 值} = P(X \geq 8) = 1 - P(X \leq 7)$

使用泊松表或计算器：

$P(X \leq 7) \approx 0.999$

$\text{p 值} = 1 - 0.999 = 0.001$

决策： 在 $\alpha = 0.05$ 下，由于 $0.001 < 0.05$ ，我们拒绝 $H_0$ 。

结论： 我们有强有力的证据表明该玩家具有不公平优势。

3.2 双尾检验：检验任何差异

例 3.2：制造业质量控制

情境： 一家工厂生产电子元件，目标缺陷率为 2%。质量控制部门想检验今天的生产批次是否有不同的缺陷率。

样本数据： 在 300 个元件的随机样本中，12 个有缺陷。

设置检验：

$H_0: p = 0.02$ （缺陷率达标）
$H_1: p \neq 0.02$ （缺陷率偏离目标）
检验统计量： $X = 12$ 个缺陷元件
在 $H_0$ 下： $X \sim \text{Poisson}(\lambda = 300 \times 0.02 = 6)$

确定方向：

$H_0$ 下的期望值为 $\lambda = 6$

观测值 $X = 12 > 6$ ，因此使用右尾

计算 p 值：

对于 $X = 12$ 的双尾检验：

$\text{p 值} = 2 \times P(X \geq 12)$

使用泊松计算：

$P(X \geq 12) = 1 - P(X \leq 11) \approx 1 - 0.999 = 0.001$

$\text{p 值} = 2 \times 0.001 = 0.002$

决策： 在 $\alpha = 0.05$ 下，由于 $0.002 < 0.05$ ，我们拒绝 $H_0$ 。

结论： 今天的缺陷率与 2% 的目标显著不同。工厂应调查潜在的质量问题。

例 3.3：课堂练习——二项假设检验

一家制药公司声称他们的新药对 70% 的患者有效。一项 50 名患者的临床试验显示 40 名患者对治疗有积极反应。

你的任务： 使用 $\alpha = 0.10$ 检验该药的有效性是否与声称的 70% 不同。

步骤 1： 建立假设

$H_0$ : ___ \quad $H_1$ : ___ \quad 检验类型: ___

步骤 2： 确定检验统计量及其在 $H_0$ 下的分布

检验统计量： $X =$ ___

在 $H_0$ 下： $X \sim$ ___

步骤 3： 计算 p 值

$H_0$ 下的期望值： $E(X) =$ ___

由于 $X = 40$ \underline{\quad} $E(X)$ ，我们使用___尾。

p 值 = ___

步骤 4： 做出决策并得出结论

4. 临界域方法

p 值的替代方法是临界域法，它预先确定决策边界。

4.1 临界值与临界域

定义 4.1：临界域

临界域是一组会导致我们拒绝原假设的检验统计量值。如果观测到的检验统计量落入此区域，我们拒绝 $H_0$ 。

定义 4.2：临界值

临界值是将临界域与接受域分开的边界点。

例 4.1：SSR 调查的临界域

检验设置：

$H_0: p = 0.01$ vs. $H_1: p < 0.01$ （左尾检验）
在 $H_0$ 下： $X \sim \text{Poisson}(2)$
显著性水平： $\alpha = 0.05$

寻找临界域：

我们需要找到最大的 $c$ 值，使得在 $H_0$ 下 $P(X \leq c) \leq 0.05$ 。

使用泊松概率：

$P(X = 0) = 0.135 > 0.05$

$P(X \leq 0) = 0.135 > 0.05$

由于即使 $P(X = 0) > 0.05$ ，在 $\alpha = 0.05$ 下没有临界域。

解释： 在 5% 水平下，无论观察到什么结果都无法拒绝 $H_0$ 。这说明我们的样本量 200 可能太小，无法在此显著性水平下检测到怀疑的差异。

例 4.2：双尾临界域

检验设置：

$H_0: \lambda = 10$ vs. $H_1: \lambda \neq 10$ （双尾检验）
在 $H_0$ 下： $X \sim \text{Poisson}(10)$
显著性水平： $\alpha = 0.05$

寻找临界域：

对于双尾检验，我们将 $\alpha = 0.05$ 分成两尾各 0.025。

下临界值： 找到 $c_1$ 使得 $P(X \leq c_1) \leq 0.025$

上临界值： 找到 $c_2$ 使得 $P(X \geq c_2) \leq 0.025$

使用 $\lambda = 10$ 的泊松表：

$P(X \leq 4) = 0.029 \approx 0.025$ ，所以 $c_1 = 4$
$P(X \geq 17) = 0.025$ ，所以 $c_2 = 17$

临界域： $\{0, 1, 2, 3, 4\} \cup \{17, 18, 19, \ldots\}$

决策规则： 若 $X \leq 4$ 或 $X \geq 17$ ，拒绝 $H_0$

5. 实际应用

5.1 医学检测

例 5.1：新冠快速检测验证

一家医疗器械公司开发了一种新冠快速检测。他们声称其灵敏度为 95%（正确识别阳性病例）。

研究设计： 用快速检测测试 200 名确诊新冠阳性患者。185 人检测呈阳性。

假设检验：

$H_0: p = 0.95$ （公司声明正确）
$H_1: p < 0.95$ （检测灵敏度低于声称）
检验统计量： $X = 185$ 个阳性结果
在 $H_0$ 下： $X \sim \text{Binomial}(200, 0.95) \approx \text{Poisson}(190)$

分析：

$H_0$ 下的期望值： $200 \times 0.95 = 190$

观测值： $X = 185 < 190$ ，因此是左尾检验

p 值 $= P(X \leq 185) \approx 0.18$ （使用正态近似）

结论： 在 $\alpha = 0.05$ 下，未能拒绝 $H_0$ 。该检测的灵敏度与 95% 的声明一致。

5.2 商业质量控制

例 5.2：电商退货率分析

一家在线零售商的电子产品历史退货率为 5%。在实施新的质量检查后，他们想确定退货率是否有所下降。

数据： 实施后的第一个月，500 个电子产品订单中有 18 个被退回。

设置：

$H_0: p = 0.05$ （没有改善）
$H_1: p < 0.05$ （退货率下降）
检验统计量： $X = 18$ 个退货
在 $H_0$ 下： $X \sim \text{Poisson}(25)$

分析：

期望值： $500 \times 0.05 = 25$

观测值： $X = 18 < 25$

p 值 $= P(X \leq 18) \approx 0.11$

商业决策： 在 $\alpha = 0.05$ 下，没有足够证据表明质量改进降低了退货率。零售商可以考虑：

收集更多数据
调查其他因素
如果假阴性成本很高，可以设置更高的显著性水平

例 5.3：课堂练习——医疗治疗效果

某种疾病的标准治疗成功率为 50%。一位医生在该领域进行了研究，开发了一种新药，在 20 名患者中有 11 名成功。医生声称新药代表了对标准治疗的改进。

在 5% 显著性水平下，检验医生的声明。

例 5.4：课堂练习——餐厅饮食偏好

长期以来，Enrico 餐厅的非素食与素食餐比例为 2 比 1。在 Manuel 餐厅，随机抽取 10 位点餐顾客中只有一位点了素食餐。

使用 5% 显著性水平，检验 Manuel 餐厅的素食餐比例是否与 Enrico 餐厅不同。

本章总结：统计证明的力量

假设检验通过以下步骤将不确定的观察转化为自信的决策：

不同分布的关键洞察：

二项分布： 在固定试验中计算成功次数时使用
泊松分布： 用于稀有事件或大 $n$ 、小 $p$ 的情境
单尾 vs. 双尾： 取决于你是检验特定方向还是任何差异

革命性意义： 我们从主观判断（“那看起来不寻常”）转变为客观评估（“这种情况巧合发生的概率只有 1.3%”）。这种精确性使得科学、商业和公共政策中的循证决策成为可能。

课后练习

练习 6684/01/June15/5

Liftserall 声称他们在一栋公寓楼维护的电梯平均每月随机故障 4 次。为了检验这一点，记录了电梯一个月内的故障次数。

(a) 使用 5% 显著性水平，找到原假设”电梯故障的平均速率为每月 4 次”的双尾检验临界域。每个尾部的拒绝概率应尽可能接近 2.5%。(3)

在一个随机选择的 1 个月期间，电梯故障了 3 次。

(b) 在 5% 显著性水平下，检验 Liftserall 的声明是否正确。清楚陈述你的假设。(2)

练习 WST02/01/June15/2

一家公司生产巧克力曲奇饼干。每块饼干的巧克力豆数量服从均值为 8 的泊松分布。

(a) 求随机选择的一块饼干中巧克力豆数量不为 8 的概率。(2)

一个小包装包含 4 块这样的饼干，随机选择。

(b) 求包装中每块饼干至少有 8 颗巧克力豆的概率。(3)

一个大包装包含 9 块这样的饼干，随机选择。

一家商店随机出售饼干包装，速率为每小时 1.5 包。广告活动后，4 小时内售出 11 包。

(d) 在 5% 显著性水平下，检验是否有证据表明饼干包装的销售速率增加了。清楚陈述你的假设。(5)

练习 WST02/01/June15/6

一家电脑商店的历史数据显示 40% 的顾客在购买产品时会购买保险。在一个 30 名顾客的随机样本中， $X$ 人购买了保险。

(a) 写出 $X$ 分布的合适模型。(1)

(b) 陈述为了使 (a) 中的模型合适而做出的一个假设。(1)

购买保险的顾客少于 $r$ 人的概率小于 0.05。

抽取第二个 100 名顾客的随机样本。

至少 $t$ 名顾客购买保险的概率为 0.938，精确到 3 位小数。

(d) 使用适当的近似方法，求 $t$ 的值。(6)

该商店现在为所有产品提供延长保修。此后，抽取了 25 名顾客的随机样本，其中 6 人购买了保险。

(e) 在 10% 显著性水平下，检验是否有证据表明购买保险的顾客比例下降了。清楚陈述你的假设。(5)

练习 WST02/01/June15/4

从参数为 $\lambda$ 的泊松分布中抽取单个观测值 $x$ 。

该观测值用于在 5% 显著性水平下检验

$H_0: \lambda = k \quad \text{vs} \quad H_1: \lambda \neq k$

其中 $k$ 为正整数。

已知该检验的临界域为 $(X = 0) \cup (X > 9)$ ：

(a) 求 $k$ 的值，并证明你的答案。(3)

(b) 求该检验的实际显著性水平。(2)

练习 WST02/01/Jan16/5

一座火山在 10 年期间的喷发次数服从均值为 1 的泊松分布。

(a) 求该火山在随机选择的 2 个 10 年期间中每个期间至少喷发一次的概率。(2)

(b) 求该火山在随机选择的 20 年期间内不喷发的概率。(2)

该火山在随机选择的 $w$ 年期间内恰好喷发 4 次的概率为 0.0443（精确到 3 位有效数字）。

一位科学家声称该火山在 10 年期间内的平均喷发次数超过 1 次。

她随机选择一个 100 年期间来检验她的声明。

(d) 陈述该检验的原假设。(1)

(e) 确定 5% 显著性水平下的检验临界域。(2)

练习 WST02/01/June16/3

从 $X \sim \text{B}(12, p)$ 中抽取单个观测值 $x$ 。

该观测值用于检验 $H_0: p = 0.45$ 对 $H_1: p > 0.45$ 。

(a) 使用 5% 显著性水平，找到该检验的临界域。(2)

(b) 陈述该检验的实际显著性水平。(1)

观测值为 9。

(d) 陈述如果在以下显著性水平下进行相同检验，结论是否会改变： (i) 10% 显著性水平，(2) (ii) 1% 显著性水平。