跳转到内容

S2 第七章:假设检验

从怀疑到科学证明:统计决策的艺术

Section titled “从怀疑到科学证明:统计决策的艺术”

还记得上一章的手机游戏调查吗?我们在 200 次抽卡中观察到 0 张 SSR 卡牌,而公司声称掉率为 1%。我们计算出这种情况随机发生的概率为 13.5%。但我们要如何判断:13.5% 是否”足够小”,可以得出公司在撒谎的结论?

本章介绍假设检验——将统计证据转化为对现实世界理性、可辩护结论的系统框架。

让我们用假设检验框架来形式化我们的调查:

例 1.1:SSR 调查——形式化设置

情境: 你在 200 次抽卡中观察到 0 张 SSR 卡牌。游戏公司声称 p=0.01p = 0.01(1% 掉率)。

两种对立主张:

  • 公司声明: “掉率就是宣传的 1%”
  • 你的怀疑: “实际掉率低于 1%”

统计问题: 证据支持哪种主张?

挑战: 我们无法直接证明任何一方是对的。相反,我们问:“如果公司的声明是真的,我们观察到的证据有多大的可能性?”

这引出了假设检验的基本概念。

定义 1.1:原假设(H0H_0

原假设是关于总体参数的陈述,代表”现状”或”无效果”的立场。在被证明错误之前,我们假定它是正确的。

定义 1.2:备择假设(H1H_1

备择假设是与原假设矛盾的陈述。它代表我们试图证明的内容或”研究主张”。

例 1.2:SSR 调查的假设

原假设: H0:p=0.01H_0: p = 0.01 (“游戏公司在 1% 掉率上是诚实的”)

备择假设: H1:p<0.01H_1: p < 0.01 (“实际掉率低于声明”)

逻辑: 我们假定公司是无辜的(H0H_0),除非我们有足够强的证据证明他们在撒谎(H1H_1)。

备择假设有三种形式,每种导致不同的检验方法:

例 1.3:备择假设的类型

假设我们正在检验关于总体比例 pp 的声明:

1. 左尾检验(单尾):

  • H0:p=p0H_0: p = p_0 vs. H1:p<p0H_1: p < p_0

2. 右尾检验(单尾):

  • H0:p=p0H_0: p = p_0 vs. H1:p>p0H_1: p > p_0

3. 双尾检验:

  • H0:p=p0H_0: p = p_0 vs. H1:pp0H_1: p \neq p_0

例 1.4:课堂练习——识别假设

对于每个情境,识别 H0H_0H1H_1,并分类检验类型:

情境 A: 一家制药公司声称他们的新止痛药对 85% 的患者有效。你怀疑其效果可能更低。

H0H_0: ___ \quad H1H_1: ___ \quad 检验类型: ___

情境 B: 一家制造商声称他们的电池平均寿命恰好为 100 小时。你想检验这个说法是否准确。

H0H_0: ___ \quad H1H_1: ___ \quad 检验类型: ___

情境 C: 一位校长认为一个新项目将使考试通过率从目前的 72% 提高。

H0H_0: ___ \quad H1H_1: ___ \quad 检验类型: ___

2.1 检验统计量:将数据转化为证据

Section titled “2.1 检验统计量:将数据转化为证据”

定义 2.1:检验统计量

检验统计量是来自样本的观测值,我们用它来评估数据是否与原假设一致。

例 2.1:SSR 调查的检验统计量

我们的设置:

  • H0:p=0.01H_0: p = 0.01(公司声明)
  • H1:p<0.01H_1: p < 0.01(我们的怀疑)
  • 样本:n=200n = 200 次抽卡
  • 检验统计量:X=0X = 0 张 SSR 卡牌

H0H_0 下: 如果公司是诚实的,则 XPoisson(λ=200×0.01=2)X \sim \text{Poisson}(\lambda = 200 \times 0.01 = 2)

关键问题: 观察到 X=0X = 0 或更极端情况(支持 H1H_1)的可能性有多大?

p 值是假设检验中的核心概念。

定义 2.2:p 值

p 值是在假定 H0H_0 为真的情况下,观察到检验统计量值(或在 H1H_1 方向上更极端的值)的概率。

例 2.2:不同检验类型的 p 值计算

给定: 检验统计量 X=xobservedX = x_{\text{observed}}H0H_0 下的期望值为 μ0\mu_0

左尾检验(H1:θ<θ0H_1: \theta < \theta_0):

  • 当观测值低于期望值时使用
  • p 值 = P(Xxobserved)P(X \leq x_{\text{observed}})(在 H0H_0 下)

右尾检验(H1:θ>θ0H_1: \theta > \theta_0):

  • 当观测值高于期望值时使用
  • p 值 = P(Xxobserved)P(X \geq x_{\text{observed}})(在 H0H_0 下)

双尾检验(H1:θθ0H_1: \theta \neq \theta_0):

  • 当检验任何与期望值的差异时使用
  • xobserved<μ0x_{\text{observed}} < \mu_0:p 值 = 2×P(Xxobserved)2 \times P(X \leq x_{\text{observed}})
  • xobserved>μ0x_{\text{observed}} > \mu_0:p 值 = 2×P(Xxobserved)2 \times P(X \geq x_{\text{observed}})

例 2.3:为什么是”更极端”?——p 值背后的逻辑

学生常问的问题: “为什么不直接计算 P(X=xobserved)P(X = x_{\text{observed}})?为什么要包含更极端的值?”

关键洞察: 我们在问”这份证据应该让我们有多惊讶?”

情境: 一个硬币制造商声称他们的硬币是公平的(p=0.5p = 0.5)。你抛了 10 次,观察到 8 次正面。你应该怀疑吗?

设置:

  • H0:p=0.5H_0: p = 0.5(硬币是公平的)
  • H1:p>0.5H_1: p > 0.5(硬币偏向正面)
  • 检验统计量:X=8X = 8 次正面(10 次抛掷)
  • H0H_0 下:XBinomial(10,0.5)X \sim \text{Binomial}(10, 0.5)

方法 1——错误做法(仅精确概率):

P(X=8)=(108)×0.510=45×110240.044P(X = 8) = \binom{10}{8} \times 0.5^{10} = 45 \times \frac{1}{1024} \approx 0.044

方法 2——正确做法(包含更极端值):

由于 X=8>5X = 8 > 5(期望值),我们计算:

p 值=P(X8)=P(X=8)+P(X=9)+P(X=10)\text{p 值} = P(X \geq 8) = P(X = 8) + P(X = 9) + P(X = 10)

=0.044+0.010+0.001=0.055= 0.044 + 0.010 + 0.001 = 0.055

为什么方法 2 是正确的:

逻辑: 如果原假设为真,任何”至少与我们观测到的一样极端”的结果都是同样令人惊讶的反对 H0H_0 的证据。

  • 如果我们观察到 8 次正面,我们会怀疑
  • 如果我们观察到 9 次正面,我们会更加怀疑
  • 如果我们观察到 10 次正面,我们会极其怀疑

由于我们在问”得到这么强或更强的反对 H0H_0 的证据的可能性有多大?“,我们必须包含所有这些更极端的情况。

例 2.4:SSR 调查——p 值计算

我们的检验: H0:p=0.01H_0: p = 0.01 vs. H1:p<0.01H_1: p < 0.01(左尾检验)

检验统计量: X=0X = 0 张 SSR 卡牌(200 次抽卡)

H0H_0 下: XPoisson(2)X \sim \text{Poisson}(2)

p 值计算:

由于观察到 X=0X = 0 且支持 H1:p<0.01H_1: p < 0.01,我们计算:

p 值=P(X0)=P(X=0)=e2200!=e20.135\text{p 值} = P(X \leq 0) = P(X = 0) = e^{-2} \cdot \frac{2^0}{0!} = e^{-2} \approx 0.135

解释: 如果公司说的是实话,观察到 0 张或更少 SSR 卡牌的概率为 13.5%。

定义 2.3:显著性水平(α\alpha

显著性水平是我们认为证据”足够强”以拒绝原假设的阈值概率。常见值为 α=0.05\alpha = 0.050.010.010.100.10

例 2.5:SSR 调查——最终决策

我们的结果:

  • p 值 = 0.135
  • 使用 α=0.05\alpha = 0.05(5% 显著性水平)

决策: 由于 0.135>0.050.135 > 0.05,我们未能拒绝 H0H_0

结论: 在 5% 显著性水平下,我们没有足够的证据证明游戏公司在 SSR 掉率上撒谎。

商业解读: 观察到的证据(0 张 SSR 卡牌)并不异常到足以对公司提出欺诈指控。

3.1 右尾检验:当事情”好得不像真的”

Section titled “3.1 右尾检验:当事情”好得不像真的””

例 3.1:可疑的幸运玩家

情境: 一名玩家声称在同一游戏中 200 次抽卡获得了 8 张 SSR 卡牌。其他玩家怀疑他们可能在使用作弊手段。

设置检验:

  • H0:p=0.01H_0: p = 0.01(玩家没有作弊)
  • H1:p>0.01H_1: p > 0.01(玩家有不公平优势)
  • 检验统计量:X=8X = 8 张 SSR 卡牌
  • H0H_0 下:XPoisson(2)X \sim \text{Poisson}(2)

计算 p 值:

由于观察到 X=8>2X = 8 > 2(期望值),这是右尾检验:

p 值=P(X8)=1P(X7)\text{p 值} = P(X \geq 8) = 1 - P(X \leq 7)

使用泊松表或计算器:

P(X7)0.999P(X \leq 7) \approx 0.999

p 值=10.999=0.001\text{p 值} = 1 - 0.999 = 0.001

决策:α=0.05\alpha = 0.05 下,由于 0.001<0.050.001 < 0.05,我们拒绝 H0H_0

结论: 我们有强有力的证据表明该玩家具有不公平优势。

例 3.2:制造业质量控制

情境: 一家工厂生产电子元件,目标缺陷率为 2%。质量控制部门想检验今天的生产批次是否有不同的缺陷率。

样本数据: 在 300 个元件的随机样本中,12 个有缺陷。

设置检验:

  • H0:p=0.02H_0: p = 0.02(缺陷率达标)
  • H1:p0.02H_1: p \neq 0.02(缺陷率偏离目标)
  • 检验统计量:X=12X = 12 个缺陷元件
  • H0H_0 下:XPoisson(λ=300×0.02=6)X \sim \text{Poisson}(\lambda = 300 \times 0.02 = 6)

确定方向:

H0H_0 下的期望值为 λ=6\lambda = 6

观测值 X=12>6X = 12 > 6,因此使用右尾

计算 p 值:

对于 X=12X = 12 的双尾检验:

p 值=2×P(X12)\text{p 值} = 2 \times P(X \geq 12)

使用泊松计算:

P(X12)=1P(X11)10.999=0.001P(X \geq 12) = 1 - P(X \leq 11) \approx 1 - 0.999 = 0.001

p 值=2×0.001=0.002\text{p 值} = 2 \times 0.001 = 0.002

决策:α=0.05\alpha = 0.05 下,由于 0.002<0.050.002 < 0.05,我们拒绝 H0H_0

结论: 今天的缺陷率与 2% 的目标显著不同。工厂应调查潜在的质量问题。

例 3.3:课堂练习——二项假设检验

一家制药公司声称他们的新药对 70% 的患者有效。一项 50 名患者的临床试验显示 40 名患者对治疗有积极反应。

你的任务: 使用 α=0.10\alpha = 0.10 检验该药的有效性是否与声称的 70% 不同。

步骤 1: 建立假设

H0H_0: ___ \quad H1H_1: ___ \quad 检验类型: ___

步骤 2: 确定检验统计量及其在 H0H_0 下的分布

检验统计量:X=X = ___

H0H_0 下:XX \sim ___

步骤 3: 计算 p 值

H0H_0 下的期望值:E(X)=E(X) = ___

由于 X=40X = 40 \underline{\quad} E(X)E(X),我们使用___尾。

p 值 = ___

步骤 4: 做出决策并得出结论

p 值的替代方法是临界域法,它预先确定决策边界。

定义 4.1:临界域

临界域是一组会导致我们拒绝原假设的检验统计量值。如果观测到的检验统计量落入此区域,我们拒绝 H0H_0

定义 4.2:临界值

临界值是将临界域与接受域分开的边界点。

例 4.1:SSR 调查的临界域

检验设置:

  • H0:p=0.01H_0: p = 0.01 vs. H1:p<0.01H_1: p < 0.01(左尾检验)
  • H0H_0 下:XPoisson(2)X \sim \text{Poisson}(2)
  • 显著性水平:α=0.05\alpha = 0.05

寻找临界域:

我们需要找到最大的 cc 值,使得在 H0H_0P(Xc)0.05P(X \leq c) \leq 0.05

使用泊松概率:

P(X=0)=0.135>0.05P(X = 0) = 0.135 > 0.05

P(X0)=0.135>0.05P(X \leq 0) = 0.135 > 0.05

由于即使 P(X=0)>0.05P(X = 0) > 0.05,在 α=0.05\alpha = 0.05 下没有临界域。

解释: 在 5% 水平下,无论观察到什么结果都无法拒绝 H0H_0。这说明我们的样本量 200 可能太小,无法在此显著性水平下检测到怀疑的差异。

例 4.2:双尾临界域

检验设置:

  • H0:λ=10H_0: \lambda = 10 vs. H1:λ10H_1: \lambda \neq 10(双尾检验)
  • H0H_0 下:XPoisson(10)X \sim \text{Poisson}(10)
  • 显著性水平:α=0.05\alpha = 0.05

寻找临界域:

对于双尾检验,我们将 α=0.05\alpha = 0.05 分成两尾各 0.025。

下临界值: 找到 c1c_1 使得 P(Xc1)0.025P(X \leq c_1) \leq 0.025

上临界值: 找到 c2c_2 使得 P(Xc2)0.025P(X \geq c_2) \leq 0.025

使用 λ=10\lambda = 10 的泊松表:

  • P(X4)=0.0290.025P(X \leq 4) = 0.029 \approx 0.025,所以 c1=4c_1 = 4
  • P(X17)=0.025P(X \geq 17) = 0.025,所以 c2=17c_2 = 17

临界域: {0,1,2,3,4}{17,18,19,}\{0, 1, 2, 3, 4\} \cup \{17, 18, 19, \ldots\}

决策规则:X4X \leq 4X17X \geq 17,拒绝 H0H_0

例 5.1:新冠快速检测验证

一家医疗器械公司开发了一种新冠快速检测。他们声称其灵敏度为 95%(正确识别阳性病例)。

研究设计: 用快速检测测试 200 名确诊新冠阳性患者。185 人检测呈阳性。

假设检验:

  • H0:p=0.95H_0: p = 0.95(公司声明正确)
  • H1:p<0.95H_1: p < 0.95(检测灵敏度低于声称)
  • 检验统计量:X=185X = 185 个阳性结果
  • H0H_0 下:XBinomial(200,0.95)Poisson(190)X \sim \text{Binomial}(200, 0.95) \approx \text{Poisson}(190)

分析:

H0H_0 下的期望值:200×0.95=190200 \times 0.95 = 190

观测值:X=185<190X = 185 < 190,因此是左尾检验

p 值 =P(X185)0.18= P(X \leq 185) \approx 0.18(使用正态近似)

结论:α=0.05\alpha = 0.05 下,未能拒绝 H0H_0。该检测的灵敏度与 95% 的声明一致。

例 5.2:电商退货率分析

一家在线零售商的电子产品历史退货率为 5%。在实施新的质量检查后,他们想确定退货率是否有所下降。

数据: 实施后的第一个月,500 个电子产品订单中有 18 个被退回。

设置:

  • H0:p=0.05H_0: p = 0.05(没有改善)
  • H1:p<0.05H_1: p < 0.05(退货率下降)
  • 检验统计量:X=18X = 18 个退货
  • H0H_0 下:XPoisson(25)X \sim \text{Poisson}(25)

分析:

期望值:500×0.05=25500 \times 0.05 = 25

观测值:X=18<25X = 18 < 25

p 值 =P(X18)0.11= P(X \leq 18) \approx 0.11

商业决策:α=0.05\alpha = 0.05 下,没有足够证据表明质量改进降低了退货率。零售商可以考虑:

  • 收集更多数据
  • 调查其他因素
  • 如果假阴性成本很高,可以设置更高的显著性水平

例 5.3:课堂练习——医疗治疗效果

某种疾病的标准治疗成功率为 50%。一位医生在该领域进行了研究,开发了一种新药,在 20 名患者中有 11 名成功。医生声称新药代表了对标准治疗的改进。

在 5% 显著性水平下,检验医生的声明。

例 5.4:课堂练习——餐厅饮食偏好

长期以来,Enrico 餐厅的非素食与素食餐比例为 2 比 1。在 Manuel 餐厅,随机抽取 10 位点餐顾客中只有一位点了素食餐。

使用 5% 显著性水平,检验 Manuel 餐厅的素食餐比例是否与 Enrico 餐厅不同。

假设检验通过以下步骤将不确定的观察转化为自信的决策:

不同分布的关键洞察:

  • 二项分布: 在固定试验中计算成功次数时使用
  • 泊松分布: 用于稀有事件或大 nn、小 pp 的情境
  • 单尾 vs. 双尾: 取决于你是检验特定方向还是任何差异

革命性意义: 我们从主观判断(“那看起来不寻常”)转变为客观评估(“这种情况巧合发生的概率只有 1.3%”)。这种精确性使得科学、商业和公共政策中的循证决策成为可能。

练习 6684/01/June15/5

Liftserall 声称他们在一栋公寓楼维护的电梯平均每月随机故障 4 次。为了检验这一点,记录了电梯一个月内的故障次数。

(a) 使用 5% 显著性水平,找到原假设”电梯故障的平均速率为每月 4 次”的双尾检验临界域。每个尾部的拒绝概率应尽可能接近 2.5%。(3)

在一个随机选择的 1 个月期间,电梯故障了 3 次。

(b) 在 5% 显著性水平下,检验 Liftserall 的声明是否正确。清楚陈述你的假设。(2)

(c) 陈述该检验的实际显著性水平。(1)

练习 WST02/01/June15/2

一家公司生产巧克力曲奇饼干。每块饼干的巧克力豆数量服从均值为 8 的泊松分布。

(a) 求随机选择的一块饼干中巧克力豆数量不为 8 的概率。(2)

一个小包装包含 4 块这样的饼干,随机选择。

(b) 求包装中每块饼干至少有 8 颗巧克力豆的概率。(3)

一个大包装包含 9 块这样的饼干,随机选择。

(c) 使用适当的近似方法,求包装中巧克力豆总数超过 75 的概率。(5)

一家商店随机出售饼干包装,速率为每小时 1.5 包。广告活动后,4 小时内售出 11 包。

(d) 在 5% 显著性水平下,检验是否有证据表明饼干包装的销售速率增加了。清楚陈述你的假设。(5)

练习 WST02/01/June15/6

一家电脑商店的历史数据显示 40% 的顾客在购买产品时会购买保险。在一个 30 名顾客的随机样本中,XX 人购买了保险。

(a) 写出 XX 分布的合适模型。(1)

(b) 陈述为了使 (a) 中的模型合适而做出的一个假设。(1)

购买保险的顾客少于 rr 人的概率小于 0.05。

(c) 求 rr 的最大可能值。(2)

抽取第二个 100 名顾客的随机样本。

至少 tt 名顾客购买保险的概率为 0.938,精确到 3 位小数。

(d) 使用适当的近似方法,求 tt 的值。(6)

该商店现在为所有产品提供延长保修。此后,抽取了 25 名顾客的随机样本,其中 6 人购买了保险。

(e) 在 10% 显著性水平下,检验是否有证据表明购买保险的顾客比例下降了。清楚陈述你的假设。(5)

练习 WST02/01/June15/4

从参数为 λ\lambda 的泊松分布中抽取单个观测值 xx

该观测值用于在 5% 显著性水平下检验

H0:λ=kvsH1:λkH_0: \lambda = k \quad \text{vs} \quad H_1: \lambda \neq k

其中 kk 为正整数。

已知该检验的临界域为 (X=0)(X>9)(X = 0) \cup (X > 9)

(a) 求 kk 的值,并证明你的答案。(3)

(b) 求该检验的实际显著性水平。(2)

练习 WST02/01/Jan16/5

一座火山在 10 年期间的喷发次数服从均值为 1 的泊松分布。

(a) 求该火山在随机选择的 2 个 10 年期间中每个期间至少喷发一次的概率。(2)

(b) 求该火山在随机选择的 20 年期间内不喷发的概率。(2)

该火山在随机选择的 ww 年期间内恰好喷发 4 次的概率为 0.0443(精确到 3 位有效数字)。

(c) 使用表格求 ww 的值。(3)

一位科学家声称该火山在 10 年期间内的平均喷发次数超过 1 次。

她随机选择一个 100 年期间来检验她的声明。

(d) 陈述该检验的原假设。(1)

(e) 确定 5% 显著性水平下的检验临界域。(2)

练习 WST02/01/June16/3

XB(12,p)X \sim \text{B}(12, p) 中抽取单个观测值 xx

该观测值用于检验 H0:p=0.45H_0: p = 0.45H1:p>0.45H_1: p > 0.45

(a) 使用 5% 显著性水平,找到该检验的临界域。(2)

(b) 陈述该检验的实际显著性水平。(1)

观测值为 9。

(c) 基于该观测值陈述可得出的结论。(1)

(d) 陈述如果在以下显著性水平下进行相同检验,结论是否会改变: (i) 10% 显著性水平,(2) (ii) 1% 显著性水平。