S2 第七章:假设检验
从怀疑到科学证明:统计决策的艺术
Section titled “从怀疑到科学证明:统计决策的艺术”还记得上一章的手机游戏调查吗?我们在 200 次抽卡中观察到 0 张 SSR 卡牌,而公司声称掉率为 1%。我们计算出这种情况随机发生的概率为 13.5%。但我们要如何判断:13.5% 是否”足够小”,可以得出公司在撒谎的结论?
本章介绍假设检验——将统计证据转化为对现实世界理性、可辩护结论的系统框架。
1. 科学证明的架构
Section titled “1. 科学证明的架构”1.1 回到手机游戏之谜
Section titled “1.1 回到手机游戏之谜”让我们用假设检验框架来形式化我们的调查:
例 1.1:SSR 调查——形式化设置
情境: 你在 200 次抽卡中观察到 0 张 SSR 卡牌。游戏公司声称 (1% 掉率)。
两种对立主张:
- 公司声明: “掉率就是宣传的 1%”
- 你的怀疑: “实际掉率低于 1%”
统计问题: 证据支持哪种主张?
挑战: 我们无法直接证明任何一方是对的。相反,我们问:“如果公司的声明是真的,我们观察到的证据有多大的可能性?”
这引出了假设检验的基本概念。
1.2 两种假设:无罪推定原则
Section titled “1.2 两种假设:无罪推定原则”定义 1.1:原假设()
原假设是关于总体参数的陈述,代表”现状”或”无效果”的立场。在被证明错误之前,我们假定它是正确的。
定义 1.2:备择假设()
备择假设是与原假设矛盾的陈述。它代表我们试图证明的内容或”研究主张”。
例 1.2:SSR 调查的假设
原假设: (“游戏公司在 1% 掉率上是诚实的”)
备择假设: (“实际掉率低于声明”)
逻辑: 我们假定公司是无辜的(),除非我们有足够强的证据证明他们在撒谎()。
1.3 备择假设的三种类型
Section titled “1.3 备择假设的三种类型”备择假设有三种形式,每种导致不同的检验方法:
例 1.3:备择假设的类型
假设我们正在检验关于总体比例 的声明:
1. 左尾检验(单尾):
- vs.
2. 右尾检验(单尾):
- vs.
3. 双尾检验:
- vs.
例 1.4:课堂练习——识别假设
对于每个情境,识别 和 ,并分类检验类型:
情境 A: 一家制药公司声称他们的新止痛药对 85% 的患者有效。你怀疑其效果可能更低。
: ___ \quad : ___ \quad 检验类型: ___
情境 B: 一家制造商声称他们的电池平均寿命恰好为 100 小时。你想检验这个说法是否准确。
: ___ \quad : ___ \quad 检验类型: ___
情境 C: 一位校长认为一个新项目将使考试通过率从目前的 72% 提高。
: ___ \quad : ___ \quad 检验类型: ___
2. 决策机制
Section titled “2. 决策机制”2.1 检验统计量:将数据转化为证据
Section titled “2.1 检验统计量:将数据转化为证据”定义 2.1:检验统计量
检验统计量是来自样本的观测值,我们用它来评估数据是否与原假设一致。
例 2.1:SSR 调查的检验统计量
我们的设置:
- (公司声明)
- (我们的怀疑)
- 样本: 次抽卡
- 检验统计量: 张 SSR 卡牌
在 下: 如果公司是诚实的,则
关键问题: 观察到 或更极端情况(支持 )的可能性有多大?
2.2 p 值:量化证据强度
Section titled “2.2 p 值:量化证据强度”p 值是假设检验中的核心概念。
定义 2.2:p 值
p 值是在假定 为真的情况下,观察到检验统计量值(或在 方向上更极端的值)的概率。
例 2.2:不同检验类型的 p 值计算
给定: 检验统计量 , 下的期望值为
左尾检验():
- 当观测值低于期望值时使用
- p 值 = (在 下)
右尾检验():
- 当观测值高于期望值时使用
- p 值 = (在 下)
双尾检验():
- 当检验任何与期望值的差异时使用
- 若 :p 值 =
- 若 :p 值 =
例 2.3:为什么是”更极端”?——p 值背后的逻辑
学生常问的问题: “为什么不直接计算 ?为什么要包含更极端的值?”
关键洞察: 我们在问”这份证据应该让我们有多惊讶?”
情境: 一个硬币制造商声称他们的硬币是公平的()。你抛了 10 次,观察到 8 次正面。你应该怀疑吗?
设置:
- (硬币是公平的)
- (硬币偏向正面)
- 检验统计量: 次正面(10 次抛掷)
- 在 下:
方法 1——错误做法(仅精确概率):
方法 2——正确做法(包含更极端值):
由于 (期望值),我们计算:
为什么方法 2 是正确的:
逻辑: 如果原假设为真,任何”至少与我们观测到的一样极端”的结果都是同样令人惊讶的反对 的证据。
- 如果我们观察到 8 次正面,我们会怀疑
- 如果我们观察到 9 次正面,我们会更加怀疑
- 如果我们观察到 10 次正面,我们会极其怀疑
由于我们在问”得到这么强或更强的反对 的证据的可能性有多大?“,我们必须包含所有这些更极端的情况。
例 2.4:SSR 调查——p 值计算
我们的检验: vs. (左尾检验)
检验统计量: 张 SSR 卡牌(200 次抽卡)
在 下:
p 值计算:
由于观察到 且支持 ,我们计算:
解释: 如果公司说的是实话,观察到 0 张或更少 SSR 卡牌的概率为 13.5%。
2.3 显著性水平:划线定界
Section titled “2.3 显著性水平:划线定界”定义 2.3:显著性水平()
显著性水平是我们认为证据”足够强”以拒绝原假设的阈值概率。常见值为 、 或 。
例 2.5:SSR 调查——最终决策
我们的结果:
- p 值 = 0.135
- 使用 (5% 显著性水平)
决策: 由于 ,我们未能拒绝 。
结论: 在 5% 显著性水平下,我们没有足够的证据证明游戏公司在 SSR 掉率上撒谎。
商业解读: 观察到的证据(0 张 SSR 卡牌)并不异常到足以对公司提出欺诈指控。
3. 高级应用:多种情境
Section titled “3. 高级应用:多种情境”3.1 右尾检验:当事情”好得不像真的”
Section titled “3.1 右尾检验:当事情”好得不像真的””例 3.1:可疑的幸运玩家
情境: 一名玩家声称在同一游戏中 200 次抽卡获得了 8 张 SSR 卡牌。其他玩家怀疑他们可能在使用作弊手段。
设置检验:
- (玩家没有作弊)
- (玩家有不公平优势)
- 检验统计量: 张 SSR 卡牌
- 在 下:
计算 p 值:
由于观察到 (期望值),这是右尾检验:
使用泊松表或计算器:
决策: 在 下,由于 ,我们拒绝 。
结论: 我们有强有力的证据表明该玩家具有不公平优势。
3.2 双尾检验:检验任何差异
Section titled “3.2 双尾检验:检验任何差异”例 3.2:制造业质量控制
情境: 一家工厂生产电子元件,目标缺陷率为 2%。质量控制部门想检验今天的生产批次是否有不同的缺陷率。
样本数据: 在 300 个元件的随机样本中,12 个有缺陷。
设置检验:
- (缺陷率达标)
- (缺陷率偏离目标)
- 检验统计量: 个缺陷元件
- 在 下:
确定方向:
下的期望值为
观测值 ,因此使用右尾
计算 p 值:
对于 的双尾检验:
使用泊松计算:
决策: 在 下,由于 ,我们拒绝 。
结论: 今天的缺陷率与 2% 的目标显著不同。工厂应调查潜在的质量问题。
例 3.3:课堂练习——二项假设检验
一家制药公司声称他们的新药对 70% 的患者有效。一项 50 名患者的临床试验显示 40 名患者对治疗有积极反应。
你的任务: 使用 检验该药的有效性是否与声称的 70% 不同。
步骤 1: 建立假设
: ___ \quad : ___ \quad 检验类型: ___
步骤 2: 确定检验统计量及其在 下的分布
检验统计量: ___
在 下: ___
步骤 3: 计算 p 值
下的期望值: ___
由于 \underline{\quad} ,我们使用___尾。
p 值 = ___
步骤 4: 做出决策并得出结论
4. 临界域方法
Section titled “4. 临界域方法”p 值的替代方法是临界域法,它预先确定决策边界。
4.1 临界值与临界域
Section titled “4.1 临界值与临界域”定义 4.1:临界域
临界域是一组会导致我们拒绝原假设的检验统计量值。如果观测到的检验统计量落入此区域,我们拒绝 。
定义 4.2:临界值
临界值是将临界域与接受域分开的边界点。
例 4.1:SSR 调查的临界域
检验设置:
- vs. (左尾检验)
- 在 下:
- 显著性水平:
寻找临界域:
我们需要找到最大的 值,使得在 下 。
使用泊松概率:
由于即使 ,在 下没有临界域。
解释: 在 5% 水平下,无论观察到什么结果都无法拒绝 。这说明我们的样本量 200 可能太小,无法在此显著性水平下检测到怀疑的差异。
例 4.2:双尾临界域
检验设置:
- vs. (双尾检验)
- 在 下:
- 显著性水平:
寻找临界域:
对于双尾检验,我们将 分成两尾各 0.025。
下临界值: 找到 使得
上临界值: 找到 使得
使用 的泊松表:
- ,所以
- ,所以
临界域:
决策规则: 若 或 ,拒绝
5. 实际应用
Section titled “5. 实际应用”5.1 医学检测
Section titled “5.1 医学检测”例 5.1:新冠快速检测验证
一家医疗器械公司开发了一种新冠快速检测。他们声称其灵敏度为 95%(正确识别阳性病例)。
研究设计: 用快速检测测试 200 名确诊新冠阳性患者。185 人检测呈阳性。
假设检验:
- (公司声明正确)
- (检测灵敏度低于声称)
- 检验统计量: 个阳性结果
- 在 下:
分析:
下的期望值:
观测值:,因此是左尾检验
p 值 (使用正态近似)
结论: 在 下,未能拒绝 。该检测的灵敏度与 95% 的声明一致。
5.2 商业质量控制
Section titled “5.2 商业质量控制”例 5.2:电商退货率分析
一家在线零售商的电子产品历史退货率为 5%。在实施新的质量检查后,他们想确定退货率是否有所下降。
数据: 实施后的第一个月,500 个电子产品订单中有 18 个被退回。
设置:
- (没有改善)
- (退货率下降)
- 检验统计量: 个退货
- 在 下:
分析:
期望值:
观测值:
p 值
商业决策: 在 下,没有足够证据表明质量改进降低了退货率。零售商可以考虑:
- 收集更多数据
- 调查其他因素
- 如果假阴性成本很高,可以设置更高的显著性水平
例 5.3:课堂练习——医疗治疗效果
某种疾病的标准治疗成功率为 50%。一位医生在该领域进行了研究,开发了一种新药,在 20 名患者中有 11 名成功。医生声称新药代表了对标准治疗的改进。
在 5% 显著性水平下,检验医生的声明。
例 5.4:课堂练习——餐厅饮食偏好
长期以来,Enrico 餐厅的非素食与素食餐比例为 2 比 1。在 Manuel 餐厅,随机抽取 10 位点餐顾客中只有一位点了素食餐。
使用 5% 显著性水平,检验 Manuel 餐厅的素食餐比例是否与 Enrico 餐厅不同。
本章总结:统计证明的力量
Section titled “本章总结:统计证明的力量”假设检验通过以下步骤将不确定的观察转化为自信的决策:
不同分布的关键洞察:
- 二项分布: 在固定试验中计算成功次数时使用
- 泊松分布: 用于稀有事件或大 、小 的情境
- 单尾 vs. 双尾: 取决于你是检验特定方向还是任何差异
革命性意义: 我们从主观判断(“那看起来不寻常”)转变为客观评估(“这种情况巧合发生的概率只有 1.3%”)。这种精确性使得科学、商业和公共政策中的循证决策成为可能。
练习 6684/01/June15/5
Liftserall 声称他们在一栋公寓楼维护的电梯平均每月随机故障 4 次。为了检验这一点,记录了电梯一个月内的故障次数。
(a) 使用 5% 显著性水平,找到原假设”电梯故障的平均速率为每月 4 次”的双尾检验临界域。每个尾部的拒绝概率应尽可能接近 2.5%。(3)
在一个随机选择的 1 个月期间,电梯故障了 3 次。
(b) 在 5% 显著性水平下,检验 Liftserall 的声明是否正确。清楚陈述你的假设。(2)
(c) 陈述该检验的实际显著性水平。(1)
练习 WST02/01/June15/2
一家公司生产巧克力曲奇饼干。每块饼干的巧克力豆数量服从均值为 8 的泊松分布。
(a) 求随机选择的一块饼干中巧克力豆数量不为 8 的概率。(2)
一个小包装包含 4 块这样的饼干,随机选择。
(b) 求包装中每块饼干至少有 8 颗巧克力豆的概率。(3)
一个大包装包含 9 块这样的饼干,随机选择。
(c) 使用适当的近似方法,求包装中巧克力豆总数超过 75 的概率。(5)
一家商店随机出售饼干包装,速率为每小时 1.5 包。广告活动后,4 小时内售出 11 包。
(d) 在 5% 显著性水平下,检验是否有证据表明饼干包装的销售速率增加了。清楚陈述你的假设。(5)
练习 WST02/01/June15/6
一家电脑商店的历史数据显示 40% 的顾客在购买产品时会购买保险。在一个 30 名顾客的随机样本中, 人购买了保险。
(a) 写出 分布的合适模型。(1)
(b) 陈述为了使 (a) 中的模型合适而做出的一个假设。(1)
购买保险的顾客少于 人的概率小于 0.05。
(c) 求 的最大可能值。(2)
抽取第二个 100 名顾客的随机样本。
至少 名顾客购买保险的概率为 0.938,精确到 3 位小数。
(d) 使用适当的近似方法,求 的值。(6)
该商店现在为所有产品提供延长保修。此后,抽取了 25 名顾客的随机样本,其中 6 人购买了保险。
(e) 在 10% 显著性水平下,检验是否有证据表明购买保险的顾客比例下降了。清楚陈述你的假设。(5)
练习 WST02/01/June15/4
从参数为 的泊松分布中抽取单个观测值 。
该观测值用于在 5% 显著性水平下检验
其中 为正整数。
已知该检验的临界域为 :
(a) 求 的值,并证明你的答案。(3)
(b) 求该检验的实际显著性水平。(2)
练习 WST02/01/Jan16/5
一座火山在 10 年期间的喷发次数服从均值为 1 的泊松分布。
(a) 求该火山在随机选择的 2 个 10 年期间中每个期间至少喷发一次的概率。(2)
(b) 求该火山在随机选择的 20 年期间内不喷发的概率。(2)
该火山在随机选择的 年期间内恰好喷发 4 次的概率为 0.0443(精确到 3 位有效数字)。
(c) 使用表格求 的值。(3)
一位科学家声称该火山在 10 年期间内的平均喷发次数超过 1 次。
她随机选择一个 100 年期间来检验她的声明。
(d) 陈述该检验的原假设。(1)
(e) 确定 5% 显著性水平下的检验临界域。(2)
练习 WST02/01/June16/3
从 中抽取单个观测值 。
该观测值用于检验 对 。
(a) 使用 5% 显著性水平,找到该检验的临界域。(2)
(b) 陈述该检验的实际显著性水平。(1)
观测值为 9。
(c) 基于该观测值陈述可得出的结论。(1)
(d) 陈述如果在以下显著性水平下进行相同检验,结论是否会改变: (i) 10% 显著性水平,(2) (ii) 1% 显著性水平。