S3 第一章:抽样方法
从猜测到科学:我们如何研究总体
Section titled “从猜测到科学:我们如何研究总体”假设你是学校附近一家人气奶茶店 “HelloTea” 的店长。你想了解学生对你店铺的看法,以便做出改进。
从简单开始:你的第一直觉
Section titled “从简单开始:你的第一直觉”最自然的方法
Section titled “最自然的方法”让我们从最直观的想法开始:如果我们能让每个学生都有相同的被选中机会,不带任何偏好或偏差呢?这就是科学抽样的基础。
定义:简单随机抽样(Simple Random Sampling) 简单随机抽样 是一种方法,总体中的每个成员都有相同且独立的被选中机会。每个大小为 的可能样本被选中的概率都相同。
核心原则: 完全的随机性消除了人为偏差。你不会基于便利性、外貌、友善程度或任何其他可能导致结果偏斜的因素来选择学生。
如何执行简单随机抽样
Section titled “如何执行简单随机抽样”第一步:创建抽样框(Sampling Frame)
首先,你需要一份完整的学生名单。假设你获得了学校的学生数据库,并为每个学生分配一个从 0001 到 3000 的唯一编号。
第二步:使用随机数表(Random Number Table)
为了确保真正的随机性,我们使用 随机数表 —— 一张预先生成的数字表,排列没有任何可预测的规律。
| 86 | 13 | 84 | 10 | 07 | 30 | 39 | 05 | 97 | 96 | 88 | 07 | 37 | 26 | 04 | 89 | 13 | 48 | 19 | 20 |
| 60 | 78 | 48 | 12 | 99 | 47 | 09 | 46 | 91 | 33 | 17 | 21 | 03 | 94 | 79 | 00 | 08 | 50 | 40 | 16 |
| 78 | 48 | 06 | 37 | 82 | 26 | 01 | 06 | 64 | 65 | 94 | 41 | 17 | 26 | 74 | 66 | 61 | 93 | 24 | 97 |
| 80 | 56 | 90 | 79 | 66 | 94 | 18 | 40 | 97 | 79 | 93 | 20 | 41 | 51 | 25 | 04 | 20 | 71 | 76 | 04 |
| 99 | 09 | 39 | 25 | 66 | 31 | 70 | 56 | 30 | 15 | 52 | 17 | 87 | 55 | 31 | 11 | 10 | 68 | 98 | 23 |
| 56 | 32 | 32 | 72 | 91 | 65 | 97 | 36 | 56 | 61 | 12 | 79 | 95 | 17 | 57 | 16 | 53 | 58 | 96 | 36 |
| 66 | 02 | 49 | 93 | 97 | 44 | 99 | 15 | 56 | 86 | 80 | 57 | 11 | 78 | 40 | 23 | 58 | 40 | 86 | 14 |
| 31 | 77 | 53 | 94 | 05 | 93 | 56 | 14 | 71 | 23 | 60 | 46 | 05 | 33 | 23 | 72 | 93 | 10 | 81 | 23 |
| 98 | 79 | 72 | 43 | 14 | 76 | 54 | 77 | 66 | 29 | 84 | 09 | 88 | 56 | 75 | 86 | 41 | 67 | 04 | 42 |
| 50 | 97 | 92 | 15 | 10 | 01 | 57 | 01 | 87 | 33 | 73 | 17 | 70 | 18 | 40 | 21 | 24 | 20 | 66 | 62 |
| 90 | 51 | 94 | 50 | 12 | 48 | 88 | 95 | 09 | 34 | 09 | 30 | 22 | 27 | 25 | 56 | 40 | 76 | 01 | 59 |
| 31 | 99 | 52 | 24 | 13 | 43 | 27 | 88 | 11 | 39 | 41 | 65 | 00 | 84 | 13 | 06 | 31 | 79 | 74 | 97 |
| 22 | 96 | 23 | 34 | 46 | 12 | 67 | 11 | 48 | 06 | 99 | 24 | 14 | 83 | 78 | 37 | 65 | 73 | 39 | 47 |
| 06 | 84 | 55 | 41 | 27 | 06 | 74 | 59 | 14 | 29 | 20 | 14 | 45 | 75 | 31 | 16 | 05 | 41 | 22 | 96 |
| 08 | 64 | 89 | 30 | 25 | 25 | 71 | 35 | 33 | 31 | 04 | 56 | 12 | 67 | 03 | 74 | 07 | 16 | 49 | 32 |
| 86 | 87 | 62 | 43 | 15 | 11 | 76 | 49 | 79 | 13 | 78 | 80 | 93 | 89 | 09 | 57 | 07 | 14 | 40 | 74 |
| 94 | 44 | 97 | 13 | 77 | 04 | 35 | 02 | 12 | 76 | 60 | 91 | 93 | 40 | 81 | 06 | 85 | 85 | 72 | 84 |
| 63 | 25 | 55 | 14 | 66 | 47 | 99 | 90 | 02 | 90 | 83 | 43 | 16 | 01 | 19 | 69 | 11 | 78 | 87 | 16 |
| 11 | 22 | 83 | 98 | 15 | 21 | 18 | 57 | 53 | 42 | 91 | 91 | 26 | 52 | 89 | 13 | 86 | 00 | 47 | 61 |
| 01 | 70 | 10 | 83 | 94 | 71 | 13 | 67 | 11 | 12 | 36 | 54 | 53 | 32 | 90 | 43 | 79 | 01 | 95 | 15 |
第三步:选取你的样本
让我们一起走一遍这个过程:
-
随机选择一个起始点: 闭上眼睛,指向表中的任意位置。假设你选到了第 3 行、第 2 列。
-
确定读取方式: 由于学生编号是 4 位数字(0001-3000),我们每次读取 4 位数字。按行从左到右读取。
-
系统地提取数字:
- 从第 3 行、第 2 列开始:我们看到 “48”。继续读取:“48”、“06”、“37”
- 组合成 4 位数:4806, 3782, 2601, 0664, 6594, 4117, 2674…
- 等等!4806 大于 3000 —— 跳过它!
- 继续:3782 —— 跳过(太大),2601 —— 选中学生 #2601!
-
继续直到获得 200 个不重复的编号:
- 跳过任何重复出现的数字或无效数字,例如大于 3000 或小于 0001 的数字。
发现问题:简单随机抽样的局限性
Section titled “发现问题:简单随机抽样的局限性”在实施简单随机抽样调查后,你遇到了一些现实中的挑战:
关键认识: 虽然简单随机抽样是无偏的、理论上完美的,但它可能 效率低下,并且可能 偶然地 遗漏重要的子群体。
简化操作:系统抽样
Section titled “简化操作:系统抽样”一种更高效的方法
Section titled “一种更高效的方法”让我们来解决第一个问题:效率问题。有没有一种方法既能保持随机性,又能让过程更有条理?
新方案: 不再完全随机地选择学生,你将使用按姓名字母顺序排列的学生数据库。从名单中每隔 个学生选取一个。
定义:系统抽样(Systematic Sampling) 系统抽样 是一种方法,你从一个有序的抽样框中每隔 个成员选取一个,起始位置在 1 到 之间随机选择。
抽样间隔(Sampling Interval) 的计算公式为:
如何执行系统抽样
Section titled “如何执行系统抽样”第一步:计算抽样间隔
这意味着你将从名单中每隔 15 个学生选取一个。
第二步:选择一个随机起始点
使用随机数表在 1 到 15 之间选择一个数字。假设你得到了 12。
第三步:系统地选取学生
从学生 #12 开始,每隔 15 个学生选取一个:
- 学生 #12(起始点),学生 #27()
- 学生 #42(),学生 #57()
- … 继续直到学生 #2997()
你将自动得到恰好 200 名学生!
系统抽样的优缺点
Section titled “系统抽样的优缺点”然而,系统抽样有一个关键弱点:周期性(Periodicity)。
示例:公寓楼调查
场景: 一位研究者想调查一栋 20 层公寓楼的居民。每层有 15 间公寓,编号为 01-15。公寓楼数据库按顺序列出:101, 102, …, 115, 201, 202, …, 215, … 2001, …, 2015。
共有 300 间公寓。研究者想要一个 20 间公寓的样本。
(a) 计算抽样间隔 :__________
(b) 如果你随机从学生 #7 开始,列出你将调查的前 5 名学生:
(c) 列出样本中最后 2 名学生:
(d) 这种抽样方法的潜在问题是什么?
确保代表性:分层抽样
Section titled “确保代表性:分层抽样”再看代表性挑战
Section titled “再看代表性挑战”还记得我们的第二个问题吗?简单随机抽样可能偶然地给了我们太少的重度用户,或者完全遗漏了重要的子群体。当以下情况时,这尤其成问题:
- 不同子群体可能有截然不同的意见
- 一些子群体规模小但至关重要
- 你想在子群体之间进行比较
关键洞察: 如果我们能 保证 每个重要子群体都有代表性呢?
示例:HelloTea:了解你的顾客群体
通过初步研究,你发现学生根据茶饮消费量分为四个不同群体:
| 顾客类型 | 定义 | 人数 |
|---|---|---|
| 重度用户(Heavy Users) | 3 次/周 | 300 名学生 (10%) |
| 常规用户(Regular Users) | 1-2 次/周 | 1,200 名学生 (40%) |
| 轻度用户(Light Users) | 1-3 次/月 | 900 名学生 (30%) |
| 极少/非用户(Rare/Non-users) | 1 次/月 | 600 名学生 (20%) |
| 合计 | 3,000 名学生 (100%) |
商业问题: 重度用户贡献了最多收入 —— 他们的意见至关重要!你如何确保他们在你的 200 人样本中得到充分代表?
定义:分层随机抽样(Stratified Random Sampling) 分层随机抽样 将总体根据特定特征划分为互不重叠的组,称为 层(Strata,stratum 的复数)。然后,在 每层内独立进行 简单随机抽样。
如何执行分层抽样
Section titled “如何执行分层抽样”第一步:确定你的分层
选择以下特征:
- 与你的研究问题相关
- 在抽样前已知(你必须能够对总体成员进行分类)
- 形成内部相似但彼此不同的群体
对于 HelloTea:四种用户类型(重度、常规、轻度、极少)
第二步:确定每层的样本量
选项 A — 等比例分配(Proportional Allocation): 按总体比例分配
| 层 | 总体 | 比例 | 样本量 |
|---|---|---|---|
| 重度用户 | 300 | 10% | |
| 常规用户 | 1,200 | 40% | |
| 轻度用户 | 900 | 30% | |
| 极少/非用户 | 600 | 20% | |
| 合计 | 3,000 | 100% | 200 |
第三步:在每层内随机抽样
当你没有名单时:配额抽样
Section titled “当你没有名单时:配额抽样”假设你正在为 HelloTea 进行市场调查,但你遇到了一个新问题:
现实的替代方案:配额抽样
Section titled “现实的替代方案:配额抽样”定义:配额抽样(Quota Sampling) 配额抽样 是一种方法,你将总体分成若干组(类似分层抽样),并为每组设定目标数量(配额,Quotas)。然而,与随机选择不同,你在每组内使用 便利抽样(Convenience Sampling) 直到配额填满。
与分层抽样的关键区别:组内的选择是 非随机的。
如何执行配额抽样
Section titled “如何执行配额抽样”第一步:定义你的配额
根据你对顾客群体的了解,你设定了与分层抽样相同的目标:
| 顾客类型 | 配额 |
|---|---|
| 重度用户( 次/周) | 20 |
| 常规用户(1-2 次/周) | 80 |
| 轻度用户(1-3 次/月) | 60 |
| 极少/非用户( 1 次/月) | 40 |
| 合计 | 200 |
第二步:便利抽样直到配额完成
你将调查团队安排在 HelloTea 和学校食堂附近。他们走近学生并:
- 问一个筛选问题:“你多久去一次 HelloTea?”
- 根据回答,将学生归入一个组
- 如果该组的配额未满,进行调查
- 如果配额已满,礼貌地拒绝并转向下一个学生
- 当所有配额填满时停止
示例对话:
- 调查员: “打扰一下,你多久去一次 HelloTea?”
- 学生: “大概一周两次。”
- 调查员查看: 常规用户配额:65/80 已满
- 调查员: “太好了!你介意回答几个关于你的体验的问题吗?“
配额抽样的优缺点
Section titled “配额抽样的优缺点”综合总结:选择正确的方法
Section titled “综合总结:选择正确的方法”现在我们已经通过解决实际问题的旅程探索了所有四种方法,让我们综合所学。
| 方法 | 随机选择? | 主要优势 | 主要劣势 |
|---|---|---|---|
| 简单随机 | 是 — 完全随机 | 无偏,理论上完美 | 可能成本高;可能偶然遗漏子群体 |
| 系统抽样 | 部分 — 随机起始,然后系统化 | 易于执行;确保均匀分布 | 易受周期性影响;比 SRS 随机性低 |
| 分层抽样 | 是 — 在层内 | 保证子群体代表性;更精确 | 需要事先知道分层;更复杂 |
| 配额抽样 | 否 — 配额内便利抽样 | 快速、便宜、不需要名单 | 非概率性;无法计算抽样误差 |
反思与核心要点
Section titled “反思与核心要点”更深层的启示
Section titled “更深层的启示”抽样不仅是技术问题,也是伦理问题:
- 代表性: 我们的抽样方法是否给了每个人公平的发言权?
- 偏差: 我们是否系统性地排除了某些群体?
- 透明度: 我们是否诚实地说明了方法和局限性?
- 滥用: 我们的结果是否可能被误解或滥用?
示例: 如果一项选举民意调查只调查某个选区的选民,他们将遗漏所有其他选区的选民 —— 他们的权利将无法得到适当代表。
与更广泛统计学的联系
Section titled “与更广泛统计学的联系”你学到的抽样方法是以下内容的基础:
- 统计推断(Statistical Inference): 从样本对总体得出结论
- 置信区间(Confidence Intervals): 量化估计中的不确定性
- 拟合优度检验(Goodness of Fit Tests): 检验模型与数据的拟合程度
- 秩相关检验(Rank Correlation Tests): 检验两个变量是否以单调方式相关
展望: 在未来的章节中,你将学习如何分析通过这些抽样方法收集的数据、检验假设,以及用量化不确定性得出严谨的结论。