S3 第一章：抽样方法

从猜测到科学：我们如何研究总体

假设你是学校附近一家人气奶茶店 “HelloTea” 的店长。你想了解学生对你店铺的看法，以便做出改进。

从简单开始：你的第一直觉

最自然的方法

让我们从最直观的想法开始：如果我们能让每个学生都有相同的被选中机会，不带任何偏好或偏差呢？这就是科学抽样的基础。

定义：简单随机抽样（Simple Random Sampling） 简单随机抽样 是一种方法，总体中的每个成员都有相同且独立的被选中机会。每个大小为 $n$ 的可能样本被选中的概率都相同。

核心原则： 完全的随机性消除了人为偏差。你不会基于便利性、外貌、友善程度或任何其他可能导致结果偏斜的因素来选择学生。

如何执行简单随机抽样

第一步：创建抽样框（Sampling Frame）

首先，你需要一份完整的学生名单。假设你获得了学校的学生数据库，并为每个学生分配一个从 0001 到 3000 的唯一编号。

第二步：使用随机数表（Random Number Table）

为了确保真正的随机性，我们使用 随机数表 —— 一张预先生成的数字表，排列没有任何可预测的规律。

86	13	84	10	07	30	39	05	97	96	88	07	37	26	04	89	13	48	19	20
60	78	48	12	99	47	09	46	91	33	17	21	03	94	79	00	08	50	40	16
78	48	06	37	82	26	01	06	64	65	94	41	17	26	74	66	61	93	24	97
80	56	90	79	66	94	18	40	97	79	93	20	41	51	25	04	20	71	76	04
99	09	39	25	66	31	70	56	30	15	52	17	87	55	31	11	10	68	98	23
56	32	32	72	91	65	97	36	56	61	12	79	95	17	57	16	53	58	96	36
66	02	49	93	97	44	99	15	56	86	80	57	11	78	40	23	58	40	86	14
31	77	53	94	05	93	56	14	71	23	60	46	05	33	23	72	93	10	81	23
98	79	72	43	14	76	54	77	66	29	84	09	88	56	75	86	41	67	04	42
50	97	92	15	10	01	57	01	87	33	73	17	70	18	40	21	24	20	66	62
90	51	94	50	12	48	88	95	09	34	09	30	22	27	25	56	40	76	01	59
31	99	52	24	13	43	27	88	11	39	41	65	00	84	13	06	31	79	74	97
22	96	23	34	46	12	67	11	48	06	99	24	14	83	78	37	65	73	39	47
06	84	55	41	27	06	74	59	14	29	20	14	45	75	31	16	05	41	22	96
08	64	89	30	25	25	71	35	33	31	04	56	12	67	03	74	07	16	49	32
86	87	62	43	15	11	76	49	79	13	78	80	93	89	09	57	07	14	40	74
94	44	97	13	77	04	35	02	12	76	60	91	93	40	81	06	85	85	72	84
63	25	55	14	66	47	99	90	02	90	83	43	16	01	19	69	11	78	87	16
11	22	83	98	15	21	18	57	53	42	91	91	26	52	89	13	86	00	47	61
01	70	10	83	94	71	13	67	11	12	36	54	53	32	90	43	79	01	95	15

第三步：选取你的样本

让我们一起走一遍这个过程：

随机选择一个起始点： 闭上眼睛，指向表中的任意位置。假设你选到了第 3 行、第 2 列。
确定读取方式： 由于学生编号是 4 位数字（0001-3000），我们每次读取 4 位数字。按行从左到右读取。
系统地提取数字：
- 从第 3 行、第 2 列开始：我们看到 “48”。继续读取：“48”、“06”、“37”
- 组合成 4 位数：4806, 3782, 2601, 0664, 6594, 4117, 2674…
- 等等！4806 大于 3000 —— 跳过它！
- 继续：3782 —— 跳过（太大），2601 —— 选中学生 #2601！
继续直到获得 200 个不重复的编号：
- 跳过任何重复出现的数字或无效数字，例如大于 3000 或小于 0001 的数字。

发现问题：简单随机抽样的局限性

在实施简单随机抽样调查后，你遇到了一些现实中的挑战：

关键认识： 虽然简单随机抽样是无偏的、理论上完美的，但它可能 效率低下，并且可能 偶然地 遗漏重要的子群体。

简化操作：系统抽样

一种更高效的方法

让我们来解决第一个问题：效率问题。有没有一种方法既能保持随机性，又能让过程更有条理？

新方案： 不再完全随机地选择学生，你将使用按姓名字母顺序排列的学生数据库。从名单中每隔 $k$ 个学生选取一个。

定义：系统抽样（Systematic Sampling） 系统抽样 是一种方法，你从一个有序的抽样框中每隔 $k$ 个成员选取一个，起始位置在 1 到 $k$ 之间随机选择。

抽样间隔（Sampling Interval） $k$ 的计算公式为： $k = \frac{\text{总体大小}}{\text{样本大小}}$

如何执行系统抽样

第一步：计算抽样间隔

$k = \frac{3000 \text{ 名学生}}{200 \text{ 样本大小}} = 15$

这意味着你将从名单中每隔 15 个学生选取一个。

第二步：选择一个随机起始点

使用随机数表在 1 到 15 之间选择一个数字。假设你得到了 12。

第三步：系统地选取学生

从学生 #12 开始，每隔 15 个学生选取一个：

学生 #12（起始点），学生 #27（ $12 + 15$ ）
学生 #42（ $27 + 15$ ），学生 #57（ $42 + 15$ ）
… 继续直到学生 #2997（ $12 + 199 \times 15$ ）

你将自动得到恰好 200 名学生！

系统抽样的优缺点

然而，系统抽样有一个关键弱点：周期性（Periodicity）。

示例：公寓楼调查

场景： 一位研究者想调查一栋 20 层公寓楼的居民。每层有 15 间公寓，编号为 01-15。公寓楼数据库按顺序列出：101, 102, …, 115, 201, 202, …, 215, … 2001, …, 2015。

共有 300 间公寓。研究者想要一个 20 间公寓的样本。

(a) 计算抽样间隔 $k$ ：__________

(b) 如果你随机从学生 #7 开始，列出你将调查的前 5 名学生：

(d) 这种抽样方法的潜在问题是什么？

确保代表性：分层抽样

再看代表性挑战

还记得我们的第二个问题吗？简单随机抽样可能偶然地给了我们太少的重度用户，或者完全遗漏了重要的子群体。当以下情况时，这尤其成问题：

不同子群体可能有截然不同的意见
一些子群体规模小但至关重要
你想在子群体之间进行比较

关键洞察： 如果我们能保证每个重要子群体都有代表性呢？

示例：HelloTea：了解你的顾客群体

通过初步研究，你发现学生根据茶饮消费量分为四个不同群体：

顾客类型	定义	人数
重度用户（Heavy Users）	$\geq$ 3 次/周	300 名学生 (10%)
常规用户（Regular Users）	1-2 次/周	1,200 名学生 (40%)
轻度用户（Light Users）	1-3 次/月	900 名学生 (30%)
极少/非用户（Rare/Non-users）	$<$ 1 次/月	600 名学生 (20%)
合计		3,000 名学生 (100%)

商业问题： 重度用户贡献了最多收入 —— 他们的意见至关重要！你如何确保他们在你的 200 人样本中得到充分代表？

定义：分层随机抽样（Stratified Random Sampling） 分层随机抽样 将总体根据特定特征划分为互不重叠的组，称为 层（Strata，stratum 的复数）。然后，在 每层内独立进行 简单随机抽样。

如何执行分层抽样

第一步：确定你的分层

选择以下特征：

与你的研究问题相关
在抽样前已知（你必须能够对总体成员进行分类）
形成内部相似但彼此不同的群体

对于 HelloTea：四种用户类型（重度、常规、轻度、极少）

第二步：确定每层的样本量

选项 A — 等比例分配（Proportional Allocation）： 按总体比例分配

层	总体	比例	样本量
重度用户	300	10%	$200 \times 0.10 = 20$
常规用户	1,200	40%	$200 \times 0.40 = 80$
轻度用户	900	30%	$200 \times 0.30 = 60$
极少/非用户	600	20%	$200 \times 0.20 = 40$
合计	3,000	100%	200

第三步：在每层内随机抽样

当你没有名单时：配额抽样

现实的约束

假设你正在为 HelloTea 进行市场调查，但你遇到了一个新问题：

现实的替代方案：配额抽样

定义：配额抽样（Quota Sampling） 配额抽样 是一种方法，你将总体分成若干组（类似分层抽样），并为每组设定目标数量（配额，Quotas）。然而，与随机选择不同，你在每组内使用 便利抽样（Convenience Sampling） 直到配额填满。

与分层抽样的关键区别：组内的选择是 非随机的。

如何执行配额抽样

第一步：定义你的配额

根据你对顾客群体的了解，你设定了与分层抽样相同的目标：

顾客类型	配额
重度用户（ $\geq 3$ 次/周）	20
常规用户（1-2 次/周）	80
轻度用户（1-3 次/月）	60
极少/非用户（ $<$ 1 次/月）	40
合计	200

第二步：便利抽样直到配额完成

你将调查团队安排在 HelloTea 和学校食堂附近。他们走近学生并：

问一个筛选问题：“你多久去一次 HelloTea？”
根据回答，将学生归入一个组
如果该组的配额未满，进行调查
如果配额已满，礼貌地拒绝并转向下一个学生
当所有配额填满时停止

示例对话：

调查员： “打扰一下，你多久去一次 HelloTea？”
学生： “大概一周两次。”
调查员查看： 常规用户配额：65/80 已满 $\checkmark$
调查员： “太好了！你介意回答几个关于你的体验的问题吗？“

配额抽样的优缺点

综合总结：选择正确的方法

现在我们已经通过解决实际问题的旅程探索了所有四种方法，让我们综合所学。

方法	随机选择？	主要优势	主要劣势
简单随机	是 — 完全随机	无偏，理论上完美	可能成本高；可能偶然遗漏子群体
系统抽样	部分 — 随机起始，然后系统化	易于执行；确保均匀分布	易受周期性影响；比 SRS 随机性低
分层抽样	是 — 在层内	保证子群体代表性；更精确	需要事先知道分层；更复杂
配额抽样	否 — 配额内便利抽样	快速、便宜、不需要名单	非概率性；无法计算抽样误差

练习

真题

一位学院经理想调查学生对课外活动的意见。她决定调查下表中汇总的课程中的学生。

课程	注册学生人数
Leisure and Sport	420
Information Technology	337
Health and Social Care	200
Media Studies	43

每个学生只修一门课程。

经理可以访问学院的信息系统，其中保存了每位注册学生的完整详细信息，包括姓名、地址、电话号码和所修课程。她想比较每门课程学生的意见，并且有充足的预算来支付调查费用。

(a) 给出使用以下方法进行此调查的一个优点和一个缺点 (i) 配额抽样， (ii) 分层抽样。(2)

经理决定抽取一个 100 名学生的分层样本。

(b) 计算每门课程需要抽样的学生人数。(3)

一家公司想调查员工对工作的态度。公司的员工分布在三个办公室。每个地点的员工人数汇总在下表中。

办公地点	员工人数
Bristol	856
Dudley	429
Glasgow	1215

每位员工只在一个办公室工作。

一位人事助理计划在周一早上调查最先到达 Bristol 办公室上班的 50 名员工。

(a) 给出两个原因，说明为什么此调查可能导致有偏的回应。(2)

一位人事经理可以访问公司的信息系统，其中保存了每位员工的详细信息，包括工作地点。

经理决定抽取一个 150 名员工的分层样本。

(b) 描述如何为这个分层样本选择员工。(3)

反思与核心要点

更深层的启示

伦理考量

抽样不仅是技术问题，也是伦理问题：

代表性： 我们的抽样方法是否给了每个人公平的发言权？
偏差： 我们是否系统性地排除了某些群体？
透明度： 我们是否诚实地说明了方法和局限性？
滥用： 我们的结果是否可能被误解或滥用？

示例： 如果一项选举民意调查只调查某个选区的选民，他们将遗漏所有其他选区的选民 —— 他们的权利将无法得到适当代表。

与更广泛统计学的联系

你学到的抽样方法是以下内容的基础：

统计推断（Statistical Inference）： 从样本对总体得出结论
置信区间（Confidence Intervals）： 量化估计中的不确定性
拟合优度检验（Goodness of Fit Tests）： 检验模型与数据的拟合程度
秩相关检验（Rank Correlation Tests）： 检验两个变量是否以单调方式相关

展望： 在未来的章节中，你将学习如何分析通过这些抽样方法收集的数据、检验假设，以及用量化不确定性得出严谨的结论。

86	13	84	10	07	30	39	05	97	96	88	07	37	26	04	89	13	48	19	20
60	78	48	12	99	47	09	46	91	33	17	21	03	94	79	00	08	50	40	16
78	48	06	37	82	26	01	06	64	65	94	41	17	26	74	66	61	93	24	97
80	56	90	79	66	94	18	40	97	79	93	20	41	51	25	04	20	71	76	04
99	09	39	25	66	31	70	56	30	15	52	17	87	55	31	11	10	68	98	23
56	32	32	72	91	65	97	36	56	61	12	79	95	17	57	16	53	58	96	36
66	02	49	93	97	44	99	15	56	86	80	57	11	78	40	23	58	40	86	14
31	77	53	94	05	93	56	14	71	23	60	46	05	33	23	72	93	10	81	23
98	79	72	43	14	76	54	77	66	29	84	09	88	56	75	86	41	67	04	42
50	97	92	15	10	01	57	01	87	33	73	17	70	18	40	21	24	20	66	62
90	51	94	50	12	48	88	95	09	34	09	30	22	27	25	56	40	76	01	59
31	99	52	24	13	43	27	88	11	39	41	65	00	84	13	06	31	79	74	97
22	96	23	34	46	12	67	11	48	06	99	24	14	83	78	37	65	73	39	47
06	84	55	41	27	06	74	59	14	29	20	14	45	75	31	16	05	41	22	96
08	64	89	30	25	25	71	35	33	31	04	56	12	67	03	74	07	16	49	32
86	87	62	43	15	11	76	49	79	13	78	80	93	89	09	57	07	14	40	74
94	44	97	13	77	04	35	02	12	76	60	91	93	40	81	06	85	85	72	84
63	25	55	14	66	47	99	90	02	90	83	43	16	01	19	69	11	78	87	16
11	22	83	98	15	21	18	57	53	42	91	91	26	52	89	13	86	00	47	61
01	70	10	83	94	71	13	67	11	12	36	54	53	32	90	43	79	01	95	15

86	13	84	10	07	30	39	05	97	96	88	07	37	26	04	89	13	48	19	20
60	78	48	12	99	47	09	46	91	33	17	21	03	94	79	00	08	50	40	16
78	48	06	37	82	26	01	06	64	65	94	41	17	26	74	66	61	93	24	97
80	56	90	79	66	94	18	40	97	79	93	20	41	51	25	04	20	71	76	04
99	09	39	25	66	31	70	56	30	15	52	17	87	55	31	11	10	68	98	23
56	32	32	72	91	65	97	36	56	61	12	79	95	17	57	16	53	58	96	36
66	02	49	93	97	44	99	15	56	86	80	57	11	78	40	23	58	40	86	14
31	77	53	94	05	93	56	14	71	23	60	46	05	33	23	72	93	10	81	23
98	79	72	43	14	76	54	77	66	29	84	09	88	56	75	86	41	67	04	42
50	97	92	15	10	01	57	01	87	33	73	17	70	18	40	21	24	20	66	62
90	51	94	50	12	48	88	95	09	34	09	30	22	27	25	56	40	76	01	59
31	99	52	24	13	43	27	88	11	39	41	65	00	84	13	06	31	79	74	97
22	96	23	34	46	12	67	11	48	06	99	24	14	83	78	37	65	73	39	47
06	84	55	41	27	06	74	59	14	29	20	14	45	75	31	16	05	41	22	96
08	64	89	30	25	25	71	35	33	31	04	56	12	67	03	74	07	16	49	32
86	87	62	43	15	11	76	49	79	13	78	80	93	89	09	57	07	14	40	74
94	44	97	13	77	04	35	02	12	76	60	91	93	40	81	06	85	85	72	84
63	25	55	14	66	47	99	90	02	90	83	43	16	01	19	69	11	78	87	16
11	22	83	98	15	21	18	57	53	42	91	91	26	52	89	13	86	00	47	61
01	70	10	83	94	71	13	67	11	12	36	54	53	32	90	43	79	01	95	15

86	13	84	10	07	30	39	05	97	96	88	07	37	26	04	89	13	48	19	20
60	78	48	12	99	47	09	46	91	33	17	21	03	94	79	00	08	50	40	16
78	48	06	37	82	26	01	06	64	65	94	41	17	26	74	66	61	93	24	97
80	56	90	79	66	94	18	40	97	79	93	20	41	51	25	04	20	71	76	04
99	09	39	25	66	31	70	56	30	15	52	17	87	55	31	11	10	68	98	23
56	32	32	72	91	65	97	36	56	61	12	79	95	17	57	16	53	58	96	36
66	02	49	93	97	44	99	15	56	86	80	57	11	78	40	23	58	40	86	14
31	77	53	94	05	93	56	14	71	23	60	46	05	33	23	72	93	10	81	23
98	79	72	43	14	76	54	77	66	29	84	09	88	56	75	86	41	67	04	42
50	97	92	15	10	01	57	01	87	33	73	17	70	18	40	21	24	20	66	62
90	51	94	50	12	48	88	95	09	34	09	30	22	27	25	56	40	76	01	59
31	99	52	24	13	43	27	88	11	39	41	65	00	84	13	06	31	79	74	97
22	96	23	34	46	12	67	11	48	06	99	24	14	83	78	37	65	73	39	47
06	84	55	41	27	06	74	59	14	29	20	14	45	75	31	16	05	41	22	96
08	64	89	30	25	25	71	35	33	31	04	56	12	67	03	74	07	16	49	32
86	87	62	43	15	11	76	49	79	13	78	80	93	89	09	57	07	14	40	74
94	44	97	13	77	04	35	02	12	76	60	91	93	40	81	06	85	85	72	84
63	25	55	14	66	47	99	90	02	90	83	43	16	01	19	69	11	78	87	16
11	22	83	98	15	21	18	57	53	42	91	91	26	52	89	13	86	00	47	61
01	70	10	83	94	71	13	67	11	12	36	54	53	32	90	43	79	01	95	15