跳转到内容

S3 第一章:抽样方法

从猜测到科学:我们如何研究总体

Section titled “从猜测到科学:我们如何研究总体”

假设你是学校附近一家人气奶茶店 “HelloTea” 的店长。你想了解学生对你店铺的看法,以便做出改进。

让我们从最直观的想法开始:如果我们能让每个学生都有相同的被选中机会,不带任何偏好或偏差呢?这就是科学抽样的基础。

定义:简单随机抽样(Simple Random Sampling) 简单随机抽样 是一种方法,总体中的每个成员都有相同且独立的被选中机会。每个大小为 nn 的可能样本被选中的概率都相同。

核心原则: 完全的随机性消除了人为偏差。你不会基于便利性、外貌、友善程度或任何其他可能导致结果偏斜的因素来选择学生。

第一步:创建抽样框(Sampling Frame)

首先,你需要一份完整的学生名单。假设你获得了学校的学生数据库,并为每个学生分配一个从 0001 到 3000 的唯一编号。

第二步:使用随机数表(Random Number Table)

为了确保真正的随机性,我们使用 随机数表 —— 一张预先生成的数字表,排列没有任何可预测的规律。

8613841007303905979688073726048913481920
6078481299470946913317210394790008504016
7848063782260106646594411726746661932497
8056907966941840977993204151250420717604
9909392566317056301552178755311110689823
5632327291659736566112799517571653589636
6602499397449915568680571178402358408614
3177539405935614712360460533237293108123
9879724314765477662984098856758641670442
5097921510015701873373177018402124206662
9051945012488895093409302227255640760159
3199522413432788113941650084130631797497
2296233446126711480699241483783765733947
0684554127067459142920144575311605412296
0864893025257135333104561267037407164932
8687624315117649791378809389095707144074
9444971377043502127660919340810685857284
6325551466479990029083431601196911788716
1122839815211857534291912652891386004761
0170108394711367111236545332904379019515

第三步:选取你的样本

让我们一起走一遍这个过程:

  1. 随机选择一个起始点: 闭上眼睛,指向表中的任意位置。假设你选到了第 3 行、第 2 列。

  2. 确定读取方式: 由于学生编号是 4 位数字(0001-3000),我们每次读取 4 位数字。按行从左到右读取。

  3. 系统地提取数字:

    • 从第 3 行、第 2 列开始:我们看到 “48”。继续读取:“48”、“06”、“37”
    • 组合成 4 位数:4806, 3782, 2601, 0664, 6594, 4117, 2674…
    • 等等!4806 大于 3000 —— 跳过它!
    • 继续:3782 —— 跳过(太大),2601 —— 选中学生 #2601!
  4. 继续直到获得 200 个不重复的编号:

    • 跳过任何重复出现的数字或无效数字,例如大于 3000 或小于 0001 的数字。

发现问题:简单随机抽样的局限性

Section titled “发现问题:简单随机抽样的局限性”

在实施简单随机抽样调查后,你遇到了一些现实中的挑战:

关键认识: 虽然简单随机抽样是无偏的、理论上完美的,但它可能 效率低下,并且可能 偶然地 遗漏重要的子群体。

让我们来解决第一个问题:效率问题。有没有一种方法既能保持随机性,又能让过程更有条理?

新方案: 不再完全随机地选择学生,你将使用按姓名字母顺序排列的学生数据库。从名单中每隔 kk 个学生选取一个。

定义:系统抽样(Systematic Sampling) 系统抽样 是一种方法,你从一个有序的抽样框中每隔 kk 个成员选取一个,起始位置在 1 到 kk 之间随机选择。

抽样间隔(Sampling Interval) kk 的计算公式为: k=总体大小样本大小k = \frac{\text{总体大小}}{\text{样本大小}}

第一步:计算抽样间隔

k=3000 名学生200 样本大小=15k = \frac{3000 \text{ 名学生}}{200 \text{ 样本大小}} = 15

这意味着你将从名单中每隔 15 个学生选取一个。

第二步:选择一个随机起始点

使用随机数表在 1 到 15 之间选择一个数字。假设你得到了 12。

第三步:系统地选取学生

从学生 #12 开始,每隔 15 个学生选取一个:

  • 学生 #12(起始点),学生 #27(12+1512 + 15
  • 学生 #42(27+1527 + 15),学生 #57(42+1542 + 15
  • … 继续直到学生 #2997(12+199×1512 + 199 \times 15

你将自动得到恰好 200 名学生!

然而,系统抽样有一个关键弱点:周期性(Periodicity)

示例:公寓楼调查

场景: 一位研究者想调查一栋 20 层公寓楼的居民。每层有 15 间公寓,编号为 01-15。公寓楼数据库按顺序列出:101, 102, …, 115, 201, 202, …, 215, … 2001, …, 2015。

共有 300 间公寓。研究者想要一个 20 间公寓的样本。

(a) 计算抽样间隔 kk:__________

(b) 如果你随机从学生 #7 开始,列出你将调查的前 5 名学生:

(c) 列出样本中最后 2 名学生:

(d) 这种抽样方法的潜在问题是什么?

还记得我们的第二个问题吗?简单随机抽样可能偶然地给了我们太少的重度用户,或者完全遗漏了重要的子群体。当以下情况时,这尤其成问题:

  • 不同子群体可能有截然不同的意见
  • 一些子群体规模小但至关重要
  • 你想在子群体之间进行比较

关键洞察: 如果我们能 保证 每个重要子群体都有代表性呢?

示例:HelloTea:了解你的顾客群体

通过初步研究,你发现学生根据茶饮消费量分为四个不同群体:

顾客类型定义人数
重度用户(Heavy Users)\geq 3 次/周300 名学生 (10%)
常规用户(Regular Users)1-2 次/周1,200 名学生 (40%)
轻度用户(Light Users)1-3 次/月900 名学生 (30%)
极少/非用户(Rare/Non-users)<< 1 次/月600 名学生 (20%)
合计3,000 名学生 (100%)

商业问题: 重度用户贡献了最多收入 —— 他们的意见至关重要!你如何确保他们在你的 200 人样本中得到充分代表?

定义:分层随机抽样(Stratified Random Sampling) 分层随机抽样 将总体根据特定特征划分为互不重叠的组,称为 层(Strata,stratum 的复数)。然后,在 每层内独立进行 简单随机抽样。

第一步:确定你的分层

选择以下特征:

  • 与你的研究问题相关
  • 在抽样前已知(你必须能够对总体成员进行分类)
  • 形成内部相似但彼此不同的群体

对于 HelloTea:四种用户类型(重度、常规、轻度、极少)

第二步:确定每层的样本量

选项 A — 等比例分配(Proportional Allocation): 按总体比例分配

总体比例样本量
重度用户30010%200×0.10=20200 \times 0.10 = 20
常规用户1,20040%200×0.40=80200 \times 0.40 = 80
轻度用户90030%200×0.30=60200 \times 0.30 = 60
极少/非用户60020%200×0.20=40200 \times 0.20 = 40
合计3,000100%200

第三步:在每层内随机抽样

假设你正在为 HelloTea 进行市场调查,但你遇到了一个新问题:

定义:配额抽样(Quota Sampling) 配额抽样 是一种方法,你将总体分成若干组(类似分层抽样),并为每组设定目标数量(配额,Quotas)。然而,与随机选择不同,你在每组内使用 便利抽样(Convenience Sampling) 直到配额填满。

与分层抽样的关键区别:组内的选择是 非随机的

第一步:定义你的配额

根据你对顾客群体的了解,你设定了与分层抽样相同的目标:

顾客类型配额
重度用户(3\geq 3 次/周)20
常规用户(1-2 次/周)80
轻度用户(1-3 次/月)60
极少/非用户(<< 1 次/月)40
合计200

第二步:便利抽样直到配额完成

你将调查团队安排在 HelloTea 和学校食堂附近。他们走近学生并:

  1. 问一个筛选问题:“你多久去一次 HelloTea?”
  2. 根据回答,将学生归入一个组
  3. 如果该组的配额未满,进行调查
  4. 如果配额已满,礼貌地拒绝并转向下一个学生
  5. 当所有配额填满时停止

示例对话:

  • 调查员: “打扰一下,你多久去一次 HelloTea?”
  • 学生: “大概一周两次。”
  • 调查员查看: 常规用户配额:65/80 已满 \checkmark
  • 调查员: “太好了!你介意回答几个关于你的体验的问题吗?“

现在我们已经通过解决实际问题的旅程探索了所有四种方法,让我们综合所学。

方法随机选择?主要优势主要劣势
简单随机是 — 完全随机无偏,理论上完美可能成本高;可能偶然遗漏子群体
系统抽样部分 — 随机起始,然后系统化易于执行;确保均匀分布易受周期性影响;比 SRS 随机性低
分层抽样是 — 在层内保证子群体代表性;更精确需要事先知道分层;更复杂
配额抽样否 — 配额内便利抽样快速、便宜、不需要名单非概率性;无法计算抽样误差

抽样不仅是技术问题,也是伦理问题:

  • 代表性: 我们的抽样方法是否给了每个人公平的发言权?
  • 偏差: 我们是否系统性地排除了某些群体?
  • 透明度: 我们是否诚实地说明了方法和局限性?
  • 滥用: 我们的结果是否可能被误解或滥用?

示例: 如果一项选举民意调查只调查某个选区的选民,他们将遗漏所有其他选区的选民 —— 他们的权利将无法得到适当代表。

你学到的抽样方法是以下内容的基础:

  • 统计推断(Statistical Inference): 从样本对总体得出结论
  • 置信区间(Confidence Intervals): 量化估计中的不确定性
  • 拟合优度检验(Goodness of Fit Tests): 检验模型与数据的拟合程度
  • 秩相关检验(Rank Correlation Tests): 检验两个变量是否以单调方式相关

展望: 在未来的章节中,你将学习如何分析通过这些抽样方法收集的数据、检验假设,以及用量化不确定性得出严谨的结论。