S3 第七章:国际考试复习
如何使用这份复习资料
Section titled “如何使用这份复习资料”这份讲义是 S3 各主题的高产出复习指南: 抽样 随机变量的组合 估计与置信区间 中心极限定理与均值检验 相关性 检验。
贯穿案例:HelloTea
Section titled “贯穿案例:HelloTea”我们将持续使用 HelloTea 来串联各知识点:
- 总体:所有学生(例如 3000 人)。
- 样本:例如通过某种抽样方法选取的 名学生。
- 数据类型:评分(1—5)、饮品选择(茶/咖啡/热巧克力)、屏幕时间等。
第一章复习:抽样方法(获取优质数据)
Section titled “第一章复习:抽样方法(获取优质数据)”定义:总体、样本、抽样框
- 总体(Population):感兴趣的完整群体。
- 样本(Sample):从总体中选取的观测值。
- 抽样框(Sampling Frame):你实际可以从中抽样的清单。
必须掌握的四种方法
Section titled “必须掌握的四种方法”| 方法 | 随机? | 如何操作 | 主要风险 / 局限 |
|---|---|---|---|
| 简单随机抽样(SRS) | 是 | 使用随机数生成器 / 随机数表选取 个编号 | 可能很耗时;可能偶然遗漏小子群 |
| 系统抽样(Systematic) | 部分 | 选随机起点,然后每隔 个取一个 | 周期性(清单中存在隐藏模式) |
| 分层抽样(Stratified) | 是(层内) | 分成若干层,每层内做简单随机抽样 | 需要事先知道分层信息;步骤较多 |
| 配额抽样(Quota) | 否 | 设定配额,然后在各配额内便利抽样 | 选择偏差;无法计算有效的抽样误差 / 推断保证 |
常见考试陷阱(来自考官报告)
Section titled “常见考试陷阱(来自考官报告)”- 遗漏编号步骤:在使用随机数之前,你必须明确说明将”对抽样框进行编号/标记(例如从 1 到 )”。
- 系统抽样错误:如果周期为 ,学生常常忘记不能选取两个相邻项。
- 模糊表述:说某个方法”更准确”或”更有代表性”通常不得分。使用精确术语,如”反映总体结构”(分层抽样)或”给每个个体等概率的选取机会”(简单随机抽样)。
- 配额抽样 vs 分层抽样:配额抽样存在访问员偏差(interviewer bias)(由选择调查对象的人造成),这意味着无法计算有效的抽样误差。
第二章复习:随机变量的组合
Section titled “第二章复习:随机变量的组合”期望与方差的核心规则
Section titled “期望与方差的核心规则”| 场景 | 记号 | 方差 |
|---|---|---|
| ”一个随机选取的袋子重量的 3 倍" | ||
| "3 个随机选取的袋子的总重量” |
常见考试陷阱(来自考官报告)
Section titled “常见考试陷阱(来自考官报告)”- 方差相减:学生经常写 。这是错误的!对于独立变量,方差总是相加:。
- 变量的平均:要找 5 个观测值的样本均值 的方差,你必须将分母平方:。很多人错误地除以 5 而不是 25。
- 无方向的差值:如果题目要求重量”差值”大于 5g 的概率,你必须计算 (双尾)。
- 标准化符号错误:当将标准化公式 等于临界值(例如 1.2816)时,确保符号匹配。如果概率区域暗示 低于均值, 必须为负!
第三章复习:估计、偏差、标准误、置信区间
Section titled “第三章复习:估计、偏差、标准误、置信区间”三个层次:参数、统计量、观测值
Section titled “三个层次:参数、统计量、观测值”定义:偏差(Bias)
标准误(Standard Error, SE)
Section titled “标准误(Standard Error, SE)”定义:标准误
置信区间(Confidence Interval, CI)
Section titled “置信区间(Confidence Interval, CI)”定义:一般形式
常见考试陷阱(来自考官报告)
Section titled “常见考试陷阱(来自考官报告)”- 错误解读:“有 95% 的概率 在这个区间内”(表述不正确)。应该说:“我们有 95% 的把握认为真实的总体均值在这个区间内。”
- 混淆标准差和标准误:标准差描述单个个体;标准误描述估计量的变异性。计算标准误时别忘了除以 !
- 假设的符号:假设中始终使用总体参数(如 ),不要使用样本统计量()。同时,清楚地定义下标(如 vs )。
- 置信区间的二项过程:如果要求 个计算出的置信区间中有 个包含 的概率,你必须使用二项分布 。
第四章复习:中心极限定理与均值推断
Section titled “第四章复习:中心极限定理与均值推断”中心极限定理(CLT)的实际含义
Section titled “中心极限定理(CLT)的实际含义”定理:中心极限定理(可用形式) 如果 为独立同分布,均值为 ,方差为 ,则对于大的 ,
单样本均值检验(大样本 检验思路)
Section titled “单样本均值检验(大样本 zzz 检验思路)”检验 ,
通过临界值或 值做出决策。
两均值之差(独立样本)
Section titled “两均值之差(独立样本)”如果两个独立的大样本:
使用样本标准差估计标准误。
常见考试陷阱(来自考官报告)
Section titled “常见考试陷阱(来自考官报告)”- 解释 CLT:很多学生说”样本服从正态分布”而失分。你必须说”样本均值近似服从正态分布”。
- 合并样本:当要求将两个样本视为一个合并样本时,不要计算加权标准差。求新的总体均值,并为新的总样本量 计算标准误。
- 在小 时使用 CLT,而总体明显偏态/重尾。
- **忘记”独立样本”**用于两样本公式。
- 混淆单尾和双尾临界区域。
第五章复习:相关性与秩相关
Section titled “第五章复习:相关性与秩相关”PMCC(皮尔逊)回顾
Section titled “PMCC(皮尔逊)回顾”给定配对数据 ,,
PMCC 检验(查表法)
Section titled “PMCC 检验(查表法)”- 将 与 对应的临界值比较。
斯皮尔曼秩相关
Section titled “斯皮尔曼秩相关”在以下情况使用秩:
- 关系是单调的但非线性的,或数据是有序的,或离群值破坏了皮尔逊方法。
如果没有并列秩,简捷公式:
使用斯皮尔曼临界值表检验 。
常见考试陷阱(来自考官报告)
Section titled “常见考试陷阱(来自考官报告)”- 并列秩:如果存在并列秩,你必须对秩使用完整的 PMCC 公式。 简捷公式仅在没有并列时有效!
- 字母编码:当给出字母(如等级 A、B、C)时,学生有时按字母顺序排秩,而不是按实际值/顺序。
- 假设:始终用 或 表述假设。不要使用 或仅用文字陈述。
- 结合情境的结论:仅说”存在相关性”是不够的。你必须包含方向和情境(例如”有证据表明年龄与价格之间存在正相关”)。
- 非线性关系:如果 PMCC 检验显示无显著相关,但斯皮尔曼检验显示显著相关,则强烈表明存在非线性关系。
第六章复习: 检验(拟合优度与独立性)
Section titled “第六章复习:χ2\chi^2χ2 检验(拟合优度与独立性)”统量(两种检验结构相同)
Section titled “χ2\chi^2χ2 统量(两种检验结构相同)”拟合优度检验(GOF)
Section titled “拟合优度检验(GOF)”- 适用场景:一个分类变量,检验指定的分布/模型。
- 假设::模型拟合;:模型不拟合。
- 自由度:,其中 从数据中估计的参数个数。
列联表中的独立性
Section titled “列联表中的独立性”- 适用场景:两个分类变量;检验关联性。
- 期望频率:。
- 自由度:。
常见考试陷阱(来自考官报告)
Section titled “常见考试陷阱(来自考官报告)”- 频率而非百分比:卡方检验必须使用原始频率(计数)。如果给出百分比,必须先转换回频率。
- 估计参数的假设:如果你估计了一个参数(如 ),不要在假设中包含 3.5。写”:泊松分布是合适的模型”(而不是”Po(3.5)”)。
- 自由度():学生在计算拟合优度检验的 时常常忘记减去 (估计参数的个数)。
- 正确合并:合并单元格是为了确保期望频率 。不要仅根据观测频率合并!
单页公式表(学生应记忆)
Section titled “单页公式表(学生应记忆)”- 期望:
- 方差(独立):
- 多个变量:
- 样本均值: ,
- 样本方差:
- 均值置信区间(大 ):
- CLT:
- PMCC:
- 斯皮尔曼(无并列):
- :
- 拟合优度自由度: ,独立性自由度: